'spark' 태그의 글 목록

Databricks Solutions Architect Champion 후기 (0)	2023.09.03
Databricks Data Engineer Professional Exam 후기 (4)	2023.06.18
용어정리 (0)	2016.02.06
현재값과 다음값 비교 자바 버전 compare current value & next value java version (0)	2015.11.13
spark 피어슨 상관계수 계산 (0)	2015.11.09

현재값과 다음값 비교 자바 버전 compare current value & next value java version

[BigData]/[Apache Spark] 2015. 11. 13. 10:40

// 인덱스 부여
JavaPairRDD<String, Long> lineIndexRDD = jsc.textFile(path).persist(storageLevel).zipWithIndex();

// key, value pair 로 변환 (key: index, value: line) index 는 0 부터 시작
JavaPairRDD<Long, String> currLine = lineIndexRDD.mapToPair(new PairFunction<Tuple2<String, Long>, Long, String>() {
    @Override
    public Tuple2<Long, String> call(Tuple2<String, Long> lineIndex) throws Exception {
        return new Tuple2<>(lineIndex._2(), lineIndex._1());
    }
});

// 다음값 추출
JavaPairRDD<Long, String> nextLine = lineIndexRDD.filter(new Function<Tuple2<String, Long>, Boolean>() {
    @Override
    public Boolean call(Tuple2<String, Long> v1) throws Exception {
        return v1._2() > 0;
    }
}).mapToPair(new PairFunction<Tuple2<String, Long>, Long, String>() {
    @Override
    public Tuple2<Long, String> call(Tuple2<String, Long> lineIndex) throws Exception {
        return new Tuple2<>(lineIndex._2() - 1, lineIndex._1());
    }
});

// 부여한 index 로 join
JavaRDD<String> compareResult = currLine.join(nextLine).map(new Function<Tuple2<Long, Tuple2<String, String>>, String>() {
    @Override
    public String call(Tuple2<Long, Tuple2<String, String>> indexCurrNext) throws Exception {
        String curr = indexCurrNext._2()._1();
        String next = indexCurrNext._2()._2();

// your compare logic
        return "";
    }
});

제외되는 값 없이 비교하기 (비교 대상이 없는 경우 다음 값 반환)

// 인덱스 부여
JavaPairRDD<String, Long> lineIndexRDD = jsc.textFile("").persist(null).zipWithIndex();

// key, value pair 로 변환 (key: index, value: line) index 는 0 부터 시작
JavaPairRDD<Long, String> currLine = lineIndexRDD.mapToPair(new PairFunction<Tuple2<String, Long>, Long, String>() {
    @Override
    public Tuple2<Long, String> call(Tuple2<String, Long> lineIndex) throws Exception {
        return new Tuple2<>(lineIndex._2(), lineIndex._1());
    }
});

// 다음값 추출
JavaPairRDD<Long, String> nextLine = lineIndexRDD.mapToPair(new PairFunction<Tuple2<String, Long>, Long, String>() {
    @Override
    public Tuple2<Long, String> call(Tuple2<String, Long> lineIndex) throws Exception {
        return new Tuple2<>(lineIndex._2() + 1, lineIndex._1());
    }
});

// 부여한 index 로 join
JavaRDD<String> compareResult = currLine.leftOuterJoin(nextLine).map(new Function<Tuple2<Long, Tuple2<String, Optional<String>>>, String>() {
    @Override
    public String call(Tuple2<Long, Tuple2<String, Optional<String>>> indexCurrNext) throws Exception {
        String next = indexCurrNext._2()._1();
        Optional<String> currOptional = indexCurrNext._2()._2();
        String curr = null;
        if (currOptional.isPresent()) {
            curr = currOptional.get();
        } else {
            return next;
        }

// your compare logic
        return next;
    }
});

저작자표시 변경금지 (새창열림)

'[BigData] > [Apache Spark]' 카테고리의 다른 글

Databricks Data Engineer Professional Exam 후기 (4)	2023.06.18
spark rest 호출 (0)	2016.02.18
용어정리 (0)	2016.02.06
spark 피어슨 상관계수 계산 (0)	2015.11.09
Apache Spark 1.5.0 설치 (0)	2015.09.21

Posted by FeliZ_하늘..

,

spark 피어슨 상관계수 계산

[BigData]/[Apache Spark] 2015. 11. 9. 01:40

import org.apache.spark.mllib.linalg._

import org.apache.spark.mllib.stat.Statistics

val r1 = util.Random.shuffle(0 to 10000).map(_.toDouble)

val r2 = util.Random.shuffle(0 to 10000).map(_.toDouble)

val r1RDD = sc.parallelize(r1, 5)

val r2RDD = sc.parallelize(r2, 5)

val corr = Statistics.corr(r1RDD, r2RDD, "pearson")

저작자표시 변경금지 (새창열림)

'[BigData] > [Apache Spark]' 카테고리의 다른 글

Databricks Data Engineer Professional Exam 후기 (4)	2023.06.18
spark rest 호출 (0)	2016.02.18
용어정리 (0)	2016.02.06
현재값과 다음값 비교 자바 버전 compare current value & next value java version (0)	2015.11.13
Apache Spark 1.5.0 설치 (0)	2015.09.21

Posted by FeliZ_하늘..

,

Apache Spark 1.5.0 설치

[BigData]/[Apache Spark] 2015. 9. 21. 23:02

일단 내 환경은 Apache Hadoop 2.6.0 을

fl1, fl2, fl3, fl4, fl5

총 5개의 centos 6.7 vm 에 설치하여

5개의 vm 전체에 spark 을 설치하여 standalone 모드로 돌려 볼 생각이다

fl1 - namenode, datanode, history-server, spark master

fl2 - datanode, spark slave

fl3 - datanode, spark slave

fl4 - datanode, spark slave

fl5 - datanode, spark slave

http://spark.apache.org/downloads.html

위 사이트에 들어가서 다운로드 받던지 아래를 실행하여 다운받고

적당한 위치로 다운받은 파일을 복사 후 압축을 푼다

그리고 아래를 실행하여 빌드를 한다

내가 설치한 하둡은 2.6.0 이어서 2.6 으로 줬다

혹시 maven perm gen 오류가 나면 아래를

~/.bashrc

~/.profile

~/.bash_profile

/etc/bashrc

/etc/profile

5개 중 하나에 추가한다

난 모든 사용자 공통으로 적용되도록 /etc/bashrc 에 추가했다

적절히 각자 환경에 맞는 곳에 추가한다

그리고 한참(나는 약 1시간 걸렸다) 지나면 빌드가 끝나고

spark-1.5.0-bin-custom-spark.tgz 파일이 생성된다.

파일을 일단 다른 곳에 복사해둔 뒤

소스와 같은 위치에 압축을 풀어준다

그리고 SPARK_HOME 과 PATH 를 등록해준다

그리고나서 아래 설정사항들을 입력한다

slaves

spark-defaults.conf

spark-env.sh

저작자표시 변경금지 (새창열림)

'[BigData] > [Apache Spark]' 카테고리의 다른 글

Databricks Data Engineer Professional Exam 후기 (4)	2023.06.18
spark rest 호출 (0)	2016.02.18
용어정리 (0)	2016.02.06
현재값과 다음값 비교 자바 버전 compare current value & next value java version (0)	2015.11.13
spark 피어슨 상관계수 계산 (0)	2015.11.09

Posted by FeliZ_하늘..

,

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

왕초보 프로그래머 Sky

'spark'에 해당되는 글 5건

spark rest 호출

'[BigData] > [Apache Spark]' 카테고리의 다른 글

용어정리

'[BigData] > [Apache Spark]' 카테고리의 다른 글

현재값과 다음값 비교 자바 버전 compare current value & next value java version

'[BigData] > [Apache Spark]' 카테고리의 다른 글

spark 피어슨 상관계수 계산

'[BigData] > [Apache Spark]' 카테고리의 다른 글

Apache Spark 1.5.0 설치

'[BigData] > [Apache Spark]' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바