반응형

http://docs.hortonworks.com/HDPDocuments/Ambari-2.2.2.0/bk_Installing_HDP_AMB/content/index.html


위 url 을 따라가면서 설치 진행했다


CentOS 6.7

jdk 1.7.0_80

HDP 2.4.2.0 with Ambari 2.2.2.0 (Pivotal HAWQ 2.0.0 포함 전체)


리눅스 서버 4대로 구성해봤다


1번 서버에 Ambari Server, NameNode, HAWQ Master, 그 외 각종 Master


2번 서버에 Secondary NameNode, Resource Manager, HAWQ Standby Master, 그 외 각종 Master


3,4번 서버에 DataNode, Node Manager, HAWQ segment, HBase Region Server


PHD 3.0.1.0-1 과 거의 비슷했다


다만 HDP 설치 도중 /usr/hdp/current/xxx-client/conf 디렉토리가 없다고 오류가 날 경우가 있었는데


그냥 수동으로 만들어주고 다시 Retry 를 해서 설치했다

반응형

'[BigData] > [HDP]' 카테고리의 다른 글

HAWQ 2.1.1.0 에서 pljava 활성화  (0) 2017.04.08
Posted by FeliZ_하늘..
,
반응형

직접 작성한 문서입니다


Apache Hadoop 2.7.2 버전 위에 HAWQ 2.0 dev 버전을 resource manager 를 yarn 으로 설치하고 HAWQ 에서 hdfs 와 web 의 파일을 읽어서 external table 을 만드는 것을 목표로 합니다.

Apache HAWQ 를 build, install 하는 순서와 명령어를 아주 자세하게 적어놓았습니다.

hadoop install 방법은 포함하지 않았고 pxf install 을 포함하고 있습니다.

먼저 챕터별 전체 실행 스크립트를 적어놓았고 그 뒤에 부분별 실행 스크립트를 적어놓았고 그 다음에 실행 한 결과 로그를 적어놓았습니다.

문서는 asciidoc 으로 작성하였으며 repository 내에 asciidoc 파일 및 pdf 파일도 포함되어 있습니다.

잘못된 점이 있으면 hskimsky@gmail.com 으로 메일 주시기 바랍니다.

빌드 성공을 기원합니다.


https://github.com/HaNeul-Kim/apache-hawq-build

반응형
Posted by FeliZ_하늘..
,
반응형

CentOS 6.7

Oracle JDK 1.7.0_80

Apache Maven 3.3.9

Python 2.6.6

Apache Hadoop 2.7.2

Apache HAWQ 2.0.0.0 dev

PXF 3.0.0


위 사양으로 설치 완료

Apache HAWQ build 만 6개월정도 삽질 한 듯..

문서에서는 gcc 버전을 4.7.2 이상 쓰라는데

centos 6.7에서 gcc 버전 4.7.2 로 올리면 yum 이 안됨

(나는 그냥 default 인 4.4.7 로 했음)

kernal 옵션 설정시 본인의 사양과 잘 비교하면서 할 것. 부팅이 불가할 수도 있음

semaphore 설정은 필수임

PXF 설치도 자잘하게 해줘야 할 것들이 많음

PXF 는 51200 port 로 실행하고 external table location 의 port 도 51200 으로 사용함


지금은 single node 로 구성했는데

조만간 vm 4개정도로 HAWQ HA 구성까지 하면서 메뉴얼 작성 해봐야겠다


반응형
Posted by FeliZ_하늘..
,
반응형

https://github.com/cloudera/hue/tree/master/apps/spark/java


cloudera 에서 만든 hue 안에 있는 Livy


hue 와 디펜던시가 없다 함

반응형
Posted by FeliZ_하늘..
,
반응형

Application

순차적으로나 병렬로 어떤 데이터 처리 로직과 잡의 시리즈를 스케쥴 가능한 SparkContext 의 인스턴스 하나.

보통 Driver 로 쓰이는 클래스 하나를 뜻하는 듯하다.


Job

driver application 에 의해 발생한 action 이나 데이터 저장이 끝난 RDD 에서 transformation 의 완전한 집합.

action 이 일어나기 전까지의 transformation 을 합쳐서 Job 이라고 하는 듯하다.


Stage

독립된 워커 하나에 의해 파이프라인되고 실행된 transformation 의 집합. 대게 transformation 사이의 "read", "shuffle", "action", "save".

Job 사이에 일어나는 연산들을 말하는 듯하다.


Task

데이터 파티션 하나에서 Stage 의 실행. 스케쥴링의 기본 단위.

RDD 가 파티션 된 하나 정도라고 보면 될 듯하다.


참고 : http://www.slideshare.net/AGrishchenko/apache-spark-architecture

위 사이트에서 60~69페이지

반응형
Posted by FeliZ_하늘..
,
반응형


제외되는 값 없이 비교하기 (비교 대상이 없는 경우 다음 값 반환)


반응형

'[BigData] > [Apache Spark]' 카테고리의 다른 글

Databricks Data Engineer Professional Exam 후기  (2) 2023.06.18
spark rest 호출  (0) 2016.02.18
용어정리  (0) 2016.02.06
spark 피어슨 상관계수 계산  (0) 2015.11.09
Apache Spark 1.5.0 설치  (0) 2015.09.21
Posted by FeliZ_하늘..
,
반응형

import org.apache.spark.mllib.linalg._

import org.apache.spark.mllib.stat.Statistics


val r1 = util.Random.shuffle(0 to 10000).map(_.toDouble)

val r2 = util.Random.shuffle(0 to 10000).map(_.toDouble)


val r1RDD = sc.parallelize(r1, 5)

val r2RDD = sc.parallelize(r2, 5)


val corr = Statistics.corr(r1RDD, r2RDD, "pearson")

반응형
Posted by FeliZ_하늘..
,
반응형

처음 목표는 phd 에 tajo 설치였으나 아직 phd 는 지원하지 않는건지 실패하고나서


apache hadoop 에 tajo 를 설치하였다


os 는 rhel 6.6

hadoop 은 apache hadoop 2.6.0

노드 2개로 하둡 클러스터를 구성하였다

1번에 Namenode, HistoryServer, Datanode

2번에 ResourceManager, Datanode

tajo 는 0.11.0


TajoMaster 는 1번

TajoWorker 는 1번, 2번

Catalog 는 mysql 로 할 계획이다


설치 후 start-tajo.sh 를 실행하였는데 실행이 잘 되는듯 보였으나


1번에 TajoMaster 가 올라오지 않았다


로그를 보니(아래 로그 참조) PARTITION_KEYS table 생성시 key was too long 이란다


mysql character set 이 utf8 이어서 그랬다


그래서 임시로 다시 latin 으로 변경(utf8 설정을 주석) 후 mysqld 재시작 하고


tajo database 를 다시 만든 후에 start-tajo.sh 를 실행하니 정상적으로 올라왔다


tsql 도 정상 실행 되었다


tajo 실행시 mysql catalog create 문은

https://github.com/apache/tajo/blob/master/tajo-catalog/tajo-catalog-server/src/main/resources/schemas/mysql/mysql.xml

에서 확인할 수 있다


mysql 설정을 다시 utf8 로 바꾼 후 tajo 를 재시작 해도 잘 실행되었다






2015-11-01 21:05:52,224 WARN org.apache.tajo.catalog.store.XMLCatalogSchemaManager: Failed to drop database objects TABLE PARTITION_KEYS

2015-11-01 21:05:52,225 ERROR org.apache.tajo.catalog.CatalogServer: CatalogServer initialization failed

java.lang.reflect.InvocationTargetException

        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)

        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)

        at java.lang.reflect.Constructor.newInstance(Constructor.java:526)

        at org.apache.tajo.catalog.CatalogServer.serviceInit(CatalogServer.java:135)

        at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163)

        at org.apache.hadoop.service.CompositeService.serviceInit(CompositeService.java:107)

        at org.apache.tajo.master.TajoMaster.serviceInit(TajoMaster.java:213)

        at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163)

        at org.apache.tajo.master.TajoMaster.main(TajoMaster.java:603)

Caused by: org.apache.tajo.exception.TajoInternalError: internal error: internal error: Specified key was too long; max key length is 1000 bytes

        at org.apache.tajo.catalog.store.AbstractDBStore.<init>(AbstractDBStore.java:190)

        at org.apache.tajo.catalog.store.MySQLStore.<init>(MySQLStore.java:34)

        ... 10 more



반응형

'[BigData] > [Apache TAJO]' 카테고리의 다른 글

apache tajo 설치  (0) 2015.07.02
Posted by FeliZ_하늘..
,
반응형

2016-05-14 현재 PHD 지원 중단으로 다운로드가 전부 불가능함.


#########################################################


생략된 부분이 아주 많으므로


pivotal guide 를 꼭 읽어보면서 진행한다


http://pivotalhd.docs.pivotal.io/docs/install-ambari.html


rhel 6.6

jdk1.7.0_79

PHD 3.0.1.0

Ambari 1.7.1


위의 환경에서 진행하였고 HAWQ 는 설치하지 않았다


중간에 yum repository 를 dvd 로 잡아주는 과정이 있다


###################################################################


install PHD3.0.1.0 with Ambari 1.7.1


모든 서버에 ambari-server 를 설치할 서버의 ssh public key 가


~/.ssh/authorized_keys 에 등록돼 있어야 한다


자기 자신과도 키 교환을 해야 한다


모든 작업은 root 로 진행했다


############## 아래 명령어들을 모든 노드에서 실행


vi /etc/hosts

# 아이피를 적절히 넣어준다. 3번째 열 ex1.phd.local 이 부분이 중요하다

# fqdn 인데 . 으로 구분하고 맨 앞에 host 그 뒤가 도메인 네임이다

# host 는 되도록 아래 형식과 비슷하게 하는 것이 나중에 ambari 에서 host 등록이 편하다

# 뭐 크게 불편한 것도 아니지만..

123.123.123.111 ex1 ex1.phd.local

123.123.123.112 ex2 ex2.phd.local

123.123.123.113 ex3 ex3.phd.local

123.123.123.114 ex4 ex4.phd.local

123.123.123.115 ex5 ex5.phd.local

123.123.123.116 ex6 ex6.phd.local


# 시간 동기화를 해준다 돼있다면 필요없다

date

rdate -s time.bora.net

date


service iptables stop


mkdir -p /etc/sysctl.d

( cat > /etc/sysctl.d/99-hadoop-ipv6.conf <<-'EOF'

## Disabled ipv6

## Provided by Ambari Bootstrap

net.ipv6.conf.all.disable_ipv6 = 1

net.ipv6.conf.default.disable_ipv6 = 1

net.ipv6.conf.lo.disable_ipv6 = 1

EOF

    )

sysctl -e -p /etc/sysctl.d/99-hadoop-ipv6.conf

vi /etc/rc.local 


if test -f /sys/kernel/mm/redhat_transparent_hugepage/enabled; then 

   echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled; fi

if test -f /sys/kernel/mm/redhat_transparent_hugepage/defrag; then 

   echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag; fi


setenforce 0

vi /etc/selinux/config

SELINUX=disabled


vi /etc/yum/pluginconf.d/refresh-packagekit.conf

# 1 => 0



reboot


cat /sys/kernel/mm/redhat_transparent_hugepage/enabled

cat /sys/kernel/mm/redhat_transparent_hugepage/defrag 

# 둘 다 아래의 결과가 나와야 한다

    always madvise [never]


mkdir /usr/java

cd /usr/java

# jdk 를 다운받아 놨다

tar zxvf ~/Downloads/jdk-7u79-linux-x64.gz -C /usr/java/

ln -s /usr/java/jdk1.7.0_79/ /usr/java/default

# 각자 알아서 좋아하는 위치에 export 한다

vim /etc/bashrc


export JAVA_HOME=/usr/java/default


export PATH=$JAVA_HOME/bin:$PATH


source /etc/bashrc

java -version


# yum repository 에 rhel dvd 를 추가한다
vi /etc/yum.repos.d/rhel-dvd.repo


[rhel-dvd]

name=Red Hat Enterprise Linux $releasever - $basearch - DVD

baseurl=file:///media/RHEL-6.6\ Server.x86_64/

gpgcheck=0


yum clean all


# ntpd 를 시작하지 않으면 ambari 에서 설치시 warning 이 뜬다

service ntpd start


########## ambari-server 가 설치된 서버에서만 실행

service httpd start

mkdir /staging

chmod a+rx /staging

tar zxvf ~/Downloads/AMBARI-1.7.1-88-centos6.tgz -C /staging/

/staging/AMBARI-1.7.1/setup_repo.sh

setenforce 0

curl http://ex1/AMBARI-1.7.1/repodata/repomd.xml


cd /staging

yum -y install ambari-server

# JCE 도 미리 받아놨다

cp UnlimitedJCEPolicyJDK7.zip /var/lib/ambari-server/resources/


# 아래 순서대로 입력한다

# java 는 custom java 로 하고 db 는 embedded postgresql 을 사용한다

# mysql 로 해도 되는데 mysql 로 했다가

# hive 를 ambari-server 와 같은 위치에 설치했다가 ambari 가 죽었다

ambari-server setup

n

2

/usr/java/default

n

ambari-server start

# PHD 관련된 것들을 미리 받아놨다

tar xvf PHD-UTILS-1.1.0.20-centos6.tar

tar zxvf PHD-3.0.1.0-1-centos6.tgz

PHD-UTILS-1.1.0.20/setup_repo.sh

PHD-3.0.1.0/setup_repo.sh

yum repolist


이제 터미널 작업 끝


browser 에서 http://ex1:8080 접속

admin // admin 접속

Launch Install Wizard 버튼 클릭



ex (원하는 이름) 입력 후 Next 버튼 클릭



Advanced Repository Options 클릭

redhat6 만 남기고 모두 체크 해제


http://ex1/PHD-UTILS-1.1.0.20

http://ex1/PHD-3.0.1.0

입력



ex[1-6].phd.local

입력

Provide.... 라디오버튼 클릭

ambari-server 설치된 곳의 ssh private key 선택

root

Register and Confirm 버튼 클릭

OK 클릭



실패할 경우엔 키교환이 모든 서버와 잘 돼있는지 확인한다

그래도 실패할 경우 서버마다 전부 root 로 로그인 해주고나서 Back 누르고 다시 Register and Confirm 눌러본다

Next



일단 전부 설치하고 서비스를 죽이려고 한다 Next



1번에 너무 몰아서 설치하는 느낌이 있긴 하지만 거의 대부분 서비스 종료시킬 것이다 Next



ex5, ex6 의 client 만 추가로 체크해줬다 Next



빨간불이 몇개 들어와 있을텐데 적절히 설정하여 빨간 불을 꺼준다 Next



리뷰 한번 봐 주고 프린트도 하려면 하고 Deploy!!!!!



실패할 경우 모든 서버의 yum repository 가 잘 설정 돼있는지 확인한다 Next



끝! Complete!!!!


Loading...



Dashboard 를 확인할 수 있다

반응형
Posted by FeliZ_하늘..
,
반응형
일단 내 환경은 Apache Hadoop 2.6.0 을

fl1, fl2, fl3, fl4, fl5

총 5개의 centos 6.7 vm 에 설치하여

5개의 vm 전체에 spark 을 설치하여 standalone 모드로 돌려 볼 생각이다

fl1 - namenode, datanode, history-server, spark master
fl2 - datanode, spark slave
fl3 datanode, spark slave
fl4 datanode, spark slave
fl5 datanode, spark slave


위 사이트에 들어가서 다운로드 받던지 아래를 실행하여 다운받고

적당한 위치로 다운받은 파일을 복사 후 압축을 푼다


그리고 아래를 실행하여 빌드를 한다


내가 설치한 하둡은 2.6.0 이어서 2.6 으로 줬다



혹시 maven perm gen 오류가 나면 아래를

~/.bashrc

~/.profile

~/.bash_profile

/etc/bashrc

/etc/profile

5개 중 하나에 추가한다


난 모든 사용자 공통으로 적용되도록 /etc/bashrc 에 추가했다


적절히 각자 환경에 맞는 곳에 추가한다



그리고 한참(나는 약 1시간 걸렸다) 지나면 빌드가 끝나고


spark-1.5.0-bin-custom-spark.tgz 파일이 생성된다.


파일을 일단 다른 곳에 복사해둔 뒤


소스와 같은 위치에 압축을 풀어준다



그리고 SPARK_HOME 과 PATH 를 등록해준다



그리고나서 아래 설정사항들을 입력한다


slaves



spark-defaults.conf



spark-env.sh




반응형
Posted by FeliZ_하늘..
,