본문 바로가기

data processing/spark5

Spark RDD 프로그래밍 Apache Spark에서 RDD(Resilient Distributed Datasets)를 사용한 프로그래밍에는 Transformations과 Actions이라는 두 가지 주요 작업이 있습니다. Transformations: Transformation은 기존 RDD에서 새 RDD를 생성하는 작업입니다. 일반적인 Transformation의 몇 가지 예에는 map, filter 및 groupBy가 포함됩니다. Transformation은 lazy합니다. 즉, Actions이 이뤄지기 전까지는 실행되지 않습니다. 이를 통해 Spark는 실행 계획을 최적화하고 데이터 셔플링을 최소화할 수 있습니다. Actions: Action은 값을 반환하거나 side effect를 생성하는 작업입니다. 일반적인 Actio.. 2023. 1. 24.
spark 소개 1. Apache Spark란? 아파치 스파크(Apache Spark)는 빅데이터 처리 및 분석에 사용되는 오픈 소스 분산 컴퓨팅 시스템이다. 암시적 데이터 병렬 및 내결함성을 사용하여 전체 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다. 스파크는 데이터 처리, 머신러닝, 그래프 처리 등 다양한 작업에 활용할 수 있다. 빠르고 범용적으로 설계되었으며, 하둡 분산 파일 시스템(HDFS), 아파치 카산드라, 아파치 HBase를 포함한 다양한 형식으로 저장된 데이터와 함께 작동할 수 있다. 2. Apache Spark 주요 특징 속도: Spark는 특정 유형의 워크로드에 대해 Hadoop MapReduce보다 최대 100배 빠르게 수행할 수 있는 메모리 내 처리 기능을 통해 빠르게 설계되었습니다. 범용성.. 2023. 1. 24.
Zeppelin(spark) 인터프리터 설정 1. spark(기존 편집) SPARK_HOME => /dahy/spark3 PYSPARK_PYTHON => python3 PYSPARK_DRIVER_PYTHON => python3 2. spark_stand (신규생성) Interpreter Name => spark_stand Interpreter group => spark SPARK_HOME => /dahy/spark3 spark.master => spark://spark-master-01:7177 spark.submit.deployMode => client spark.app.name => Zeppelin_STAND spark.driver.cores => 1 spark.driver.memory => 1g spark.executor.cores => 4 .. 2022. 12. 29.
Zeppelin 환경구성 1. 다운로드, 압축해제, 이름변경 $ cd /dahy $ wget https://archive.apache.org/dist/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz $ tar xvfz zeppelin-0.10.1-bin-all.tgz $ mv zeppelin-0.10.1-bin-all zeppelin0 2. zeppelin 설정 $ cd /dahy/zeppelin0/conf $ cp zeppelin-site.xml.template zeppelin-site.xml $ vi zeppelin-site.xml .... zeppelin.server.addr 0.0.0.0 //--ip 변경.... 127.0.0.1 => 0.0.0.0 Server binding.. 2022. 12. 29.
SPARK 서버 환경 구성 계정관련 설정 1. user 계정 생성 $sudo useradd dahy -m -s /bin/bash 2. 계정 암호 설정 $sudo passwd dahy 3. 계정 삭제(option) $sudo userdel -r dahy 4. sudo 권한 설정 $sudo visudo dahy ALL =(ALL) NOPASSWD:ALL 5. 계정 전환 $sudo su - dahy 6. 디렉토리 생성 $sudo mkdir /dahy 7. 디렉토리 소유자 변경 $sudo chown dahy:dahy /dahy 8. 각종 필요 유틸 설치 $ sudo apt install -y wget unzip bzip2 net-tools HOSTS 설정 1. hostname 변경(서버별) $sudo hostnamectl set-host.. 2022. 12. 28.