본문 바로가기

분류 전체보기54

spark 소개 1. Apache Spark란? 아파치 스파크(Apache Spark)는 빅데이터 처리 및 분석에 사용되는 오픈 소스 분산 컴퓨팅 시스템이다. 암시적 데이터 병렬 및 내결함성을 사용하여 전체 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다. 스파크는 데이터 처리, 머신러닝, 그래프 처리 등 다양한 작업에 활용할 수 있다. 빠르고 범용적으로 설계되었으며, 하둡 분산 파일 시스템(HDFS), 아파치 카산드라, 아파치 HBase를 포함한 다양한 형식으로 저장된 데이터와 함께 작동할 수 있다. 2. Apache Spark 주요 특징 속도: Spark는 특정 유형의 워크로드에 대해 Hadoop MapReduce보다 최대 100배 빠르게 수행할 수 있는 메모리 내 처리 기능을 통해 빠르게 설계되었습니다. 범용성.. 2023. 1. 24.
GCE 가상환경 세팅 및 ssh 접속 1. 방화벽 규칙 설정 아이피와 포트는 적절하게 변경. 2. 인스턴스 템플릿 작성 이름 : spark-master-01 머신유형 : e2-standard-4(vCPU4개, 16GB메모리) 운영체제 : ubuntu 버전 : 20.04LTS 용량 : 30GB 3. 인스턴스 생성 이름 : spark-master-01 spark-worker-01 spark-worker-02 spark-worker-03 리전 : 아시아 *고정아이피 사용 : 사용안함(무료크레딧 사용기간를 늘리기위해...) 4. Visual Studio code로 ssh 접속 윈도우에서 진행할거기 때문에 puttygen 다운로드 후 Generate 누르기 (마우스 커서를 움직여야 생성이 진행됩니다) 생성이 완료되면 아래 적당한 값 넣어주면 됩니다... 2023. 1. 18.
[프로젝트] 고인물의 스팀 게임추천 #3 데이터탐색 앞에서 수집한 데이터를 mongoDB에서 아래와 같이 가져올 수 있다. nosql은 처음 사용해보는데 겉으로 보이는 모습만으로는 크롤링 할 때의 BeautifulSoup 사용하는것처럼 느껴진다 수집한 reiview 데이터에서 리뷰 자체가 없는 경우가 많아서 아래와 같이 빈 list 가 있는 것은 제외하여 가져왔다. docs = steam_appid.find({'reviews' : {"$ne": []}} ) docs 참고로 비교연산자는 아래와 같다 $lte : 작거나 같다. (less than or equal) $lt : 작다. (less than) $eq : 같다. (equal) $gte : 크거나 같다. (greater than or equal) $gt : 크다. (greater than) $ne : .. 2023. 1. 17.
[프로젝트] 고인물의 스팀 게임추천 #2 데이터수집 1. App list(아래 주소에서 api 정보 확인 가능) https://partner.steamgames.com/doc/webapi/ISteamApps ISteamApps Interface (Steamworks Documentation) Documentation Resources News & Updates Support partner.steamgames.com GetAppList 으로 스팀에 있는 모든 게임목록을 알 수 있다. API 구조는 아래와 같다. ### 응답 - applist - apps- 응용 프로그램이 포함된 목록입니다. - appid- uint32 - 이 애플리케이션의 앱 ID입니다. - name- 문자열 - 이 애플리케이션의 이름입니다. master 노드에서 데이터 수집을 진행하였고 .. 2023. 1. 12.
[프로젝트] 고인물의 스팀 게임추천 #1개요 프로젝트 시작 동기 사람의 시간은 유한하고, 게임을 할 수 있는 시간도 유한하므로 동일 시간 동안에 가장 재미있는 게임을 즐겨야 할 필요가 있음. 유튜브에서 여러 영상에서 많은 추천을 받은 '엘든링'이란 게임을 구매하여 플레이하였지만, 컨트롤의 한계를 느끼며 게임의 재미를 느끼기 힘들었음 기존 스팀에서 플레이했던 게임 중에서 플레이 시간이 길었던 게임의 태그들을 확인해보니 #생존, #시뮬레이션 등의 태그가 붙어있어 나의 게임 취향을 확인할 수 있었음. 때문에 나와 같은 취향의 사람들이 즐겁게 한 게임은 무엇일지 궁금함. 프로젝트 소개 steam에서 게임 리뷰에 있는 유저들의 아이디와 플레이시간을 수집하여 'ALS알고리즘'을 적용하여 사람들의 취향에 맞는 게임을 추천 프로젝트 기간 23년 1월 9일~ 23.. 2023. 1. 12.
Zeppelin(spark) 인터프리터 설정 1. spark(기존 편집) SPARK_HOME => /dahy/spark3 PYSPARK_PYTHON => python3 PYSPARK_DRIVER_PYTHON => python3 2. spark_stand (신규생성) Interpreter Name => spark_stand Interpreter group => spark SPARK_HOME => /dahy/spark3 spark.master => spark://spark-master-01:7177 spark.submit.deployMode => client spark.app.name => Zeppelin_STAND spark.driver.cores => 1 spark.driver.memory => 1g spark.executor.cores => 4 .. 2022. 12. 29.