Spark
-
저번 포스팅에서 도커 스웜을 활용해 스파크 클러스터를 구현하는 방법을 다뤘다.하지만, 모든 개발이 그렇듯, 테스트를 거쳐야 배포도 하는 것..이번엔 스파크 클러스터에 제출하기 전에, 동작하는지 테스트하기 위한 로컬 환경을 구축하는 방법에 대해 다룰 예정이다.스파크 클러스터 구축이 궁금하신 분들은 여기...https://9unu.tistory.com/34 TODO list로컬 환경 구축 전 핵심 개념 (스파크 = 자바 프레임워크)Java 설치 및 환경변수 설정Spark 설치 및 설정필요한 커넥터 및 라이브러리 설치마무리1. 로컬 환경 구축 전 핵심 개념 (스파크 = 자바 프레임워크)사실 로컬 환경 구축이 귀찮을 뿐, 중요한 내용은 없어서 빠르게 명령어 위주로 슥슥 하고 끝낼 것이다.그전에 핵심만 좀 짚자면..
[Spark] 로컬 환경 구축하기!저번 포스팅에서 도커 스웜을 활용해 스파크 클러스터를 구현하는 방법을 다뤘다.하지만, 모든 개발이 그렇듯, 테스트를 거쳐야 배포도 하는 것..이번엔 스파크 클러스터에 제출하기 전에, 동작하는지 테스트하기 위한 로컬 환경을 구축하는 방법에 대해 다룰 예정이다.스파크 클러스터 구축이 궁금하신 분들은 여기...https://9unu.tistory.com/34 TODO list로컬 환경 구축 전 핵심 개념 (스파크 = 자바 프레임워크)Java 설치 및 환경변수 설정Spark 설치 및 설정필요한 커넥터 및 라이브러리 설치마무리1. 로컬 환경 구축 전 핵심 개념 (스파크 = 자바 프레임워크)사실 로컬 환경 구축이 귀찮을 뿐, 중요한 내용은 없어서 빠르게 명령어 위주로 슥슥 하고 끝낼 것이다.그전에 핵심만 좀 짚자면..
2025.05.08 -
저번 포스팅에서 도커 스웜을 구축하는 방법에 대해 포스팅했으니,이번 포스팅에선 도커 스웜을 활용하여 스파크 클러스터를 구축하는 방법에 대해 포스팅하려한다.아직 스파크 기본 개념과 도커 스웜에 대한 포스팅을 못 본 분들은 여기..https://9unu.tistory.com/32 [Spark] 스파크...왜 쓰는걸까? (하둡부터 스파크까지)지금까지는 전체적인 데이터 파이프라인 작업을 관리하는 Airflow에 대해 알아봤으니,이번엔 작업 들 중 '분산 데이터 처리'의 대명사로 불리는 Spark에 대한 포스팅을 시작해보려한다.당연히 이번9unu.tistory.comhttps://9unu.tistory.com/33TODO list1. 도커 스웜과 스파크 클러스터의 관계 복기2. 커스텀 스파크 이미지 생성3. 스파..
[Spark] 도커 스웜으로 스파크 클러스터 구축하기!저번 포스팅에서 도커 스웜을 구축하는 방법에 대해 포스팅했으니,이번 포스팅에선 도커 스웜을 활용하여 스파크 클러스터를 구축하는 방법에 대해 포스팅하려한다.아직 스파크 기본 개념과 도커 스웜에 대한 포스팅을 못 본 분들은 여기..https://9unu.tistory.com/32 [Spark] 스파크...왜 쓰는걸까? (하둡부터 스파크까지)지금까지는 전체적인 데이터 파이프라인 작업을 관리하는 Airflow에 대해 알아봤으니,이번엔 작업 들 중 '분산 데이터 처리'의 대명사로 불리는 Spark에 대한 포스팅을 시작해보려한다.당연히 이번9unu.tistory.comhttps://9unu.tistory.com/33TODO list1. 도커 스웜과 스파크 클러스터의 관계 복기2. 커스텀 스파크 이미지 생성3. 스파..
2025.05.08 -
지금까지는 전체적인 데이터 파이프라인 작업을 관리하는 Airflow에 대해 알아봤으니,이번엔 작업 들 중 '분산 데이터 처리'의 대명사로 불리는 Spark에 대한 포스팅을 시작해보려한다.당연히 이번에도 시작은 스파크가 왜 필요한지부터 이해하는 것으로 시작~!TODO List스파크는 왜 필요한가?하둡의 등장스파크의 등장스파크 핵심 이론 (파티셔닝, 맵리듀스...)마무리1. 스파크는 왜 필요한가?일단 스파크가 왜 필요한지에 대해 이해하려면 '데이터 처리 과정'부터 알아야한다.데이터 처리 과정이라고 하면, 어려울 것 같지만 기본 전제만 알면 된다. '데이터를 처리하려면, 일단 데이터를 메모리에 올려야한다.' 일전에 CS지식 포스팅하면서 잠깐 언급했지만, 컴퓨터는 기본적으로 데이터를 메모리에 올려놓고 CPU 연..
[Spark] 스파크...왜 쓰는걸까? (하둡부터 스파크까지)지금까지는 전체적인 데이터 파이프라인 작업을 관리하는 Airflow에 대해 알아봤으니,이번엔 작업 들 중 '분산 데이터 처리'의 대명사로 불리는 Spark에 대한 포스팅을 시작해보려한다.당연히 이번에도 시작은 스파크가 왜 필요한지부터 이해하는 것으로 시작~!TODO List스파크는 왜 필요한가?하둡의 등장스파크의 등장스파크 핵심 이론 (파티셔닝, 맵리듀스...)마무리1. 스파크는 왜 필요한가?일단 스파크가 왜 필요한지에 대해 이해하려면 '데이터 처리 과정'부터 알아야한다.데이터 처리 과정이라고 하면, 어려울 것 같지만 기본 전제만 알면 된다. '데이터를 처리하려면, 일단 데이터를 메모리에 올려야한다.' 일전에 CS지식 포스팅하면서 잠깐 언급했지만, 컴퓨터는 기본적으로 데이터를 메모리에 올려놓고 CPU 연..
2025.05.07