본문 바로가기

rdd

(2)
[Apache Spark] RDD란 무엇인가? Apache Spark는 대규모 데이터 처리를 위한 오픈 소스 클러스터 컴퓨팅 프레임워크로 분산 데이터 처리를 간편하게 할 수 있는 기능을 제공합니다. 그 중에서도 RDD(Resilient Distributed Dataset)는 Spark의 핵심 개념 중 하나입니다. RDD란 무엇인가? RDD는 데이터를 여러 노드에 분산하여 처리할 수 있는 데이터 구조입니다. 이는 Spark가 대량의 데이터를 효율적으로 처리하고 분석하기 위한 기반을 제공합니다. 간단하게 말하면, RDD는 여러 노드에 나누어 저장된 변경 불가능한 객체 모음이며, 데이터에 대한 병렬 처리를 가능케 합니다. RDD의 특징 1. 탄력성 (Resilience) : RDD는 변경 불가능한 데이터 구조이므로, 노드에 장애가 발생하도 다른 노드에 복..
[Apache Spark] 로컬 환경에 설치 및 간단 예제 이번에는 로컬 환경에 Apache Spark를 설치하고 간단한 예제를 작성하여 실습을 진행해 보도록 하겠습니다. 저는 macOS를 사용하고 있어서, 윈도우 환경에서 진행하시는 분들과는 약간의 차이가 있을 수 있습니다. 자바 설치 먼저 Apache Spark에 필요한 Java를 설치해 줍니다. 자바 설치 방법은 다양하기 때문에 따로 설명을 추가하진 않겠습니다. java --version 터미널에서 위 명령어를 입력했을 때, 버전 정보가 정상적으로 출력된다면 설치가 완료된 것 입니다. IDE 설치 코드 작성에 사용할 IDE를 설치 해 줍니다. 저는 PyCharm을 사용하도록 하겠습니다. PyCharm 이외에 본인이 편하신 IDE를 사용하셔도 됩니다. https://www.jetbrains.com/produc..