본문 바로가기

Apache spark

(2)
[Apache Spark] 실습을 위한 로그 파일 생성 Apache Spark는 대규모 데이터 처리를 위한 오픈 소스 클러스터 컴퓨팅 프레임워크로, 대규모 데이터셋을 효과적으로 처리할 수 있습니다. 이를 실습하기 위해 사용할 로그 파일을 생성하는 파이썬 코드를 작성해 보도록 하겠습니다. 실습에 사용할 로그 파일 결과물 112.85.179.101,2023-11-28 21:33:50,PUT,/auth,403,90 68.26.205.170,2023-11-28 21:37:11,DELETE,/auth,404,8 152.244.89.140,2023-11-28 21:34:32,PATCH,/customer,200,27 162.125.162.55,2023-11-28 21:34:48,POST,/products,200,64 239.158.199.177,2023-11-28 21:..
[Apache Spark] RDD란 무엇인가? Apache Spark는 대규모 데이터 처리를 위한 오픈 소스 클러스터 컴퓨팅 프레임워크로 분산 데이터 처리를 간편하게 할 수 있는 기능을 제공합니다. 그 중에서도 RDD(Resilient Distributed Dataset)는 Spark의 핵심 개념 중 하나입니다. RDD란 무엇인가? RDD는 데이터를 여러 노드에 분산하여 처리할 수 있는 데이터 구조입니다. 이는 Spark가 대량의 데이터를 효율적으로 처리하고 분석하기 위한 기반을 제공합니다. 간단하게 말하면, RDD는 여러 노드에 나누어 저장된 변경 불가능한 객체 모음이며, 데이터에 대한 병렬 처리를 가능케 합니다. RDD의 특징 1. 탄력성 (Resilience) : RDD는 변경 불가능한 데이터 구조이므로, 노드에 장애가 발생하도 다른 노드에 복..