[Hadoop] Spark RDD와 DataFrame, 그리고 Dataset 최근 업무에서 테이블 형식의 데이터를 정제하는 과정에서 spark를 활용해보기 시작했다. 예전에 한창 데이터 분석을 배울 때 많이 사용하던 pandas와 유사하게 접근할 수 있는 dataframe으로 많이 작업을 진행하게 됐는데, 특정 열의 목록을 list 형식으로 추출하는 등의 작업에서는 RDD로만 작업이 가능한 케이스가 존재했다.그래서 이번 글에서는 RDD와 DataFrame, 그리고 DataFrame과 같이 종종 등장하는 개념인 DataSet은 각각 무엇인지 어떨 때 활용하면 좋은 것인지 살펴본 뒤, DataFrame을 많이 활용하는 추세임에도 불구하고 여전히 RDD를 같이 활용되고 있는 이유에 대해 알아보고자 한다. RDD(Resilient Distributed Datasets)RDD를 용어 그대.. 이전 1 다음