본문 바로가기

Spark

(1)

SPARK - RDD, Dataframe, Dataset Spark - 분산처리에 특화되어 있으며 Hadoop과 달리 인메모리 형식(HDD X / RAM O) RDD(Resilient Distributed Dataset) Spark의 분산된 데이터에 대한 자료구조 MapReduce 작업을 위한 자료구조 병렬처리 빠른 연산 Immutable 변경되지 않으며 변경을 원할 시 다른 RDD를 생성해야한다. Transformation과 Action으로 함수가 나뉜다. Transformation은 Lineage를 통해 기록해두고 Action에서 이를 전부 실행한다.(Lazy Evaluation) Dataset에 비해 캐싱 처리시 메모리 사용량이 많다. 자바직렬화를 사용하기 때문에 데이터프레임처럼 스파크의 스키마를 관리하고 노드 간 데이터를 전달하는 것보다 비효율적이다. ..

이전 1 다음

티스토리툴바