스파크 DataFrame

IT위키
보안기사 (토론 | 기여)님의 2020년 10월 12일 (월) 15:57 판 (새 문서: * 상위 문서: 스파크, 데이터프레임 '''Spark DataFrame''' 스파크에서 정형 데이터처리를 위해 사용되는 데이터셋 객체 * R, 파이썬 Pandas...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

Spark DataFrame

스파크에서 정형 데이터처리를 위해 사용되는 데이터셋 객체

  • R, 파이썬 Pandas 등 유사한 개념을 제공하는 기존 언어들에 영향을 받아 스파크 버전 1.3부터 지원
  • RDD를 기반으로 동작하며 Spark SQL 사용에 최적화 됨

생성 방법[편집 | 원본 편집]

  • 기존 RDD를 DataFrame으로 변환
  • 외부 데이터에서 로드하여 DataFrame 생성
  • SQL 쿼리 실행결과로 DataFrame 생성