스파크: 두 판 사이의 차이

IT 위키

2020년 3월 8일 (일) 16:50 판

Spark
인-메모리 기반의 분산 데이터 처리 시스템

UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리
인-메모리 방식의 분산 처리 시스템

등장 배경

기존 디스크 입출력에 대한 지연 시간 개선
반복적인 작업이나 실시간 처리를 위해 빠른 처리 필요

구조 및 구성 요소

SQL: 정형화된 SQL 지원
Streaming: 데이터 스트림을 세그먼트로 나눈 후 각각을 스파크 엔진으로 처리
MLlib: 회귀, SVM, 의사 결정 나무, 랜덤 포레스트 등 머신러닝 라이브러리 제공
GraphX: 페이지 랭크, 레이블 전파, 삼각 계수 등 그래프 알고리즘 지원
Core: 분산 처리, 스케줄링, API 인터페이스 지원
작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능

RDD

Resilient Distribute Dataset

데이터 내장애성 보유 구조
데이터 집합의 추상적객체 개념

참조 문헌

빅데이터 051 인메모리 데이터 처리 기반 SW의 등장(구자환 교수님)

원본 주소 "https://itwiki.kr/index.php?title=스파크&oldid=7608"

데이터/통계학