익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
스파크
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
김형교
(
토론
|
기여
)
님의 2020년 1월 2일 (목) 22:35 판
(새 문서:
분류:데이터 분석
;Spark * UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리 * 인-메모리 방식의 분산 처리 시스템 == 등...)
(차이) ← 이전 판 |
최신판
(
차이
) |
다음 판 →
(
차이
)
Spark
UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리
인-메모리 방식의 분산 처리 시스템
등장 배경
기존 디스크 입출력에 대한 지연 시간 개선
반복적인 작업이나 실시간 처리를 위해 빠른 처리 필요
구조 및 구성 요소
SQL: 정형화된 SQL 지원
Streaming: 데이터 스트림을 세그먼트로 나눈 후 각각을 스파크 엔진으로 처리
MLlib:
회귀
,
SVM
,
의사 결정 나무
,
랜덤 포레스트
등
머신러닝
라이브러리 제공
GraphX: 페이지 랭크, 레이블 전파, 삼각 계수 등 그래프 알고리즘 지원
Core: 분산 처리, 스케줄링, API 인터페이스 지원
작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능
분류
:
데이터 분석
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
이 문서 인용하기
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
인쇄용 판
고유 링크
문서 정보
문서 기록
분류 목록
분류 목록
데이터 분석