익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT위키
검색
스파크
IT위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
김형교
(
토론
|
기여
)
님의 2020년 1월 2일 (목) 22:35 판
(새 문서:
분류:데이터 분석
;Spark * UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리 * 인-메모리 방식의 분산 처리 시스템 == 등...)
(차이) ← 이전 판 |
최신판
(
차이
) |
다음 판 →
(
차이
)
Spark
UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리
인-메모리 방식의 분산 처리 시스템
등장 배경
기존 디스크 입출력에 대한 지연 시간 개선
반복적인 작업이나 실시간 처리를 위해 빠른 처리 필요
구조 및 구성 요소
SQL: 정형화된 SQL 지원
Streaming: 데이터 스트림을 세그먼트로 나눈 후 각각을 스파크 엔진으로 처리
MLlib:
회귀
,
SVM
,
의사 결정 나무
,
랜덤 포레스트
등
머신러닝
라이브러리 제공
GraphX: 페이지 랭크, 레이블 전파, 삼각 계수 등 그래프 알고리즘 지원
Core: 분산 처리, 스케줄링, API 인터페이스 지원
작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능
분류
:
데이터 분석
둘러보기
둘러보기
대문
최근 바뀜
분류별 보기
일반 IT용어
프로젝트 관리
디지털 서비스
블록체인
인공지능
소프트웨어 공학
운영체제
컴퓨터 구조
자료 구조
데이터 과학
데이터베이스
네트워크
프로토콜
보안
컴플라이언스
개인정보보호
표준
경영학
기업 IT
조직/단체
광고
위키 도구
위키 도구
특수 문서 목록
이 문서 인용하기
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
인쇄용 판
고유 링크
문서 정보
문서 기록
분류 목록
분류 목록
데이터 분석