Anonymous
Not logged in
Talk
Contributions
Create account
Log in
IT Wiki
Search
스파크
From IT Wiki
Namespaces
Page
Discussion
More
More
Page actions
Read
Edit
Edit source
History
Revision as of 22:35, 2 January 2020 by
김형교
(
talk
|
contribs
)
(새 문서:
분류:데이터 분석
;Spark * UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리 * 인-메모리 방식의 분산 처리 시스템 == 등...)
(diff) ← Older revision |
Latest revision
(
diff
) |
Newer revision →
(
diff
)
Spark
UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리
인-메모리 방식의 분산 처리 시스템
등장 배경
기존 디스크 입출력에 대한 지연 시간 개선
반복적인 작업이나 실시간 처리를 위해 빠른 처리 필요
구조 및 구성 요소
SQL: 정형화된 SQL 지원
Streaming: 데이터 스트림을 세그먼트로 나눈 후 각각을 스파크 엔진으로 처리
MLlib:
회귀
,
SVM
,
의사 결정 나무
,
랜덤 포레스트
등
머신러닝
라이브러리 제공
GraphX: 페이지 랭크, 레이블 전파, 삼각 계수 등 그래프 알고리즘 지원
Core: 분산 처리, 스케줄링, API 인터페이스 지원
작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능
Category
:
데이터 분석
Navigation
Navigation
Main page
Recent changes
분류별 보기
일반 IT용어
프로젝트 관리
디지털 서비스
블록체인
인공지능
소프트웨어 공학
운영체제
컴퓨터 구조
자료 구조
데이터 과학
데이터베이스
네트워크
프로토콜
보안
컴플라이언스
개인정보보호
표준
경영학
기업 IT
조직/단체
Advertisements
Wiki tools
Wiki tools
Special pages
Cite this page
Page tools
Page tools
User page tools
More
What links here
Related changes
Printable version
Permanent link
Page information
Page logs
Categories
Categories
데이터 분석