맵리듀스: 두 판 사이의 차이

2020년 12월 14일 (월) 11:32 기준 최신판

MapReduce
다수의 머신들로 구성한 분산 데이터베이스를 병렬로 처리하기 위한 프로그래밍 모델

구글에서 처음으로 개념 소개
하둡 프레임워크에서 활용

1 구성/절차[편집 | 원본 편집]

맵(Map) 작업과 리듀스(Reduce) 작업으로 구성

아래의 맵 - 셔플 - 리듀스 작업을 여러 번 반복

1.1 맵[편집 | 원본 편집]

분산된 데이터를 Key-Value로 구성

1.2 셔플[편집 | 원본 편집]

중간 결과를 리듀스로 전달

1.3 리듀스[편집 | 원본 편집]

리스트에서 원하는 데이터를 찾아서 집계

2 활용[편집 | 원본 편집]

셔플과 소트는 하둡 등 엔진이 담당한다.
개발자는 맵 함수와 리듀스 함수를 개발한다.
- 맵, 리듀스 함수는 대상 데이터에 맞추어 설계해야 한다/
기존 RDBMS의 개념을 도입하여 맵리듀스 작업을 수월하게 도와주는 도구가 하이브

3 단점[편집 | 원본 편집]

하이브를 이용한 기본적인 맵리듀스 작업은 아주 느림
맵리듀스의 가치는 빠른 처리가 아닌 처리할 수 없던 데이터를 처리할 수 있게 해주는 것
더 빠른 처리를 위해 스파크 등이 사용됨

@@ 1번째 줄: / 1번째 줄: @@
-[[분류:데이터베이스]][[분류:데이터 분석]]
+[[분류:데이터베이스]][[분류:데이터 과학]]
 ;MapReduce
 ;다수의 머신들로 구성한 분산 데이터베이스를 병렬로 처리하기 위한 프로그래밍 모델
@@ 7번째 줄: / 7번째 줄: @@
 == 구성/절차 ==
 ;맵(Map) 작업과 리듀스(Reduce) 작업으로 구성
+* 아래의 맵 - 셔플 - 리듀스 작업을 여러 번 반복
 [[파일:맵-셔플-리듀스.png]]
-== 맵 ==
+=== 맵 ===
-* 분산된 데이터를 Key-Value로 모은다
+* 분산된 데이터를 Key-Value로 구성
-== 셔플 ==
+=== 셔플 ===
-* 중간 결과를 리듀스로 전달한다.
+* 중간 결과를 리듀스로 전달
-== 리듀스 ==
+=== 리듀스 ===
 * 리스트에서 원하는 데이터를 찾아서 집계
+== 활용 ==
+* 셔플과 소트는 하둡 등 엔진이 담당한다.
+* 개발자는 맵 함수와 리듀스 함수를 개발한다.
+** 맵, 리듀스 함수는 대상 데이터에 맞추어 설계해야 한다/
+* 기존 RDBMS의 개념을 도입하여 맵리듀스 작업을 수월하게 도와주는 도구가 '''[[하이브]]'''
+== 단점 ==
+* 하이브를 이용한 기본적인 맵리듀스 작업은 아주 느림
+* 맵리듀스의 가치는 빠른 처리가 아닌 처리할 수 없던 데이터를 처리할 수 있게 해주는 것
+* 더 빠른 처리를 위해 [[스파크]] 등이 사용됨

익명 사용자

검색

맵리듀스: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2020년 12월 14일 (월) 11:32 기준 최신판

목차

1 구성/절차[편집 | 원본 편집]

1.1 맵[편집 | 원본 편집]

1.2 셔플[편집 | 원본 편집]

1.3 리듀스[편집 | 원본 편집]

2 활용[편집 | 원본 편집]

3 단점[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

맵리듀스: 두 판 사이의 차이

2020년 12월 14일 (월) 11:32 기준 최신판

1 구성/절차[편집 | 원본 편집]

1.1 맵[편집 | 원본 편집]

1.2 셔플[편집 | 원본 편집]

1.3 리듀스[편집 | 원본 편집]

2 활용[편집 | 원본 편집]

3 단점[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구

분류 목록