하둡: 두 판 사이의 차이

2020년 12월 14일 (월) 11:28 판

Hadoop
다수의 컴퓨터로 분산 구성된 빅데이터를 병렬로 처리할 수 있는 공개 소프트웨어 프레임워크

1 특징

분산 구조: 여러개의 서버, 일반 PC 등을 모아 분산된 파일시스템 및 분석 시스템 형성 가능
공개 소프트웨어: 무료로 자유롭게, 필요한 경우 변형하여 사용 가능
결함 허용 및 확장성: 성능 증강이 필요하면 노드 쉽게 추가 가능, 일부 노드가 죽어도 정상 동작

2 구조

크게 맵리듀스와 하둡 분산 파일 시스템(HDFS)으로 나눌 수 있다.

2.1 하둡 분산 파일 시스템

Hadoop Distributed File System

네임노드(Namenode): 마스터 노드
데이터노드(Datanode): 슬레이브 노드

2.2 맵리듀스

MapReduce

잡 트래커
태스크 트래커

3 하둡 에코시스템

하둡 코어 프로젝트(HDFS, 맵리듀스)와 하둡 서브 프로젝트(수집, 분석, 마이닝 등)로 구성

3.1 Zookeeper(주키퍼)

3.2 Oozie(우지)

3.3 Avro(에이브로)

3.4 Parquet(파케이)

3.5 Flume(플룸)

3.6 Sqoop(스쿱)

3.7 Pig(피그)

3.8 Crunch(크런치)

3.9 HBase

HDFS를 보다 효율적으로 사용하기 위한 시스템
구조화된 대용량의 데이터에 빠른 임의 접근을 제공(Latency 감소)
HDFS의 데이터에 대한 실시간 읽기/쓰기 기능 제공

3.10 Hive(하이브)

3.11 Impala

3.12 Tajo

4 하둡 배포판

아파치 하둡
클라우데라 하둡(CDH)
호튼웍스 하둡
앱알(MAPR) 하둡

5 한계

실시간 데이터 처리에는 비효율적
비동기적 데이터 처리에 비효율적
반복 작업이 많은 경우에는 비효율적

6 참조 문헌

@@ 42번째 줄: / 42번째 줄: @@
 === Impala ===
 === Tajo ===
+== 하둡 배포판 ==
+* 아파치 하둡
+* 클라우데라 하둡(CDH)
+* 호튼웍스 하둡
+* 앱알(MAPR) 하둡
 == 한계 ==

익명 사용자

검색

하둡: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2020년 12월 14일 (월) 11:28 판

목차

1 특징

2 구조

2.1 하둡 분산 파일 시스템

2.2 맵리듀스

3 하둡 에코시스템

3.1 Zookeeper(주키퍼)

3.2 Oozie(우지)

3.3 Avro(에이브로)

3.4 Parquet(파케이)

3.5 Flume(플룸)

3.6 Sqoop(스쿱)

3.7 Pig(피그)

3.8 Crunch(크런치)

3.9 HBase

3.10 Hive(하이브)

3.11 Impala

3.12 Tajo

4 하둡 배포판

5 한계

6 참조 문헌

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

하둡: 두 판 사이의 차이

2020년 12월 14일 (월) 11:28 판

1 특징

2 구조

2.1 하둡 분산 파일 시스템

2.2 맵리듀스

3 하둡 에코시스템

3.1 Zookeeper(주키퍼)

3.2 Oozie(우지)

3.3 Avro(에이브로)

3.4 Parquet(파케이)

3.5 Flume(플룸)

3.6 Sqoop(스쿱)

3.7 Pig(피그)

3.8 Crunch(크런치)

3.9 HBase

3.10 Hive(하이브)

3.11 Impala

3.12 Tajo

4 하둡 배포판

5 한계

6 참조 문헌

둘러보기

위키 도구

문서 도구

분류 목록