하둡

IT 위키

Hadoop
다수의 컴퓨터로 분산 구성된 빅데이터를 병렬로 처리할 수 있는 공개 소프트웨어 프레임워크

1 특징[편집 | 원본 편집]

분산 구조: 여러개의 서버, 일반 PC 등을 모아 분산된 파일시스템 및 분석 시스템 형성 가능
공개 소프트웨어: 무료로 자유롭게, 필요한 경우 변형하여 사용 가능
결함 허용 및 확장성: 성능 증강이 필요하면 노드를 쉽게 추가 가능, 일부 노드가 죽어도 정상 동작

2 구조[편집 | 원본 편집]

크게 맵리듀스와 하둡 분산 파일 시스템(HDFS)으로 나눌 수 있다.

2.1 하둡 분산 파일 시스템[편집 | 원본 편집]

Hadoop Distributed File System

네임노드(Namenode): 마스터 노드
데이터노드(Datanode): 슬레이브 노드

2.2 맵리듀스[편집 | 원본 편집]

MapReduce

잡 트래커
태스크 트래커

3 하둡 에코시스템[편집 | 원본 편집]

하둡 코어 프로젝트(HDFS, 맵리듀스)와 하둡 서브 프로젝트(수집, 분석, 마이닝 등)로 구성

3.1 Zookeeper(주키퍼)[편집 | 원본 편집]

3.2 Oozie(우지)[편집 | 원본 편집]

3.3 Avro(에이브로)[편집 | 원본 편집]

3.4 Parquet(파케이)[편집 | 원본 편집]

3.5 Flume(플룸)[편집 | 원본 편집]

3.6 Sqoop(스쿱)[편집 | 원본 편집]

3.7 Pig(피그)[편집 | 원본 편집]

3.8 Crunch(크런치)[편집 | 원본 편집]

3.9 HBase[편집 | 원본 편집]

HDFS를 보다 효율적으로 사용하기 위한 시스템
구조화된 대용량의 데이터에 빠른 임의 접근을 제공(Latency 감소)
HDFS의 데이터에 대한 실시간 읽기/쓰기 기능 제공

3.10 Hive(하이브)[편집 | 원본 편집]

3.11 Impala[편집 | 원본 편집]

3.12 Tajo(타조)[편집 | 원본 편집]

오픈소스 기반 분산 컴퓨터 플랫폼인 아파치 하둡(Apache Hadoop) 기반의 분산 데이터 웨어하우스 프로젝트로 대규모 데이터 처리와 실시간 상호 분석에 모두 사용 가능함.

4 하둡 배포판[편집 | 원본 편집]

아파치 하둡
클라우데라 하둡(CDH)
호튼웍스 하둡
앱알(MAPR) 하둡

5 한계[편집 | 원본 편집]

실시간 데이터 처리에는 비효율적
비동기적 데이터 처리에 비효율적
반복 작업이 많은 경우에는 비효율적

6 참조 문헌[편집 | 원본 편집]

원본 주소 "https://itwiki.kr/index.php?title=하둡&oldid=39291"

데이터베이스