하둡: Difference between revisions

From IT Wiki
No edit summary
No edit summary
Line 1: Line 1:
[[분류:데이터베이스]]
[[분류:데이터베이스]]
;Hadoop
;Hadoop
; 다수의 컴퓨터로 분산 구성된 [[빅데이터]]를 병렬로 처리할 수 있는 [[공개 소프트웨어]] 프레임워크
== 특징 ==
* 분산 구조: 여러개의 서버, 일반 PC 등을 모아 분산된 파일시스템 및 분석 시스템 형성 가능
* [[공개 소프트웨어]]: 무료로 자유롭게, 필요한 경우 변형하여 사용 가능
* [[결함 허용]] 및 [[확장성]]: 성능 증강이 필요하면 노드 쉽게 추가 가능, 일부 노드가 죽어도 정상 동작
== 구조 ==
;크게 [[맵리듀스]]와 하둡 분산 파일 시스템(HDFS)으로 나눌 수 있다.
[[파일:하둡 클러스터.png]]
=== 하둡 분산 파일 시스템 ===
;Hadoop Distributed File System
* 네임노드(Namenode): 마스터 노드
* 데이터노드(Datanode): 슬레이브 노드
=== 맵리듀스 ===
;MapReduce
* 잡 트래커
* 태스크 트래커


* 일반 컴퓨터로 가상화된 대형 스토리지 형성
* 그 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 빅데이터 분산처리를 돕는 자바 [[오픈 소스 소프트웨어]] 프레임워크


== 하둡 에코시스템 ==
== 하둡 에코시스템 ==
[[파일:하둡 에코시스템.png]]
[[파일:하둡 에코시스템.png]]
;하둡 코어 프로젝트(HDFS, MapReduce)와 하둡 서브 프로젝트(수집, 분석, 마이닝 등)로 구성
;하둡 코어 프로젝트(HDFS, 맵리듀스)와 하둡 서브 프로젝트(수집, 분석, 마이닝 등)로 구성


=== Zookeeper(주키퍼) ===
=== Zookeeper(주키퍼) ===

Revision as of 20:32, 2 January 2020

Hadoop
다수의 컴퓨터로 분산 구성된 빅데이터를 병렬로 처리할 수 있는 공개 소프트웨어 프레임워크

특징

  • 분산 구조: 여러개의 서버, 일반 PC 등을 모아 분산된 파일시스템 및 분석 시스템 형성 가능
  • 공개 소프트웨어: 무료로 자유롭게, 필요한 경우 변형하여 사용 가능
  • 결함 허용확장성: 성능 증강이 필요하면 노드 쉽게 추가 가능, 일부 노드가 죽어도 정상 동작

구조

크게 맵리듀스와 하둡 분산 파일 시스템(HDFS)으로 나눌 수 있다.

하둡 클러스터.png

하둡 분산 파일 시스템

Hadoop Distributed File System
  • 네임노드(Namenode): 마스터 노드
  • 데이터노드(Datanode): 슬레이브 노드

맵리듀스

MapReduce
  • 잡 트래커
  • 태스크 트래커


하둡 에코시스템

하둡 에코시스템.png

하둡 코어 프로젝트(HDFS, 맵리듀스)와 하둡 서브 프로젝트(수집, 분석, 마이닝 등)로 구성

Zookeeper(주키퍼)

Oozie(우지)

Avro(에이브로)

Parquet(파케이)

Flume(플룸)

Sqoop(스쿱)

Pig(피그)

Crunch(크런치)

HBase

Hive(하이브)

Impala

Tajo

참조 문헌