하둡: 두 판 사이의 차이

IT위키
편집 요약 없음
편집 요약 없음
21번째 줄: 21번째 줄:
* 잡 트래커
* 잡 트래커
* 태스크 트래커
* 태스크 트래커


== 하둡 에코시스템 ==
== 하둡 에코시스템 ==
39번째 줄: 38번째 줄:
=== Impala ===
=== Impala ===
=== Tajo ===
=== Tajo ===
== 한계 ==
* 실시간 데이터 처리에는 비효율적
* 비동기적 데이터 처리에 비효율적
* 반복 작업이 많은 경우에는 비효율적


== 참조 문헌 ==
== 참조 문헌 ==
* [http://www.incodom.kr/hadoop_%EC%B4%9D%EC%A0%95%EB%A6%AC_2%ED%8E%B8 hadoop 총정리 2편]
* [http://www.incodom.kr/hadoop_%EC%B4%9D%EC%A0%95%EB%A6%AC_2%ED%8E%B8 hadoop 총정리 2편]
* [https://www.youtube.com/channel/UCKttG86PDVKdGXHmTxnLD-A Big Data Koo(구자환 교수님 채널]

2020년 1월 2일 (목) 22:40 판

Hadoop
다수의 컴퓨터로 분산 구성된 빅데이터를 병렬로 처리할 수 있는 공개 소프트웨어 프레임워크

특징

  • 분산 구조: 여러개의 서버, 일반 PC 등을 모아 분산된 파일시스템 및 분석 시스템 형성 가능
  • 공개 소프트웨어: 무료로 자유롭게, 필요한 경우 변형하여 사용 가능
  • 결함 허용확장성: 성능 증강이 필요하면 노드 쉽게 추가 가능, 일부 노드가 죽어도 정상 동작

구조

크게 맵리듀스와 하둡 분산 파일 시스템(HDFS)으로 나눌 수 있다.

하둡 클러스터.png

하둡 분산 파일 시스템

Hadoop Distributed File System
  • 네임노드(Namenode): 마스터 노드
  • 데이터노드(Datanode): 슬레이브 노드

맵리듀스

MapReduce
  • 잡 트래커
  • 태스크 트래커

하둡 에코시스템

하둡 에코시스템.png

하둡 코어 프로젝트(HDFS, 맵리듀스)와 하둡 서브 프로젝트(수집, 분석, 마이닝 등)로 구성

Zookeeper(주키퍼)

Oozie(우지)

Avro(에이브로)

Parquet(파케이)

Flume(플룸)

Sqoop(스쿱)

Pig(피그)

Crunch(크런치)

HBase

Hive(하이브)

Impala

Tajo

한계

  • 실시간 데이터 처리에는 비효율적
  • 비동기적 데이터 처리에 비효율적
  • 반복 작업이 많은 경우에는 비효율적

참조 문헌