하둡 편집하기

IT위키

경고: 로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다. 로그인하거나 계정을 생성하면 편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.

편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.

최신판 당신의 편집
1번째 줄: 1번째 줄:
[[분류:데이터베이스]]
[[분류:데이터베이스]]
;Hadoop
;Hadoop
;다수의 컴퓨터로 분산 구성된 [[빅데이터]]를 병렬로 처리할 수 있는 [[공개 소프트웨어]] 프레임워크
; 다수의 컴퓨터로 분산 구성된 [[빅데이터]]를 병렬로 처리할 수 있는 [[공개 소프트웨어]] 프레임워크
 
==특징==
 
*'''분산 구조''': 여러개의 서버, 일반 PC 등을 모아 분산된 파일시스템 및 분석 시스템 형성 가능
*'''[[공개 소프트웨어]]''': 무료로 자유롭게, 필요한 경우 변형하여 사용 가능
*'''[[결함 허용]] 및 [[확장성]]''': 성능 증강이 필요하면 노드 쉽게 추가 가능, 일부 노드가 죽어도 정상 동작


==구조==
== 특징 ==
* 분산 구조: 여러개의 서버, 일반 PC 등을 모아 분산된 파일시스템 및 분석 시스템 형성 가능
* [[공개 소프트웨어]]: 무료로 자유롭게, 필요한 경우 변형하여 사용 가능
* [[결함 허용]] 및 [[확장성]]: 성능 증강이 필요하면 노드 쉽게 추가 가능, 일부 노드가 죽어도 정상 동작


== 구조 ==
;크게 [[맵리듀스]]와 하둡 분산 파일 시스템(HDFS)으로 나눌 수 있다.
;크게 [[맵리듀스]]와 하둡 분산 파일 시스템(HDFS)으로 나눌 수 있다.
[[파일:하둡 클러스터.png]]
[[파일:하둡 클러스터.png]]


===하둡 분산 파일 시스템===
=== 하둡 분산 파일 시스템 ===
 
;Hadoop Distributed File System
;Hadoop Distributed File System
* 네임노드(Namenode): 마스터 노드
* 데이터노드(Datanode): 슬레이브 노드


*네임노드(Namenode): 마스터 노드
=== 맵리듀스 ===
*데이터노드(Datanode): 슬레이브 노드
 
===맵리듀스===
 
;MapReduce
;MapReduce
* 잡 트래커
* 태스크 트래커


*잡 트래커
*태스크 트래커


==하둡 에코시스템==
== 하둡 에코시스템 ==
[[파일:하둡 에코시스템.png]]
[[파일:하둡 에코시스템.png]]
;하둡 코어 프로젝트(HDFS, 맵리듀스)와 하둡 서브 프로젝트(수집, 분석, 마이닝 등)로 구성
;하둡 코어 프로젝트(HDFS, 맵리듀스)와 하둡 서브 프로젝트(수집, 분석, 마이닝 등)로 구성


===Zookeeper(주키퍼)===
=== Zookeeper(주키퍼) ===
===Oozie(우지)===
=== Oozie(우지) ===
===Avro(에이브로)===
=== Avro(에이브로) ===
===Parquet(파케이)===
=== Parquet(파케이) ===
===Flume(플룸)===
=== Flume(플룸) ===
===Sqoop(스쿱)===
=== Sqoop(스쿱) ===
===Pig(피그)===
=== Pig(피그) ===
===Crunch(크런치)===
=== Crunch(크런치) ===
===HBase===
=== HBase ===
 
=== Hive(하이브) ===
*HDFS를 보다 효율적으로 사용하기 위한 시스템
=== Impala ===
*구조화된 대용량의 데이터에 빠른 [[임의 접근]]을 제공(Latency 감소)
=== Tajo ===
*HDFS의 데이터에 대한 실시간 읽기/쓰기 기능 제공
 
===Hive(하이브)===
===Impala===
===Tajo(타조)===
 
* 오픈소스 기반 분산 컴퓨터 플랫폼인 아파치 하둡(Apache Hadoop) 기반의 분산 데이터 웨어하우스 프로젝트로 대규모 데이터 처리와 실시간 상호 분석에 모두 사용 가능함.
 
==하둡 배포판==
 
*아파치 하둡
*클라우데라 하둡(CDH)
*호튼웍스 하둡
*앱알(MAPR) 하둡
 
==한계==
 
*실시간 데이터 처리에는 비효율적
*비동기적 데이터 처리에 비효율적
*반복 작업이 많은 경우에는 비효율적
 
==참조 문헌==


*[http://www.incodom.kr/hadoop_%EC%B4%9D%EC%A0%95%EB%A6%AC_2%ED%8E%B8 hadoop 총정리 2편]
== 참조 문헌 ==
*[https://www.youtube.com/channel/UCKttG86PDVKdGXHmTxnLD-A Big Data Koo(구자환 교수님 채널)]
* [http://www.incodom.kr/hadoop_%EC%B4%9D%EC%A0%95%EB%A6%AC_2%ED%8E%B8 hadoop 총정리 2편]
IT위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 IT위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소 편집 도움말 (새 창에서 열림)