익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
하둡 에코시스템
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
하둡 에코시스템(Hadoop Ecosystem)은 [[아파치 하둡]]을 중심으로 분산 저장과 분산 처리를 수행하는 다양한 오픈소스 도구들과 기술들을 아우르는 개념이다. 하둡은 단순한 분산 파일 시스템과 맵리듀스 처리 엔진에서 시작했지만, 그 위에 다양한 기능을 제공하는 도구들이 결합되며 하나의 '''데이터 처리 플랫폼'''으로 발전했다. ==주요 구성 요소== 하둡 에코시스템은 다음 네 가지 계층으로 구성된다: ===1. 저장(Storage) === * '''[[HDFS (Hadoop Distributed File System)]]'''** 하둡의 기본 분산 파일 시스템으로, 대용량 파일을 여러 노드에 분산 저장 *Apache HBase **HDFS 위에 구축된 분산형 컬럼 기반 NoSQL 데이터베이스 ===2. 자원 관리(Resource Management)===* '''[[YARN (Yet Another Resource Negotiator)]]''' **클러스터 자원 관리 및 작업 스케줄링 담당 **다양한 처리 엔진(Hive, Spark, MapReduce 등)과 통합 가능 ===3. 처리 엔진(Processing Frameworks) === *'''MapReduce'''** 초기 하둡의 기본 분산 처리 모델, 병렬 배치 처리에 적합 *'''Apache Spark''' **인메모리 기반 분산 처리 프레임워크, MapReduce보다 빠르고 유연함 * Apache Tez**DAG 기반 고속 처리 엔진, Hive와 함께 사용됨 *Apache Flink **스트리밍 처리 특화 프레임워크 === 4. 상위 레벨 도구(High-Level Tools)=== *'''Apache Hive'''** SQL 유사 언어(HiveQL)로 하둡 데이터 처리 * '''Apache Pig''' **데이터 흐름 기반 처리 언어(Pig Latin) *'''Apache Sqoop''' **관계형 DB와 하둡 간 대량 데이터 전송 * '''Apache Flume'''** 로그 및 실시간 데이터 수집 도구 *Apache Oozie **워크플로우 기반 하둡 작업 스케줄링 도구 ==부가 구성 요소== * '''Apache Zookeeper'''** 분산 환경에서의 동기화, 리더 선출, 설정 관리 등 *Apache Ambari **하둡 클러스터 설치, 관리, 모니터링 UI *Apache Knox **하둡 에코시스템의 보안 게이트웨이 역할 수행 *Apache Ranger **세분화된 권한 제어 및 감사 로깅 == 구성도 == ┌────────────────────────────┐ │ User Interface │ │ (Hue, [[아파치 제플린|Zeppelin]]) │ └────────────┬───────────────┘ │ ┌──────────────────▼────────────────────┐ │ Processing / Compute Layer │ │ (MapReduce, Spark, Tez, Flink, Storm)│ └──────────────────┬────────────────────┘ │ ┌──────────────────▼────────────────────┐ │ Resource Management Layer │ │ (YARN, Mesos) │ └──────────────────┬────────────────────┘ │ ┌──────────────────▼────────────────────┐ │ Storage Layer (HDFS, HBase) │ │ + External: S3, Cassandra, Alluxio │ └──────────────────┬────────────────────┘ │ ┌──────────────────▼────────────────────┐ │ Data Ingestion / ETL Layer │ │ (Flume, Sqoop, Kafka, NiFi, Oozie) │ └──────────────────┬────────────────────┘ │ ┌──────────────────▼────────────────────┐ │ Metadata / Coordination Layer │ │ (ZooKeeper, Atlas, Ranger) │ └───────────────────────────────────────┘ == 특징== *대규모 데이터 저장 및 분석을 위한 확장 가능한 아키텍처 *다양한 데이터 유형(정형/비정형)과 처리 방식(배치/스트리밍)에 대응 * 오픈소스 기반 → 기업 환경에 맞게 커스터마이징 가능 == 활용 분야== *로그 분석, 클릭스트림 분석 *머신러닝 파이프라인 구축 *데이터 웨어하우징 *IoT 및 센서 데이터 수집 및 처리 ==같이 보기== *[[아파치 하둡]] *[[HDFS (Hadoop Distributed File System)]] *[[YARN (Yet Another Resource Negotiator)]] *[[Apache Hive]] *[[Apache Spark]] *[[Apache Zookeeper]] ==참고 문헌== *Tom White, "Hadoop: The Definitive Guide", O'Reilly *The Apache Software Foundation: https://hadoop.apache.org/ *Cloudera, Hortonworks, MapR 등 하둡 배포판 문서
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록