하둡 분산 파일 시스템: Difference between revisions

From IT Wiki
(새 문서: 분류:데이터베이스분류:데이터 분석 ;Hadoop Distributed File System == 네임노드 == ;Namenode; 마스터 노드 * 메타 데이터만 보관하고, 실제 데...)
 
 
(3 intermediate revisions by 2 users not shown)
Line 1: Line 1:
[[분류:데이터베이스]][[분류:데이터 분석]]
[[분류:데이터베이스]][[분류:데이터 과학]]
;Hadoop Distributed File System
;Hadoop Distributed File System


== 네임노드 ==
== 동작 절차 ==
# 클라이언트로부터 특정 파일에 대한 요구 전달
# 네임노드에서 해당 파일을 보관하고 있는 블록 정보 탐색
# 실제 데이터가 보관되어 있는 데이터노드 위치 파악
# 데이터노드에서 파일 처리
 
== 구성요소 ==
=== 네임노드 ===
;Namenode; 마스터 노드
;Namenode; 마스터 노드
* 메타 데이터만 보관하고, 실제 데이터는 저장하지 않음
* 메타 데이터만 보관하고, 실제 데이터는 저장하지 않음
=== 동작 ===
* 클라이언트로부터 특정 파일에 대한 요구 전달
* 해당 파일을 보관하고 있는 블록 정보 탐색
* 실제 데이터가 보관되어 있는 데이터 노드 위치 파악


== 데이터노드 ==
=== 데이터노드 ===
;Datanode; 슬레이브 노드
;Datanode; 슬레이브 노드
* 실제 데이터를 보관하는 노드
* 64MB, 128MB 등의 블록 단위로 데이터 저장
* 64MB, 128MB 등의 블록 단위로 데이터 저장


== 이중화 구성 ==
== 고가용성 ==
; [[결함 허용]], 성능 향상을 위해 데이터와 노드 다중 구성
; [[결함 허용]], 성능 향상을 위해 데이터와 노드 다중 구성
=== 네임노드 이중화 ===
=== 네임노드 이중화 ===
* 클러스터에 2개의 네임노드 구축
* 클러스터에 2개의 네임노드를 구축하여 [[고가용성]] 보장
* Active-Standby로 운영
** HA 모드: Active - Standby로 운영(실시간 동기화)
* 무중단 시스템 보장
** Non-HA 모드: Secondary Name Node 이용(동기화는 되지 않음)


=== 데이터 복제 ===
=== 데이터 복제 ===

Latest revision as of 12:20, 14 December 2020

Hadoop Distributed File System

동작 절차[edit | edit source]

  1. 클라이언트로부터 특정 파일에 대한 요구 전달
  2. 네임노드에서 해당 파일을 보관하고 있는 블록 정보 탐색
  3. 실제 데이터가 보관되어 있는 데이터노드 위치 파악
  4. 데이터노드에서 파일 처리

구성요소[edit | edit source]

네임노드[edit | edit source]

Namenode; 마스터 노드
  • 메타 데이터만 보관하고, 실제 데이터는 저장하지 않음

데이터노드[edit | edit source]

Datanode; 슬레이브 노드
  • 실제 데이터를 보관하는 노드
  • 64MB, 128MB 등의 블록 단위로 데이터 저장

고가용성[edit | edit source]

결함 허용, 성능 향상을 위해 데이터와 노드 다중 구성

네임노드 이중화[edit | edit source]

  • 클러스터에 2개의 네임노드를 구축하여 고가용성 보장
    • HA 모드: Active - Standby로 운영(실시간 동기화)
    • Non-HA 모드: Secondary Name Node 이용(동기화는 되지 않음)

데이터 복제[edit | edit source]

  • 데이터를 기본 3 Copy Replication 형성
  • 신뢰성 보장: 하나의 노드, 데이터가 손실되어도 무중단 동작 보장
  • 성능 향상: 데이터의 지역성을 향상시켜 빠른 처리 도모