익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
아파치 스파크 외부 테이블
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
고급
특수 문자
도움말
문단 제목
2단계
3단계
4단계
5단계
형식
넣기
라틴 문자
확장 라틴 문자
IPA 문자
기호
그리스 문자
그리스어 확장
키릴 문자
아랍 문자
아랍어 확장
히브리 문자
뱅골어
타밀어
텔루구어 문자
싱할라 문자
데바나가리어
구자라트 문자
태국어
라오어
크메르어
캐나다 원주민 언어
룬 문자
Á
á
À
à
Â
â
Ä
ä
Ã
ã
Ǎ
ǎ
Ā
ā
Ă
ă
Ą
ą
Å
å
Ć
ć
Ĉ
ĉ
Ç
ç
Č
č
Ċ
ċ
Đ
đ
Ď
ď
É
é
È
è
Ê
ê
Ë
ë
Ě
ě
Ē
ē
Ĕ
ĕ
Ė
ė
Ę
ę
Ĝ
ĝ
Ģ
ģ
Ğ
ğ
Ġ
ġ
Ĥ
ĥ
Ħ
ħ
Í
í
Ì
ì
Î
î
Ï
ï
Ĩ
ĩ
Ǐ
ǐ
Ī
ī
Ĭ
ĭ
İ
ı
Į
į
Ĵ
ĵ
Ķ
ķ
Ĺ
ĺ
Ļ
ļ
Ľ
ľ
Ł
ł
Ń
ń
Ñ
ñ
Ņ
ņ
Ň
ň
Ó
ó
Ò
ò
Ô
ô
Ö
ö
Õ
õ
Ǒ
ǒ
Ō
ō
Ŏ
ŏ
Ǫ
ǫ
Ő
ő
Ŕ
ŕ
Ŗ
ŗ
Ř
ř
Ś
ś
Ŝ
ŝ
Ş
ş
Š
š
Ș
ș
Ț
ț
Ť
ť
Ú
ú
Ù
ù
Û
û
Ü
ü
Ũ
ũ
Ů
ů
Ǔ
ǔ
Ū
ū
ǖ
ǘ
ǚ
ǜ
Ŭ
ŭ
Ų
ų
Ű
ű
Ŵ
ŵ
Ý
ý
Ŷ
ŷ
Ÿ
ÿ
Ȳ
ȳ
Ź
ź
Ž
ž
Ż
ż
Æ
æ
Ǣ
ǣ
Ø
ø
Œ
œ
ß
Ð
ð
Þ
þ
Ə
ə
서식 지정
링크
문단 제목
목록
파일
각주
토론
설명
입력하는 내용
문서에 나오는 결과
기울임꼴
''기울인 글씨''
기울인 글씨
굵게
'''굵은 글씨'''
굵은 글씨
굵고 기울인 글씨
'''''굵고 기울인 글씨'''''
굵고 기울인 글씨
아파치 스파크 외부 테이블(External Table, Unmanaged Table)은 Spark SQL에서 테이블의 메타데이터만 관리하고, 실제 데이터 파일은 사용자가 지정한 외부 저장소에 보관하는 테이블 유형이다. 이 방식은 데이터의 소유권과 관리를 사용자에게 맡기며, 테이블 삭제 시에도 외부 데이터 파일은 그대로 유지된다. ==개요== 아파치 스파크 언매니지드 테이블은 매니지드 테이블과 달리, 테이블 생성 시 데이터 파일의 저장 위치를 사용자가 직접 지정한다. Spark는 Hive 메타스토어와 연동하여 테이블의 스키마와 메타데이터만 관리하며, 데이터는 HDFS, Amazon S3, 로컬 파일 시스템 등 외부 저장소에 저장된다. 따라서, DROP TABLE 명령어로 언매니지드 테이블을 삭제하면 메타데이터만 제거되고, 실제 데이터 파일은 삭제되지 않는다. ==특징== *데이터 소유권 분리 **언매니지드 테이블은 데이터의 물리적 저장 위치와 소유권을 사용자가 관리하므로, 데이터 파일의 이동, 백업, 보존 등이 사용자 주도로 이루어진다. *테이블 삭제 시 데이터 보존 **테이블을 삭제하더라도 외부 저장소에 있는 데이터 파일은 그대로 남아 있어, 재사용이나 별도 관리가 가능하다. *유연한 데이터 관리 **다양한 외부 저장소와의 연동이 가능하며, 데이터 파일을 다른 애플리케이션과 공유하거나, 여러 테이블에서 재사용할 수 있다. *메타데이터 관리 **Spark는 Hive 메타스토어를 통해 테이블의 스키마와 메타데이터만 관리하여, 데이터 접근과 쿼리 실행을 용이하게 한다. ==생성 및 관리 방법== 언매니지드 테이블은 Spark SQL의 CREATE EXTERNAL TABLE 구문을 사용하여 생성할 수 있다. 예제 (SQL):<syntaxhighlight lang="sql"> CREATE EXTERNAL TABLE sales ( order_id INT, order_date DATE, amount DOUBLE ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION 'hdfs://path/to/external/data'; </syntaxhighlight>위 구문은 sales라는 이름의 언매니지드 테이블을 생성하며, 데이터는 HDFS 상의 지정된 경로에 저장된다. ==활용 및 응용== 언매니지드 테이블은 다음과 같은 경우에 유용하다. *외부 데이터 통합 **이미 존재하는 외부 데이터 파일을 Spark SQL과 연동하여 분석할 때 사용된다. *데이터 재사용 **동일한 데이터 파일을 여러 테이블이나 애플리케이션에서 공유하여 재처리 및 분석에 활용할 수 있다. *데이터 보호 및 백업 **테이블 삭제 시 데이터 파일이 보존되므로, 중요한 데이터의 안전한 보관 및 백업이 가능하다. ==같이 보기== *[[아파치 스파크]] *[[Spark SQL]] *[[Hive 메타스토어]] *[[매니지드 테이블]] *[[ETL (Extract, Transform, Load)]] ==참고 문헌== *Apache Spark 공식 문서, "Spark SQL, DataFrames and Datasets Guide", https://spark.apache.org/docs/latest/sql-programming-guide.html *Ousterhout, J. (2019). "A Technical Overview of Hive, HBase, and Spark", IEEE Software. [[분류:아파치 스파크]] [[분류:분산 컴퓨팅]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록