SQL-On-Hadoop

IT 위키

Itwiki (토론 | 기여)님의 2020년 5월 7일 (목) 00:28 판 (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로)

(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 총칭하여 부르는 말

출현 배경[편집 | 원본 편집]

(빠른 반응속도): 단순히 대용량의 데이터 배치 처리 뿐만 아니라 대화형 작업화 빠른 반응속도 요구
(익숙한 사용): Java에 익숙하지 않은 데이터 분석가들이 손쉽게 데이터를 처리 가능
(인적 오류 방지): 맵리듀스의 품질이 개발자의 역량에 좌우되며, 프로그램 버그 디버깅 어려움

분류[편집 | 원본 편집]

롱타임 워키 지원 여부
- Interactive Query: 수초이내 수행되어 대화식 분석에 유리
- Long Time Query: 장기간 실행되는 무거운 쿼리 대응 지원
  - 내고장성과 다이나믹 스케줄링(일종의 로드 밸런싱) 지원
분산 처리 지원 여부
- Data Warehouse Infrastructure: 단일 데이터웨어하우스용
- Distributed Query Engine: 분산 데이터베이스 처리 지원

System Name	롱타임 쿼리 지원	내고장성	다이나믹 스케줄링	분산 쿼리 엔진
Tajo(타조)	O	O	O	X
Impala(임팔라)	X	X	X	O
Hive(하이브)	O	O	O	X
Presto(프레스토)	X	X	X	O

참고 문헌[편집 | 원본 편집]

SQL-On-Hadoop(SQL-온-하둡) 개념 및 종류

원본 주소 "https://itwiki.kr/index.php?title=SQL-On-Hadoop&oldid=10894"

데이터 과학