SQL-On-Hadoop: Difference between revisions
From IT Wiki
(새 문서: 분류:데이터 분석 ;HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 총칭하여 부르는 말 == 출현 배경 == * '''(빠른 반응...) |
m (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로) |
||
(3 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
[[분류:데이터 | [[분류:데이터 과학]] | ||
;HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 총칭하여 부르는 말 | ;HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 총칭하여 부르는 말 | ||
Line 8: | Line 8: | ||
== 분류 == | == 분류 == | ||
* | * 롱타임 워키 지원 여부 | ||
** Interactive Query: 수초이내 수행되어 대화식 분석에 유리 | ** Interactive Query: 수초이내 수행되어 대화식 분석에 유리 | ||
** Long Time Query: 장기간 실행되는 무거운 쿼리 대응 지원 | ** Long Time Query: 장기간 실행되는 무거운 쿼리 대응 지원 | ||
*** '''내고장성'''과 '''다이나믹 스케줄링'''(일종의 로드 밸런싱)''' 지원 | *** '''내고장성'''과 '''다이나믹 스케줄링'''(일종의 로드 밸런싱)''' 지원 | ||
* 분산 처리 지원 여부 | |||
** Data Warehouse Infrastructure: 단일 데이터웨어하우스용 | |||
** Distributed Query Engine: 분산 데이터베이스 처리 지원 | |||
{| class="wikitable" | {| class="wikitable" | ||
! System Name | ! System Name | ||
Line 17: | Line 21: | ||
! 내고장성 | ! 내고장성 | ||
! 다이나믹 스케줄링 | ! 다이나믹 스케줄링 | ||
! 분산 쿼리 엔진 | |||
|- | |- | ||
| Tajo(타조) | | Tajo(타조) | ||
Line 22: | Line 27: | ||
| O | | O | ||
| O | | O | ||
| X | |||
|- | |- | ||
| Impala(임팔라) | | Impala(임팔라) | ||
Line 27: | Line 33: | ||
| X | | X | ||
| X | | X | ||
| O | |||
|- | |- | ||
| Hive(하이브) | | Hive(하이브) | ||
Line 32: | Line 39: | ||
| O | | O | ||
| O | | O | ||
| X | |||
|- | |- | ||
| Presto(프레스토) | | Presto(프레스토) | ||
Line 37: | Line 45: | ||
| X | | X | ||
| X | | X | ||
| O | |||
|} | |} | ||
== 참고 문헌 == | |||
* | * [https://excelsior-cjh.tistory.com/59 SQL-On-Hadoop(SQL-온-하둡) 개념 및 종류] |
Latest revision as of 00:28, 7 May 2020
- HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 총칭하여 부르는 말
출현 배경[edit | edit source]
- (빠른 반응속도): 단순히 대용량의 데이터 배치 처리 뿐만 아니라 대화형 작업화 빠른 반응속도 요구
- (익숙한 사용): Java에 익숙하지 않은 데이터 분석가들이 손쉽게 데이터를 처리 가능
- (인적 오류 방지): 맵리듀스의 품질이 개발자의 역량에 좌우되며, 프로그램 버그 디버깅 어려움
분류[edit | edit source]
- 롱타임 워키 지원 여부
- Interactive Query: 수초이내 수행되어 대화식 분석에 유리
- Long Time Query: 장기간 실행되는 무거운 쿼리 대응 지원
- 내고장성과 다이나믹 스케줄링(일종의 로드 밸런싱) 지원
- 분산 처리 지원 여부
- Data Warehouse Infrastructure: 단일 데이터웨어하우스용
- Distributed Query Engine: 분산 데이터베이스 처리 지원
System Name | 롱타임 쿼리 지원 | 내고장성 | 다이나믹 스케줄링 | 분산 쿼리 엔진 |
---|---|---|---|---|
Tajo(타조) | O | O | O | X |
Impala(임팔라) | X | X | X | O |
Hive(하이브) | O | O | O | X |
Presto(프레스토) | X | X | X | O |