SQL-On-Hadoop: Difference between revisions

From IT Wiki
(새 문서: 분류:데이터 분석 ;HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 총칭하여 부르는 말 == 출현 배경 == * '''(빠른 반응...)
 
No edit summary
Line 8: Line 8:


== 분류 ==
== 분류 ==
* 쿼리 수행 시간
* 롱타임 워키 지원 여부
** Interactive Query: 수초이내 수행되어 대화식 분석에 유리
** Interactive Query: 수초이내 수행되어 대화식 분석에 유리
** Long Time Query: 장기간 실행되는 무거운 쿼리 대응 지원
** Long Time Query: 장기간 실행되는 무거운 쿼리 대응 지원
*** '''내고장성'''과 '''다이나믹 스케줄링'''(일종의 로드 밸런싱)''' 지원
*** '''내고장성'''과 '''다이나믹 스케줄링'''(일종의 로드 밸런싱)''' 지원
* 분산 처리 지원 여부
** Data Warehouse Infrastructure: 단일 데이터웨어하우스용
** Distributed Query Engine: 분산 데이터베이스 처리 지원
{| class="wikitable"
{| class="wikitable"
! System Name
! System Name
Line 17: Line 21:
! 내고장성
! 내고장성
! 다이나믹 스케줄링
! 다이나믹 스케줄링
! 분산 쿼리 엔진
|-
|-
| Tajo(타조)
| Tajo(타조)
Line 22: Line 27:
| O
| O
| O
| O
| X
|-
|-
| Impala(임팔라)
| Impala(임팔라)
Line 27: Line 33:
| X
| X
| X
| X
| O
|-
|-
| Hive(하이브)
| Hive(하이브)
Line 32: Line 39:
| O
| O
| O
| O
| X
|-
|-
| Presto(프레스토)
| Presto(프레스토)
Line 37: Line 45:
| X
| X
| X
| X
| O
|}
|}
* 분산 처리
** Data Warehouse Infrastructure: 단일 데이터웨어하우스용
** Distributed Query Engine: 분산 데이터베이스 처리 지원

Revision as of 20:34, 19 January 2020

HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 총칭하여 부르는 말

출현 배경

  • (빠른 반응속도): 단순히 대용량의 데이터 배치 처리 뿐만 아니라 대화형 작업화 빠른 반응속도 요구
  • (익숙한 사용): Java에 익숙하지 않은 데이터 분석가들이 손쉽게 데이터를 처리 가능
  • (인적 오류 방지): 맵리듀스의 품질이 개발자의 역량에 좌우되며, 프로그램 버그 디버깅 어려움

분류

  • 롱타임 워키 지원 여부
    • Interactive Query: 수초이내 수행되어 대화식 분석에 유리
    • Long Time Query: 장기간 실행되는 무거운 쿼리 대응 지원
      • 내고장성다이나믹 스케줄링(일종의 로드 밸런싱) 지원
  • 분산 처리 지원 여부
    • Data Warehouse Infrastructure: 단일 데이터웨어하우스용
    • Distributed Query Engine: 분산 데이터베이스 처리 지원
System Name 롱타임 쿼리 지원 내고장성 다이나믹 스케줄링 분산 쿼리 엔진
Tajo(타조) O O O X
Impala(임팔라) X X X O
Hive(하이브) O O O X
Presto(프레스토) X X X O