아파치 스파크 Spark SQL 편집하기

아파치 스파크 Spark SQL은 Apache Spark 내에서 구조화된 데이터를 다루기 위한 핵심 모듈로, 표준 SQL 문법을 지원하며 DataFrame 및 Dataset API를 통해 데이터를 읽고, 처리하고, 저장할 수 있도록 한다. Catalyst 옵티마이저와 Tungsten 실행 엔진의 지원을 받아 고성능 분산 데이터 처리를 실현하며, Hive와의 통합을 통해 기존 빅데이터 생태계와도 원활하게 연동된다.
==개요==
Spark SQL은 Apache Spark 1.0부터 도입되었으며, Spark 2.0에서는 SparkSession을 통해 SQLContext, HiveContext 등 여러 기능이 통합되어 제공된다. 이를 통해 사용자는 SQL 쿼리와 프로그래밍 언어(Python, Scala, Java, R)를 이용하여 구조화된 데이터에 쉽게 접근하고 처리할 수 있다. Spark SQL은 CSV, JSON, Parquet, ORC, Hive 테이블 등 다양한 데이터 소스를 지원한다.
==주요 기능==
*SQL 쿼리 실행
**표준 SQL 문법을 지원하며, 임시 뷰를 생성하여 복잡한 쿼리를 수행할 수 있다.
*데이터프레임 및 Dataset API
**구조화된 데이터를 처리하기 위한 직관적인 API를 제공하며, 함수형 프로그래밍 스타일로 데이터를 조작할 수 있다.
*Catalyst 옵티마이저
**사용자가 작성한 쿼리의 실행 계획을 자동으로 최적화하여, 처리 속도를 향상시킨다.
*Tungsten 실행 엔진
**메모리 관리와 코드 생성에 최적화된 실행 엔진으로, 대규모 분산 데이터 처리를 고성능으로 지원한다.
*Hive 통합
**Hive 메타스토어와 연동하여, 기존 Hive 데이터 및 쿼리와의 호환성을 유지하고 HiveQL을 사용할 수 있다.
==사용 방법==
Spark SQL을 사용하려면 SparkSession을 통해 환경을 구성한다. 아래는 Python과 Scala에서 Spark SQL을 활용하는 기본 예제이다.
===예제 코드 (Python)===
<syntaxhighlight lang="python">
from pyspark.sql import SparkSession

# SparkSession 생성: 애플리케이션 이름, 마스터 URL, Hive 지원 옵션 설정
spark = SparkSession.builder \
    .appName("SparkSQLExample") \
    .master("local[*]") \
    .enableHiveSupport() \
    .getOrCreate()

# CSV 파일에서 데이터프레임 생성 (헤더 포함, 스키마 자동 추론)
df = spark.read.csv("data.csv", header=True, inferSchema=True)

# 데이터프레임을 임시 뷰로 등록하여 SQL 쿼리 실행 준비
df.createOrReplaceTempView("data_table")

# SQL 쿼리 실행: 각 열(column1)의 값 별로 집계 수행
result = spark.sql("SELECT column1, COUNT(*) AS count FROM data_table GROUP BY column1")
result.show()

# SparkSession 종료
spark.stop()
</syntaxhighlight>
===예제 코드 (Scala)===
<syntaxhighlight lang="scala">
import org.apache.spark.sql.SparkSession

object SparkSQLExample {
  def main(args: Array[String]): Unit = {
    // SparkSession 생성 (로컬 모드에서 실행)
    val spark = SparkSession.builder
      .appName("SparkSQLExample")
      .master("local[*]")
      .enableHiveSupport()  // Hive 연동 시 사용
      .getOrCreate()

    // CSV 파일에서 데이터프레임 생성 (헤더와 스키마 자동 추론)
    val df = spark.read
      .option("header", "true")
      .option("inferSchema", "true")
      .csv("data.csv")

    // 데이터프레임 스키마 출력
    df.printSchema()

    // 데이터프레임의 일부 행 조회
    df.show(5)

    // 임시 뷰 생성 및 SQL 쿼리 실행
    df.createOrReplaceTempView("data_table")
    val result = spark.sql("SELECT column1, COUNT(*) AS count FROM data_table GROUP BY column1")
    result.show()

    // SparkSession 종료
    spark.stop()
  }
}
</syntaxhighlight>
==역사 및 배경==
Spark SQL은 초기 버전의 Spark에서 별도의 SQLContext나 HiveContext를 사용하여 구조화된 데이터를 처리하던 방식을 단일 인터페이스인 SparkSession으로 통합하여 제공된다. Catalyst 옵티마이저의 도입과 함께, 사용자는 SQL 쿼리의 실행 계획을 자동으로 최적화할 수 있게 되었으며, Tungsten 실행 엔진은 메모리 관리와 CPU 효율을 극대화하여 대규모 데이터 처리에 최적화된 성능을 제공한다. 이러한 발전은 기존의 R, pandas, Hive 등 다양한 데이터 처리 도구와의 상호 연계를 통해 빅데이터 분석 및 실시간 스트리밍 처리 분야에서 Spark SQL이 널리 채택되는 계기를 마련하였다.
==활용 분야==
Spark SQL은 다양한 산업 분야에서 활용된다.
*데이터 분석 및 보고
**대규모 데이터셋에 대해 SQL 쿼리와 DataFrame API를 활용하여 통계 정보를 산출하고 인사이트를 도출한다.
*ETL 작업
**다양한 데이터 소스에서 데이터를 읽어들여 정제, 변환 후 데이터 웨어하우스나 데이터 레이크에 적재하는 작업에 사용된다.
*머신러닝
**Spark MLlib과 함께 대규모 데이터셋의 전처리 및 피처 엔지니어링 과정에 활용된다.
*실시간 스트리밍
**Structured Streaming과 연계하여 실시간 데이터 처리 및 분석을 수행한다.
==같이 보기==
*[[아파치 스파크]]
*[[아파치 스파크 SparkSession]]
*[[RDD (Resilient Distributed Dataset)]]
*[[Catalyst 옵티마이저]]
*[[Tungsten (스파크 실행 엔진)]]
*[[Hive]]
==참고 문헌==
*Zaharia, M., Chowdhury, M., Franklin, M. J., Shenker, S., & Stoica, I. (2010). Spark: Cluster Computing with Working Sets. HotCloud.
*Apache Spark 공식 문서, https://spark.apache.org/docs/latest/sql-programming-guide.html
*Karau, H., Konwinski, A., Wendell, P., & Zaharia, M. (2015). Learning Spark: Lightning-Fast Data Analytics. O'Reilly Media.
[[분류:아파치 스파크]]
[[분류:분산 컴퓨팅]]