아파치 스파크 DStream 편집하기

아파치 스파크 DStream(Discretized Stream)은 [[아파치 스파크 스트리밍]]에서 사용하는 '''기본 스트리밍 데이터 추상화'''로, '''연속적인 RDD들의 시퀀스'''로 구성된다. 실시간 스트리밍 데이터를 일정 시간 간격의 마이크로 배치로 나누어 처리하며, [[RDD]] 기반의 내결함성과 분산 처리 특성을 그대로 유지한다.
==개념==
*DStream은 스트리밍 데이터를 정해진 간격으로 잘라서 생성된 '''시간 단위의 RDD 묶음'''이다.
*사용자 입장에서는 스트림처럼 보이지만, 내부적으로는 배치 처리의 연속
*마이크로 배치 방식: 실시간 데이터 처리와 기존 배치 모델 간의 통합을 가능하게 함
==구조==
*Input DStream: 외부 소스(Kafka, TCP 소켓 등)에서 데이터를 수신하여 생성
*Transformed DStream: 기존 DStream에 map, reduce, join 등의 변환 연산을 적용하여 생성
==동작 흐름==
#외부 시스템에서 실시간 데이터 수신
#일정 간격으로 데이터를 수집하여 RDD 생성
#생성된 RDD에 변환 연산 수행
#결과를 콘솔, 파일, DB 등에 출력
==연산==
*DStream은 RDD처럼 다음과 같은 연산을 지원함:
**map, flatMap, filter, reduceByKey, join, window, updateStateByKey 등
*대부분의 연산은 내부적으로 각 배치 RDD에 대해 수행됨
==장애 대응==
*[[RDD]]의 특성상 '''lineage 정보'''를 활용한 자동 복구 기능이 존재함
**노드 장애가 발생해도 이전 연산 정보를 바탕으로 손실된 RDD를 재생성 가능
*상태 기반 연산(updateStateByKey)이나 장기 상태 유지에는 '''체크포인팅(checkpointing)''' 필요
**일정 주기로 상태 정보를 HDFS 등에 저장해 장애 시 복구
*DStream 레벨에서는 스트리밍 입력의 복구를 위해 입력 소스(Kafka 등)의 재시작 또는 커밋 오프셋 기반 복구 전략이 중요
==예시==
<pre>
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext("local[2]", "StreamingExample")
ssc = StreamingContext(sc, 1)  # 배치 간격 1초

lines = ssc.socketTextStream("localhost", 9999)
words = lines.flatMap(lambda line: line.split(" "))
pairs = words.map(lambda w: (w, 1))
counts = pairs.reduceByKey(lambda x, y: x + y)

counts.pprint()

ssc.start()
ssc.awaitTermination()
</pre>
==장점==
*[[RDD]] 기반으로 높은 신뢰성과 분산 처리 성능 확보
*배치와 스트리밍 처리의 통합 환경 제공
*[[Spark SQL]], [[MLlib]], [[GraphX]]와 함께 사용 가능
==단점==
*완전한 실시간(event-by-event) 처리가 아닌 마이크로 배치 기반
*[[Structured Streaming]]에 비해 API 수준이 낮고 복잡함
*최신 스파크 버전에서는 비권장(deprecated)으로 전환됨
==비교==
{| class="wikitable"
!항목!!DStream!!Structured Streaming
|-
|처리 방식||마이크로 배치||마이크로 배치 또는 연속 처리
|-
|추상화 단위||RDD 시퀀스||DataFrame/Dataset
|-
|연산 방식||RDD 연산 유사||SQL 및 선언적 쿼리
|-
|보장 수준||At least once||Exactly once
|-
|권장 여부||비권장 (deprecated)||기본 스트리밍 엔진
|}
==같이 보기==
*[[아파치 스파크]]
*[[아파치 스파크 스트리밍]]
*[[스트럭처드 스트리밍]]
*[[마이크로 배치]]
*[[우선순위 큐]]
*[[체크포인팅]]
*[[카프카]]
==참고 문헌==
*https://spark.apache.org/docs/latest/streaming-programming-guide.html
*Zaharia et al. (2013). Discretized Streams: Fault-Tolerant Streaming Computation at Scale
*Spark: The Definitive Guide (O'Reilly)
[[분류:분산 컴퓨팅]]
[[분류:아파치 스파크]]