익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
아파치 스파크 DStream Stateful Streaming
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
DStream 기반의 Stateful Streaming은 '''과거 배치의 처리 결과 또는 상태(state)를 현재 배치 처리에 활용하는 방식'''이다. [[Stateless Streaming]]과 달리, 데이터 간의 시간적 연관성이나 누적 계산이 필요한 경우에 사용된다. 세션 추적, 누적 카운트, 상태 기반 경고 등에 적합하다. ==개념== *상태란 키(key)별로 유지되는 누적 값, 카운트, 집계 정보 등을 의미 *배치 간에 상태가 이어지므로 '''데이터 처리 결과가 시간 축을 따라 누적됨''' *내부적으로 각 키에 대한 상태를 메모리에서 유지하거나 [[체크포인팅]]을 통해 디스크에 저장 ==주요 연산== ===updateStateByKey=== *가장 대표적인 상태 유지 연산 *키별로 상태를 갱신함 *함수 형식: `(new_values, previous_state) => updated_state` <pre> def update_func(new_values, running_count): return sum(new_values) + (running_count or 0) word_counts = words.map(lambda w: (w, 1)) \ .updateStateByKey(update_func) </pre> ===mapWithState=== *updateStateByKey의 성능 향상 및 유연한 대체제 *[[타임아웃]], [[삭제된 키]] 처리 등 고급 기능 제공 *데이터 스트림과 상태를 함께 처리하는 구조 지원 ==상태 저장== *상태는 Executor의 메모리에 저장되며, 장애 시 복구를 위해 [[체크포인팅]] 필요 *체크포인트 디렉토리는 HDFS 등 외부 안정 저장소로 지정해야 함 ==예시== *단어별 누적 출현 횟수 계산 *사용자별 로그인 세션 추적 *센서별 누적 온도 변화 모니터링 *주문 상태별 누적 금액 계산 ==장점== *시간에 따른 상태 변화 추적 가능 *이벤트 기반 이상 감지 및 경고 처리 가능 *키별 누적 분석, 세션 추적에 필수적 ==단점== *상태 유지를 위한 메모리 비용 증가 *장애 복구를 위해 체크포인팅 필수 *클러스터 자원 소모 증가 ==같이 보기== *[[아파치 스파크 DStream]] *[[Stateless Streaming]] *[[체크포인팅]] *[[스트럭처드 스트리밍]] *[[마이크로 배치]] ==참고 문헌== *https://spark.apache.org/docs/latest/streaming-programming-guide.html#stateful-operations *Spark: The Definitive Guide (O'Reilly) [[분류:아파치 스파크]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록