빅데이터분석기사의 사용자 기여
IT 위키
2025년 5월 14일 (수)
- 06:132025년 5월 14일 (수) 06:13 차이 역사 +2,194 새글 레이 오브젝트 스토어 새 문서: 레이 오브젝트 스토어는 Ray에서 분산된 객체 데이터를 저장하고 공유하기 위한 메모리 기반 저장소이다. ==개요== Ray의 오브젝트 스토어는 Plasma를 기반으로 구현되었으며, 각 노드에 로컬 저장소가 존재하지만, 클러스터 전체에서 논리적으로 연결되어 하나의 분산 캐시처럼 동작한다. Remote 함수나 액터 메서드의 결과값은 이 오브젝트 스토어에 저장되며, ObjectRef를... 최신 태그: 시각 편집
- 06:062025년 5월 14일 (수) 06:06 차이 역사 +2,269 새글 레이 GCS 새 문서: 레이 GCS(Global Control Store)는 Ray 클러스터의 전역 상태 정보를 저장하고 관리하는 중앙 구성 요소이다. ==개요== GCS는 Ray 클러스터 내 모든 작업, 객체, 함수, 이벤트 등의 메타데이터를 저장하는 전역 키-값 저장소로, Ray의 제어 흐름을 중앙 집중화하여 구성 요소 간의 복잡한 상태 동기화를 단순화한다. Ray 2.0 이후부터는 GCS(Global Control Service)라는 명칭으로 불린다. ==... 최신 태그: 시각 편집
- 06:012025년 5월 14일 (수) 06:01 차이 역사 +2,305 새글 레이 리모트 액터 새 문서: 레이 리모트 액터는 상태를 유지하는 객체를 분산 환경에서 실행할 수 있도록 지원하는 Ray의 실행 단위이다. ==개요== Remote Actor는 @ray.remote 데코레이터가 붙은 클래스이며, 각 인스턴스는 클러스터 내의 단일 워커 프로세스로 생성된다. 일반 remote 함수와 달리 액터는 내부 상태를 유지할 수 있으며, 메서드 호출은 비동기적으로 실행되고 ObjectRef를 반환한다. 액터는... 최신 태그: 시각 편집
- 05:572025년 5월 14일 (수) 05:57 차이 역사 +2,080 새글 레이 리모트 함수 새 문서: 레이 리모트 함수는 Ray에서 분산 비동기 처리를 위해 사용하는 기본 실행 단위이다. ==개요== 리모트 함수(Remote Function)는 `@ray.remote` 데코레이터를 통해 정의되며, 클러스터의 여러 노드에서 병렬로 실행될 수 있는 비동기 태스크를 생성한다. 함수 호출 시 결과값이 즉시 반환되는 대신, 미래 결과를 참조하는 ObjectRef 객체가 반환되며, `ray.get()`을 통해 최종 값을 가져... 최신 태그: 시각 편집
- 05:542025년 5월 14일 (수) 05:54 차이 역사 +2,255 새글 레이 ObjectRef 새 문서: 레이 ObjectRef는 Ray에서 원격 함수 또는 액터 호출의 결과를 참조하기 위한 객체 참조자이다. ==개요== ObjectRef는 Ray에서 분산 비동기 실행을 지원하기 위해 사용하는 참조 메커니즘이다. remote 함수나 액터 메서드를 호출하면 즉시 결과값이 반환되는 것이 아니라, 해당 결과를 가리키는 ObjectRef 객체가 반환된다. ObjectRef는 작업이 완료되었을 때 결과를 가져올 수 있도... 최신 태그: 시각 편집
- 05:502025년 5월 14일 (수) 05:50 차이 역사 +2,140 새글 레이 Raylet 새 문서: 레이 Raylet은 Ray 분산 컴퓨팅 프레임워크의 핵심 구성 요소로, 각 워커 노드에서 태스크 실행과 객체 저장을 관리하는 경량 프로세스이다. ==개요== Raylet은 Ray 클러스터 내의 각 노드에서 실행되며, 태스크 스케줄링과 객체 저장소 관리를 담당한다. Ray 0.x 버전에서는 글로벌 스케줄러와 로컬 스케줄러가 분리되어 있었으나, Raylet 구조가 도입되면서 이 기능들이 단일... 최신 태그: 시각 편집
- 05:422025년 5월 14일 (수) 05:42 차이 역사 +53 레이 (분산 컴퓨팅) 편집 요약 없음 최신 태그: 시각 편집
- 05:412025년 5월 14일 (수) 05:41 차이 역사 +132 새글 파일:레이 아키텍처.png 편집 요약 없음 최신
- 05:392025년 5월 14일 (수) 05:39 차이 역사 +2,284 새글 GRPC (RPC 프레임워크) 새 문서: gRPC는 고성능 오픈소스 원격 프로시저 호출(Remote Procedure Call, RPC) 프레임워크이다. ==개요== gRPC는 Google에서 개발한 내부 RPC 시스템에서 유래하였으며, 현재는 다양한 언어와 플랫폼에서 사용할 수 있는 일반 목적의 RPC 프레임워크로 발전하였다. HTTP/2를 기반으로 하며, 바이너리 직렬화 형식인 프로토콜 버퍼(Protocol Buffers)를 사용하여 높은 성능과 효율적인 통신을 지... 최신 태그: 시각 편집
- 05:382025년 5월 14일 (수) 05:38 차이 역사 +47 레이 (분산 컴퓨팅) 편집 요약 없음 태그: 시각 편집
- 05:152025년 5월 14일 (수) 05:15 차이 역사 +4,707 레이 (분산 컴퓨팅) 편집 요약 없음 태그: 시각 편집
- 04:582025년 5월 14일 (수) 04:58 차이 역사 +2,240 레이 (분산 컴퓨팅) 편집 요약 없음 태그: 시각 편집
- 04:382025년 5월 14일 (수) 04:38 차이 역사 +6 레이 (분산 컴퓨팅) 편집 요약 없음 태그: 시각 편집
- 04:372025년 5월 14일 (수) 04:37 차이 역사 +3,831 레이 (분산 컴퓨팅) 편집 요약 없음 태그: 시각 편집
- 04:282025년 5월 14일 (수) 04:28 차이 역사 +3,015 새글 레이 (분산 컴퓨팅) 새 문서: 레이(Ray)는 머신 러닝 및 분산 애플리케이션을 위한 범용 분산 컴퓨팅 프레임워크이다. ==개요== 레이는 파이썬 중심의 API를 기반으로 하며, 간결한 코드로 대규모 분산 처리를 가능하게 해주는 범용 분산 실행 엔진이다. Ray는 동시성(concurrency), 병렬성(parallelism), 분산성(distribution)을 모두 지원하며, 특히 강화 학습, 하이퍼파라미터 튜닝, 대규모 데이터 처리 등의 머... 태그: 시각 편집
2025년 5월 13일 (화)
- 13:522025년 5월 13일 (화) 13:52 차이 역사 +3,577 새글 아파치 스파크 그래프프레임 새 문서: 아파치 스파크 그레프프레임(GraphFrames for Apache Spark)은 스파크에서 그래프 이론 기반의 데이터 처리를 가능하게 해주는 라이브러리로, 그래프X(GraphX)의 기능을 데이터프레임 API로 확장한 것이다. ==개요== 그레프프레임은 정점(vertex)과 간선(edge)을 각각 데이터프레임으로 표현하며, 스파크 SQL과의 통합을 통해 강력한 질의 기능과 분산 처리 성능을 동시에 제공한다.... 최신
- 13:522025년 5월 13일 (화) 13:52 차이 역사 −3,521 아파치 스파크 그레프프레임 아파치 스파크 그래프프레임 문서로 넘겨주기 최신 태그: 새 넘겨주기
- 13:512025년 5월 13일 (화) 13:51 차이 역사 +3,555 새글 아파치 스파크 그래프엑스 새 문서: 아파치 스파크 그래프엑스(GraphX for Apache Spark)는 분산 병렬 처리를 지원하는 아파치 스파크 기반의 그래프 처리 라이브러리로, 정점과 간선으로 구성된 그래프 구조를 효과적으로 분석하고 조작할 수 있도록 설계되었다. ==개요== 그래프엑스는 RDD(Resilient Distributed Dataset)를 기반으로 동작하며, 정점(vertex)와 간선(edge)을 분산된 형태로 저장하고 처리할 수 있는 기능을... 최신 태그: 시각 편집
- 13:022025년 5월 13일 (화) 13:02 차이 역사 +3,577 새글 아파치 스파크 그레프프레임 새 문서: 아파치 스파크 그레프프레임(GraphFrames for Apache Spark)은 스파크에서 그래프 이론 기반의 데이터 처리를 가능하게 해주는 라이브러리로, 그래프X(GraphX)의 기능을 데이터프레임 API로 확장한 것이다. ==개요== 그레프프레임은 정점(vertex)과 간선(edge)을 각각 데이터프레임으로 표현하며, 스파크 SQL과의 통합을 통해 강력한 질의 기능과 분산 처리 성능을 동시에 제공한다.... 태그: 시각 편집
- 12:492025년 5월 13일 (화) 12:49 차이 역사 +2,548 새글 아파치 플링크 새 문서: 아파치 플링크(Apache Flink)는 실시간 및 배치 데이터 스트리밍 처리를 위한 오픈소스 분산 처리 프레임워크이다. ==개요== 아파치 플링크는 대규모 데이터 스트림 처리를 위한 고성능 분산 처리 엔진이다. 스트리밍 데이터를 기본 처리 단위로 삼지만, 배치 처리 또한 스트리밍의 특수한 형태로 간주하여 일관된 API를 제공한다. 플링크는 정확히 한 번(exactly-once)의 상태... 최신 태그: 시각 편집
2025년 5월 10일 (토)
- 04:212025년 5월 10일 (토) 04:21 차이 역사 +2,479 새글 보상 해킹 새 문서: 보상 해킹(Reward hacking)은 인공지능, 특히 강화학습 시스템에서 에이전트가 주어진 보상 함수를 의도하지 않은 방식으로 최대화함으로써 인간 설계자의 의도와 다른 행동을 수행하는 현상을 의미한다. ==개요== 보상 해킹은 보상 함수가 불완전하거나 불충분하게 설계되었을 때 발생하며, 에이전트는 보상 자체를 극대화하려는 목표를 따르기 때문에 시스템이 기대하... 최신 태그: 시각 편집
- 04:202025년 5월 10일 (토) 04:20 차이 역사 +2,521 새글 동적 타입 언어 새 문서: 동적 타입 언어(Dynamic typing language, 動的 - 語言)은 변수나 표현식의 타입이 실행 시점(runtime)에 결정되는 프로그래밍 언어를 의미한다. 이러한 언어에서는 컴파일 시점에 타입 검사가 이루어지지 않으며, 프로그램 실행 중에 타입 오류가 발생할 수 있다. ==개요== 동적 타입 언어는 개발자가 변수의 타입을 명시하지 않아도 되며, 변수는 다양한 타입의 값을 가질 수... 최신 태그: 시각 편집
- 04:192025년 5월 10일 (토) 04:19 차이 역사 +2,733 새글 정적 타입 언어 새 문서: 정적 타입 언어(Static typing language, 靜的 - 語言)은 프로그램의 변수나 표현식의 타입이 컴파일 시점에 결정되는 프로그래밍 언어를 의미한다. 이러한 언어에서는 타입 검사가 컴파일러에 의해 수행되며, 타입 오류는 프로그램 실행 전에 발견된다. ==개요== 정적 타입 언어는 프로그램의 안정성과 예측 가능성을 높이기 위해 변수와 표현식에 대한 명확한 타입 선언을... 최신 태그: 시각 편집
2025년 4월 26일 (토)
- 11:062025년 4월 26일 (토) 11:06 차이 역사 +1,889 새글 Loudacre 새 문서: Loudacre는 가상의 이동통신 및 기술 솔루션 회사이다. ==개요== Loudacre는 주로 이동통신 장비, 스마트 디바이스, IoT(사물인터넷) 솔루션 및 기업용 IT 서비스 분야에서 활동하는 가상의 기업으로 설정되어 있다. 이 회사는 다양한 기술 학습 자료, 빅데이터 분석 연습, 클라우드 컴퓨팅 실습 등에서 등장하는 예시 회사로 자주 활용된다. 이름은 명확한 어원적 배경 없이 '... 최신 태그: 시각 편집
2025년 4월 16일 (수)
- 09:522025년 4월 16일 (수) 09:52 차이 역사 +2,941 새글 아파치 스파크 Structured Streaming 새 문서: 아파치 스파크 Structured Streaming은 아파치 스파크에서 제공하는 고수준 스트리밍 처리 엔진으로, 스트리밍 데이터를 '''배치 처리처럼 선언적으로 다룰 수 있도록 설계된 API'''이다. DStream 기반의 기존 스트리밍 모델보다 간단하고 강력하며, DataFrame, Dataset API를 그대로 사용할 수 있다. ==개념== *Structured Streaming은 스트리밍을 마치 정적인 테이블처럼 처리하는 '''c... 최신 태그: 시각 편집
- 08:422025년 4월 16일 (수) 08:42 차이 역사 +2,307 새글 아파치 스파크 DStream Stateful Streaming 새 문서: DStream 기반의 Stateful Streaming은 '''과거 배치의 처리 결과 또는 상태(state)를 현재 배치 처리에 활용하는 방식'''이다. Stateless Streaming과 달리, 데이터 간의 시간적 연관성이나 누적 계산이 필요한 경우에 사용된다. 세션 추적, 누적 카운트, 상태 기반 경고 등에 적합하다. ==개념== *상태란 키(key)별로 유지되는 누적 값, 카운트, 집계 정보 등을 의미 *배치 간에 상태가... 최신 태그: 시각 편집
- 08:412025년 4월 16일 (수) 08:41 차이 역사 +2,163 새글 아파치 스파크 DStream Stateless Streaming 새 문서: DStream 기반의 Stateless Streaming은 각 마이크로 배치에서 수신된 데이터를 '''이전 상태와 독립적으로 처리하는 방식'''을 의미한다. 즉, 각 배치 단위의 RDD는 다른 배치와 관계없이 독립적으로 처리되며, '''누적 상태(state)를 유지하지 않는다.''' ==개념== *Stateless란 '''이전 입력 데이터의 상태를 저장하지 않고''' 매 배치마다 새로 계산하는 방식 *모든 계산은 '''현재 배치... 최신 태그: 시각 편집
- 08:412025년 4월 16일 (수) 08:41 차이 역사 +2,292 새글 아파치 스파크 DStream transform 새 문서: DStream의 transform 연산은 각 배치 간격마다 생성되는 RDD에 대해 '''직접적인 RDD 연산을 적용'''할 수 있게 해주는 고급 연산이다. DStream API의 고수준 추상화(map, reduceByKey 등)로는 처리할 수 없는 복잡한 연산이나 외부 RDD와의 연산을 가능하게 한다. ==개념== *transform 연산은 DStream 내부의 RDD를 직접 받아서 처리할 수 있는 유일한 API다 *즉, 각 배치 시점마다 다음과 같은... 최신 태그: 시각 편집
- 08:302025년 4월 16일 (수) 08:30 차이 역사 +41 새글 RDD 아파치 스파크 RDD 문서로 넘겨주기 최신 태그: 새 넘겨주기 시각 편집
- 08:302025년 4월 16일 (수) 08:30 차이 역사 +3,683 새글 아파치 스파크 DStream 새 문서: 아파치 스파크 DStream(Discretized Stream)은 아파치 스파크 스트리밍에서 사용하는 '''기본 스트리밍 데이터 추상화'''로, '''연속적인 RDD들의 시퀀스'''로 구성된다. 실시간 스트리밍 데이터를 일정 시간 간격의 마이크로 배치로 나누어 처리하며, RDD 기반의 내결함성과 분산 처리 특성을 그대로 유지한다. ==개념== *DStream은 스트리밍 데이터를 정해진 간격으로 잘라서... 최신 태그: 시각 편집
- 08:232025년 4월 16일 (수) 08:23 차이 역사 +3,445 새글 아파치 스파크 스트리밍 새 문서: 아파치 스파크 스트리밍(Apache Spark Streaming)은 아파치 스파크에서 제공하는 '''실시간 데이터 스트리밍 처리 기능'''이다. 대규모 실시간 데이터를 마이크로 배치(micro-batch) 단위로 처리하며, 고속 데이터 처리와 확장성을 동시에 제공한다. ==개념== *스트리밍 데이터를 '''작은 배치 단위로 분할'''하여 처리 *실시간 데이터 수집 → 변환 → 분석 → 저장의 전 과정 지... 최신 태그: 시각 편집
2025년 4월 9일 (수)
- 09:572025년 4월 9일 (수) 09:57 차이 역사 +3,250 새글 아파치 스파크 ParamGridBuilder 새 문서: ParamGridBuilder는 Apache Spark MLlib에서 하이퍼파라미터 튜닝을 위한 도구로, 여러 파라미터 조합을 생성해 CrossValidator나 TrainValidationSplit과 함께 사용된다. 이를 통해 모델의 하이퍼파라미터를 체계적으로 탐색하고 최적의 조합을 찾을 수 있다. ==개요== ParamGridBuilder는 ML 파이프라인 내 Estimator 객체의 파라미터를 대상으로 여러 후보 값을 설정하고, 가능한 모든 조합을 만... 최신 태그: 시각 편집
- 09:482025년 4월 9일 (수) 09:48 차이 역사 +2,821 하이퍼파라미터 편집 요약 없음 최신 태그: 시각 편집
- 09:452025년 4월 9일 (수) 09:45 차이 역사 +2,558 새글 로그 정규 분포 새 문서: 섬네일|로그 정규 분포와 일반 정규 분포 로그 정규 분포(로그 正規 分布, 영어: log-normal distribution)는 확률 변수의 로그가 정규 분포를 따르는 확률 분포이다. 즉, 확률 변수 X가 로그 정규 분포를 따른다는 것은 ln(X)가 정규 분포를 따른다는 것을 의미한다. 로그 정규 분포는 정수 값만을 가지는 데이터나, 0보다 큰 양수 데이터에 적합... 최신 태그: 시각 편집
- 09:442025년 4월 9일 (수) 09:44 차이 역사 +70 새글 파일:로그 정규 분포 비교.png 편집 요약 없음 최신
- 09:382025년 4월 9일 (수) 09:38 차이 역사 +2,525 새글 결정 계수 새 문서: 결정 계수(決定係數, Coefficient of Determination)는 회귀 분석에서 예측된 결과가 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 일반적으로 R² (R 제곱값)로 표기된다. 값의 범위는 0에서 1 사이이며, 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미한다. ==정의== 결정 계수는 총 변동 중에서 회귀 모형이 설명할 수 있는 변동의 비율이다. R² = 1 − (RSS... 최신 태그: 시각 편집
- 09:362025년 4월 9일 (수) 09:36 차이 역사 +1,117 평균 제곱근 오차 편집 요약 없음 최신
- 09:342025년 4월 9일 (수) 09:34 차이 역사 +1,922 새글 평균 제곱근 오차 새 문서: 평균 제곱근 오차(RMSE, Root Mean Squared Error)는 회귀 분석에서 예측값과 실제값 간의 차이를 측정하는 대표적인 평가 지표이다. 오차(Residual)의 제곱 평균에 루트를 씌운 값으로, 단위가 원래 데이터와 동일하여 해석이 직관적이다. ==정의== 평균 제곱근 오차는 다음 수식으로 정의된다. RMSE = sqrt( (1/n) * Σ (y<sub>i</sub> - ŷ<sub>i</sub>)² ) 여기서, *<big>y<sub>i</sub>: 실제값</big>... 태그: 시각 편집
- 09:302025년 4월 9일 (수) 09:30 차이 역사 +52 아파치 스파크 RFormula 편집 요약 없음 최신 태그: 시각 편집
- 09:302025년 4월 9일 (수) 09:30 차이 역사 +2,660 새글 아파치 스파크 RFormula 새 문서: RFormula는 Apache Spark MLlib에서 제공하는 피처 엔지니어링 도구로, R 언어의 공식(formula) 문법을 사용하여 특성과 레이블을 자동으로 정의하고 전처리 과정을 단순화하는 기능을 제공한다. 이 기능은 범주형 변수 인코딩, 수치형 변수 선택, 다항식 식별 등을 간결한 구문으로 수행할 수 있어, 모델링 파이프라인 구성 시 유용하다. ==개요== RFormula는 `"label ~ features"` 형식... 태그: 시각 편집
- 09:282025년 4월 9일 (수) 09:28 차이 역사 +3,404 새글 아파치 스파크 StringIndexer 새 문서: StringIndexer는 Apache Spark MLlib에서 제공하는 범주형 문자열 데이터를 수치형 인덱스로 변환하는 변환기(Transformer)이다. 머신 러닝 알고리즘은 일반적으로 숫자형 입력을 필요로 하므로, 문자열로 표현된 범주형 변수를 정수형 인덱스로 매핑하는 데 사용된다. ==개요== StringIndexer는 입력 열(input column)에 포함된 고유한 문자열 레이블을 빈도 또는 알파벳 순에 따라 정수... 최신 태그: 시각 편집
- 09:222025년 4월 9일 (수) 09:22 차이 역사 −28 아파치 스파크 머신 러닝 파이프라인 편집 요약 없음 최신 태그: 시각 편집
- 09:212025년 4월 9일 (수) 09:21 차이 역사 −1 아파치 스파크 머신 러닝 파이프라인 편집 요약 없음 태그: 시각 편집
- 09:212025년 4월 9일 (수) 09:21 차이 역사 −1 머신 러닝 파이프라인 편집 요약 없음 최신 태그: 시각 편집
- 09:202025년 4월 9일 (수) 09:20 차이 역사 +2,713 새글 원 핫 인코딩 새 문서: 원 핫 인코딩(One-hot encoding)은 범주형(categorical) 데이터를 머신 러닝 알고리즘에서 사용할 수 있도록 수치형 데이터로 변환하는 기법 중 하나이다. 각 범주를 이진 벡터의 고유한 위치에 1로 표시하고, 나머지는 0으로 처리하여 범주 간의 순서 또는 크기 의미를 제거한다. ==개요== 범주형 데이터는 대부분 문자열로 표현되며, 모델 학습에 직접 사용할 수 없다. 이를 해... 최신 태그: 시각 편집
- 08:292025년 4월 9일 (수) 08:29 차이 역사 +3,747 새글 아파치 스파크 머신 러닝 파이프라인 새 문서: 아파치 스파크 머신 러닝 파이프라인(Spark ML Pipeline)은 Apache Spark의 머신 러닝 라이브러리인 MLlib에서 제공하는 고수준 API로, 데이터 전처리부터 모델 학습, 평가, 예측에 이르기까지 전체 머신 러닝 흐름을 구조화된 방식으로 구성할 수 있도록 지원한다. 파이프라인은 대규모 분산 처리 환경에서 확장성과 재현성을 높이기 위해 설계되었다. ==개요== 스파크 머신 러... 태그: 시각 편집
- 08:272025년 4월 9일 (수) 08:27 차이 역사 +3,337 새글 머신 러닝 파이프라인 새 문서: 머신 러닝 파이프라인(Machine Learning Pipeline)은 데이터 전처리부터 모델 학습, 예측, 평가, 배포까지 일련의 과정을 체계적으로 구성한 자동화 흐름이다. 파이프라인을 통해 반복 가능한 작업을 재사용 가능하고 일관성 있게 수행할 수 있으며, 실험 및 배포 환경에서 생산성을 크게 높인다. ==개요== 머신 러닝 파이프라인은 전체 모델링 과정에서 필요한 여러 단계를... 태그: 시각 편집
2025년 4월 4일 (금)
- 06:382025년 4월 4일 (금) 06:38 차이 역사 +2,954 하둡 에코시스템 편집 요약 없음 최신 태그: 시각 편집
- 06:362025년 4월 4일 (금) 06:36 차이 역사 +2,578 새글 하둡 에코시스템 새 문서: ┌────────────────────────────┐ │ User Interface │ │ (Hue, Zeppelin) │ └────────────┬───────────────┘ │ ┌──────────────────▼─... 태그: 시각 편집
- 06:242025년 4월 4일 (금) 06:24 차이 역사 +2,591 새글 아파치 주키퍼 znode 새 문서: znode는 아파치 주키퍼에서 사용되는 데이터 단위이자 노드로, 주키퍼의 트리 구조 네임스페이스를 구성하는 핵심 요소이다. 각각의 znode는 파일 시스템의 디렉토리나 파일처럼 취급되며, 데이터와 메타데이터를 포함할 수 있다. 클라이언트는 znode를 통해 정보를 저장하거나, 상태 변화를 감지하거나, 노드 간 동기화를 구현할 수 있다. ==개념== *znode는 주키퍼의... 최신 태그: 시각 편집