모든 공개 기록
IT 위키
IT 위키에서 사용할 수 있는 모든 기록이 표시됩니다. 기록 종류나 사용자 이름(대소문자 구별) 또는 영향을 받는 문서(대소문자 구별)를 선택하여 범위를 좁혀서 살펴볼 수 있습니다.
- 2025년 4월 26일 (토) 11:06 빅데이터분석기사 토론 기여님이 Loudacre 문서를 만들었습니다 (새 문서: Loudacre는 가상의 이동통신 및 기술 솔루션 회사이다. ==개요== Loudacre는 주로 이동통신 장비, 스마트 디바이스, IoT(사물인터넷) 솔루션 및 기업용 IT 서비스 분야에서 활동하는 가상의 기업으로 설정되어 있다. 이 회사는 다양한 기술 학습 자료, 빅데이터 분석 연습, 클라우드 컴퓨팅 실습 등에서 등장하는 예시 회사로 자주 활용된다. 이름은 명확한 어원적 배경 없이 '...) 태그: 시각 편집
- 2025년 4월 16일 (수) 09:52 빅데이터분석기사 토론 기여님이 아파치 스파크 Structured Streaming 문서를 만들었습니다 (새 문서: 아파치 스파크 Structured Streaming은 아파치 스파크에서 제공하는 고수준 스트리밍 처리 엔진으로, 스트리밍 데이터를 '''배치 처리처럼 선언적으로 다룰 수 있도록 설계된 API'''이다. DStream 기반의 기존 스트리밍 모델보다 간단하고 강력하며, DataFrame, Dataset API를 그대로 사용할 수 있다. ==개념== *Structured Streaming은 스트리밍을 마치 정적인 테이블처럼 처리하는 '''c...) 태그: 시각 편집
- 2025년 4월 16일 (수) 08:42 빅데이터분석기사 토론 기여님이 아파치 스파크 DStream Stateful Streaming 문서를 만들었습니다 (새 문서: DStream 기반의 Stateful Streaming은 '''과거 배치의 처리 결과 또는 상태(state)를 현재 배치 처리에 활용하는 방식'''이다. Stateless Streaming과 달리, 데이터 간의 시간적 연관성이나 누적 계산이 필요한 경우에 사용된다. 세션 추적, 누적 카운트, 상태 기반 경고 등에 적합하다. ==개념== *상태란 키(key)별로 유지되는 누적 값, 카운트, 집계 정보 등을 의미 *배치 간에 상태가...) 태그: 시각 편집
- 2025년 4월 16일 (수) 08:41 빅데이터분석기사 토론 기여님이 아파치 스파크 DStream Stateless Streaming 문서를 만들었습니다 (새 문서: DStream 기반의 Stateless Streaming은 각 마이크로 배치에서 수신된 데이터를 '''이전 상태와 독립적으로 처리하는 방식'''을 의미한다. 즉, 각 배치 단위의 RDD는 다른 배치와 관계없이 독립적으로 처리되며, '''누적 상태(state)를 유지하지 않는다.''' ==개념== *Stateless란 '''이전 입력 데이터의 상태를 저장하지 않고''' 매 배치마다 새로 계산하는 방식 *모든 계산은 '''현재 배치...) 태그: 시각 편집
- 2025년 4월 16일 (수) 08:41 빅데이터분석기사 토론 기여님이 아파치 스파크 DStream transform 문서를 만들었습니다 (새 문서: DStream의 transform 연산은 각 배치 간격마다 생성되는 RDD에 대해 '''직접적인 RDD 연산을 적용'''할 수 있게 해주는 고급 연산이다. DStream API의 고수준 추상화(map, reduceByKey 등)로는 처리할 수 없는 복잡한 연산이나 외부 RDD와의 연산을 가능하게 한다. ==개념== *transform 연산은 DStream 내부의 RDD를 직접 받아서 처리할 수 있는 유일한 API다 *즉, 각 배치 시점마다 다음과 같은...) 태그: 시각 편집
- 2025년 4월 16일 (수) 08:30 빅데이터분석기사 토론 기여님이 RDD 문서를 만들었습니다 (아파치 스파크 RDD 문서로 넘겨주기) 태그: 새 넘겨주기 시각 편집
- 2025년 4월 16일 (수) 08:30 빅데이터분석기사 토론 기여님이 아파치 스파크 DStream 문서를 만들었습니다 (새 문서: 아파치 스파크 DStream(Discretized Stream)은 아파치 스파크 스트리밍에서 사용하는 '''기본 스트리밍 데이터 추상화'''로, '''연속적인 RDD들의 시퀀스'''로 구성된다. 실시간 스트리밍 데이터를 일정 시간 간격의 마이크로 배치로 나누어 처리하며, RDD 기반의 내결함성과 분산 처리 특성을 그대로 유지한다. ==개념== *DStream은 스트리밍 데이터를 정해진 간격으로 잘라서...) 태그: 시각 편집
- 2025년 4월 16일 (수) 08:23 빅데이터분석기사 토론 기여님이 아파치 스파크 스트리밍 문서를 만들었습니다 (새 문서: 아파치 스파크 스트리밍(Apache Spark Streaming)은 아파치 스파크에서 제공하는 '''실시간 데이터 스트리밍 처리 기능'''이다. 대규모 실시간 데이터를 마이크로 배치(micro-batch) 단위로 처리하며, 고속 데이터 처리와 확장성을 동시에 제공한다. ==개념== *스트리밍 데이터를 '''작은 배치 단위로 분할'''하여 처리 *실시간 데이터 수집 → 변환 → 분석 → 저장의 전 과정 지...) 태그: 시각 편집
- 2025년 4월 9일 (수) 09:57 빅데이터분석기사 토론 기여님이 아파치 스파크 ParamGridBuilder 문서를 만들었습니다 (새 문서: ParamGridBuilder는 Apache Spark MLlib에서 하이퍼파라미터 튜닝을 위한 도구로, 여러 파라미터 조합을 생성해 CrossValidator나 TrainValidationSplit과 함께 사용된다. 이를 통해 모델의 하이퍼파라미터를 체계적으로 탐색하고 최적의 조합을 찾을 수 있다. ==개요== ParamGridBuilder는 ML 파이프라인 내 Estimator 객체의 파라미터를 대상으로 여러 후보 값을 설정하고, 가능한 모든 조합을 만...) 태그: 시각 편집
- 2025년 4월 9일 (수) 09:45 빅데이터분석기사 토론 기여님이 로그 정규 분포 문서를 만들었습니다 (새 문서: 섬네일|로그 정규 분포와 일반 정규 분포 로그 정규 분포(로그 正規 分布, 영어: log-normal distribution)는 확률 변수의 로그가 정규 분포를 따르는 확률 분포이다. 즉, 확률 변수 X가 로그 정규 분포를 따른다는 것은 ln(X)가 정규 분포를 따른다는 것을 의미한다. 로그 정규 분포는 정수 값만을 가지는 데이터나, 0보다 큰 양수 데이터에 적합...) 태그: 시각 편집
- 2025년 4월 9일 (수) 09:44 빅데이터분석기사 토론 기여님이 파일:로그 정규 분포 비교.png 문서를 만들었습니다
- 2025년 4월 9일 (수) 09:44 빅데이터분석기사 토론 기여님이 파일:로그 정규 분포 비교.png 파일을 올렸습니다
- 2025년 4월 9일 (수) 09:38 빅데이터분석기사 토론 기여님이 결정 계수 문서를 만들었습니다 (새 문서: 결정 계수(決定係數, Coefficient of Determination)는 회귀 분석에서 예측된 결과가 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 일반적으로 R² (R 제곱값)로 표기된다. 값의 범위는 0에서 1 사이이며, 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미한다. ==정의== 결정 계수는 총 변동 중에서 회귀 모형이 설명할 수 있는 변동의 비율이다. R² = 1 − (RSS...) 태그: 시각 편집
- 2025년 4월 9일 (수) 09:34 빅데이터분석기사 토론 기여님이 평균 제곱근 오차 문서를 만들었습니다 (새 문서: 평균 제곱근 오차(RMSE, Root Mean Squared Error)는 회귀 분석에서 예측값과 실제값 간의 차이를 측정하는 대표적인 평가 지표이다. 오차(Residual)의 제곱 평균에 루트를 씌운 값으로, 단위가 원래 데이터와 동일하여 해석이 직관적이다. ==정의== 평균 제곱근 오차는 다음 수식으로 정의된다. RMSE = sqrt( (1/n) * Σ (y<sub>i</sub> - ŷ<sub>i</sub>)² ) 여기서, *<big>y<sub>i</sub>: 실제값</big>...) 태그: 시각 편집
- 2025년 4월 9일 (수) 09:30 빅데이터분석기사 토론 기여님이 아파치 스파크 RFormula 문서를 만들었습니다 (새 문서: RFormula는 Apache Spark MLlib에서 제공하는 피처 엔지니어링 도구로, R 언어의 공식(formula) 문법을 사용하여 특성과 레이블을 자동으로 정의하고 전처리 과정을 단순화하는 기능을 제공한다. 이 기능은 범주형 변수 인코딩, 수치형 변수 선택, 다항식 식별 등을 간결한 구문으로 수행할 수 있어, 모델링 파이프라인 구성 시 유용하다. ==개요== RFormula는 `"label ~ features"` 형식...) 태그: 시각 편집
- 2025년 4월 9일 (수) 09:28 빅데이터분석기사 토론 기여님이 아파치 스파크 StringIndexer 문서를 만들었습니다 (새 문서: StringIndexer는 Apache Spark MLlib에서 제공하는 범주형 문자열 데이터를 수치형 인덱스로 변환하는 변환기(Transformer)이다. 머신 러닝 알고리즘은 일반적으로 숫자형 입력을 필요로 하므로, 문자열로 표현된 범주형 변수를 정수형 인덱스로 매핑하는 데 사용된다. ==개요== StringIndexer는 입력 열(input column)에 포함된 고유한 문자열 레이블을 빈도 또는 알파벳 순에 따라 정수...) 태그: 시각 편집
- 2025년 4월 9일 (수) 09:20 빅데이터분석기사 토론 기여님이 원 핫 인코딩 문서를 만들었습니다 (새 문서: 원 핫 인코딩(One-hot encoding)은 범주형(categorical) 데이터를 머신 러닝 알고리즘에서 사용할 수 있도록 수치형 데이터로 변환하는 기법 중 하나이다. 각 범주를 이진 벡터의 고유한 위치에 1로 표시하고, 나머지는 0으로 처리하여 범주 간의 순서 또는 크기 의미를 제거한다. ==개요== 범주형 데이터는 대부분 문자열로 표현되며, 모델 학습에 직접 사용할 수 없다. 이를 해...) 태그: 시각 편집
- 2025년 4월 9일 (수) 08:29 빅데이터분석기사 토론 기여님이 아파치 스파크 머신 러닝 파이프라인 문서를 만들었습니다 (새 문서: 아파치 스파크 머신 러닝 파이프라인(Spark ML Pipeline)은 Apache Spark의 머신 러닝 라이브러리인 MLlib에서 제공하는 고수준 API로, 데이터 전처리부터 모델 학습, 평가, 예측에 이르기까지 전체 머신 러닝 흐름을 구조화된 방식으로 구성할 수 있도록 지원한다. 파이프라인은 대규모 분산 처리 환경에서 확장성과 재현성을 높이기 위해 설계되었다. ==개요== 스파크 머신 러...) 태그: 시각 편집
- 2025년 4월 9일 (수) 08:27 빅데이터분석기사 토론 기여님이 머신 러닝 파이프라인 문서를 만들었습니다 (새 문서: 머신 러닝 파이프라인(Machine Learning Pipeline)은 데이터 전처리부터 모델 학습, 예측, 평가, 배포까지 일련의 과정을 체계적으로 구성한 자동화 흐름이다. 파이프라인을 통해 반복 가능한 작업을 재사용 가능하고 일관성 있게 수행할 수 있으며, 실험 및 배포 환경에서 생산성을 크게 높인다. ==개요== 머신 러닝 파이프라인은 전체 모델링 과정에서 필요한 여러 단계를...) 태그: 시각 편집
- 2025년 4월 4일 (금) 06:36 빅데이터분석기사 토론 기여님이 하둡 에코시스템 문서를 만들었습니다 (새 문서: ┌────────────────────────────┐ │ User Interface │ │ (Hue, Zeppelin) │ └────────────┬───────────────┘ │ ┌──────────────────▼─...) 태그: 시각 편집
- 2025년 4월 4일 (금) 06:24 빅데이터분석기사 토론 기여님이 아파치 주키퍼 znode 문서를 만들었습니다 (새 문서: znode는 아파치 주키퍼에서 사용되는 데이터 단위이자 노드로, 주키퍼의 트리 구조 네임스페이스를 구성하는 핵심 요소이다. 각각의 znode는 파일 시스템의 디렉토리나 파일처럼 취급되며, 데이터와 메타데이터를 포함할 수 있다. 클라이언트는 znode를 통해 정보를 저장하거나, 상태 변화를 감지하거나, 노드 간 동기화를 구현할 수 있다. ==개념== *znode는 주키퍼의...) 태그: 시각 편집
- 2025년 4월 4일 (금) 06:21 빅데이터분석기사 토론 기여님이 아파치 주키퍼 문서를 만들었습니다 (새 문서: 아파치 주키퍼(Apache ZooKeeper)는 대규모 분산 시스템에서 구성 정보 관리, 이름 서비스, 동기화, 그룹 관리 등을 지원하는 '''중앙 집중식 분산 코디네이터'''이다. 노드 간의 일관성과 고가용성을 유지하기 위해 설계되었으며, 다양한 분산 애플리케이션에서 핵심 인프라로 사용된다. ==개념== *주키퍼는 클라이언트와 서버 간의 '''일관된 상태 공유'''를 위한 중앙 저장...) 태그: 시각 편집
- 2025년 4월 2일 (수) 10:08 빅데이터분석기사 토론 기여님이 아파치 스파크 조인 문서를 만들었습니다 (새 문서: 아파치 스파크 조인(Join)은 Apache Spark SQL과 DataFrame API에서 서로 다른 데이터셋을 하나의 결과로 결합하기 위해 사용되는 핵심 연산 중 하나이다. 스파크 조인은 분산 환경에서 데이터를 효과적으로 결합할 수 있도록 다양한 조인 유형과 최적화 전략을 제공하며, 대규모 데이터 처리 및 분석 작업에서 중요한 역할을 한다. ==개요== 아파치 스파크 조인은 두 개 이상의...) 태그: 시각 편집
- 2025년 4월 2일 (수) 10:01 빅데이터분석기사 토론 기여님이 아파치 스파크 DSL 문서를 만들었습니다 (새 문서: 아파치 스파크 DSL(Domain-Specific Language)은 Apache Spark에서 제공하는 도메인 특화 언어로, 분산 데이터 처리 및 분석을 위한 고수준 API를 의미한다. 이 DSL은 주로 스칼라(Scala) 기반으로 구현되어 있으며, Spark SQL, DataFrame, Dataset API 등을 통해 대규모 데이터 처리를 간결하고 효율적으로 수행할 수 있도록 돕는다. ==개요== 아파치 스파크 DSL은 Spark의 분산 처리 기능을 프로그...) 태그: 시각 편집
- 2025년 4월 2일 (수) 09:57 빅데이터분석기사 토론 기여님이 아파치 스파크 카탈리스트 옵티마이저 문서를 만들었습니다 (새 문서: 아파치 스파크 카탈리스트 옵티마이저(Catalyst Optimizer)는 Spark SQL의 핵심 구성 요소 중 하나로, SQL 쿼리와 DataFrame 연산에 대해 최적화된 실행 계획을 생성하는 역할을 한다. 이 옵티마이저는 함수형 프로그래밍 기법과 규칙 기반 최적화(rule-based optimization)를 결합하여, 복잡한 쿼리를 효율적으로 처리할 수 있도록 돕는다. ==개요== 카탈리스트 옵티마이저는 Apache Spark 1....) 태그: 시각 편집
- 2025년 4월 2일 (수) 09:49 빅데이터분석기사 토론 기여님이 콜백 함수 문서를 만들었습니다 (새 문서: 콜백 함수(Callback Function, 영어: callback function)는 다른 함수의 인자로 전달되어, 특정 이벤트나 작업이 완료되었을 때 호출되는 함수를 의미한다. 이 개념은 비동기 프로그래밍, 이벤트 기반 프로그래밍 및 함수형 프로그래밍에서 널리 활용되며, 프로그램의 흐름 제어와 코드의 재사용성을 높이는 데 기여한다. ==개요== 콜백 함수는 보통 익명 함수(anonymous function) 형...) 태그: 시각 편집
- 2025년 4월 2일 (수) 09:49 빅데이터분석기사 토론 기여님이 자바 객체 문서를 만들었습니다 (새 문서: 자바 객체(Java Object)는 자바 프로그래밍 언어에서 클래스(Class)를 기반으로 생성되는 인스턴스로, 상태(데이터)와 행위(메서드)를 포함하는 기본 단위이다. 객체는 객체지향 프로그래밍(OOP)의 핵심 개념으로, 코드의 재사용성과 모듈화, 상속, 다형성 및 추상화 등의 특징을 구현하는 데 중요한 역할을 한다. ==개요== 자바 객체는 클래스에 정의된 구조를 바탕으로 메...) 태그: 시각 편집
- 2025년 4월 2일 (수) 09:39 빅데이터분석기사 토론 기여님이 람다 함수 문서를 만들었습니다 (새 문서: 람다 함수(lambda function)는 익명 함수(anonymous function)를 의미하며, 프로그래밍 언어에서 함수를 간결하게 정의할 수 있는 방법을 제공한다. 람다 함수는 보통 이름 없이 선언되어, 필요할 때 즉석에서 실행되거나 다른 함수의 인자로 전달되어 사용된다. =개요= 람다 함수는 전통적인 함수 정의 방식에 비해 구문이 간결하며, 일회성 함수나 작은 연산을 수행할 때 유용...) 태그: 시각 편집
- 2025년 4월 2일 (수) 09:38 빅데이터분석기사 토론 기여님이 아파치 스파크 텅스텐 문서를 만들었습니다 (새 문서: 아파치 스파크 텅스텐(Tungsten)은 Apache Spark의 실행 엔진 중 하나로, 메모리 관리와 코드 생성에 최적화된 성능 향상 기술을 제공한다. 텅스텐은 Spark 1.4 버전부터 도입되어, 기존의 JVM 기반 실행 방식의 한계를 극복하고, 분산 환경에서의 데이터 처리 속도와 효율성을 크게 개선하였다. ==개요== Spark 텅스텐은 Spark SQL, DataFrame, Dataset 등의 연산을 수행할 때, 메모리 내에...) 태그: 시각 편집
- 2025년 4월 2일 (수) 09:09 빅데이터분석기사 토론 기여님이 아파치 소프트웨어 재단 문서를 만들었습니다 (새 문서: 아파치 소프트웨어 재단(Apache Software Foundation, ASF)은 오픈 소스 소프트웨어 개발 및 보급을 지원하는 비영리 조직으로, 아파치 라이선스(Apache License) 하에 수많은 프로젝트를 관리하고 있다. ==개요== 아파치 소프트웨어 재단은 1999년 아파치 HTTP 서버의 성공을 계기로 설립되어, 이후 Apache 프로젝트라는 이름 아래 다수의 오픈 소스 소프트웨어를 관리 및 지원하고 있...) 태그: 시각 편집
- 2025년 4월 2일 (수) 09:08 빅데이터분석기사 토론 기여님이 아파치 카프카 문서를 만들었습니다 (새 문서: 아파치 카프카(Apache Kafka)는 대용량의 실시간 데이터 스트리밍을 처리하기 위해 설계된 분산 메시지 브로커 시스템이다. LinkedIn에서 개발되어 Apache Software Foundation의 오픈소스 프로젝트로 발전하였으며, 실시간 데이터 파이프라인 구축, 로그 수집, 이벤트 스트리밍 등 다양한 분야에서 널리 사용되고 있다. ==개요== 아파치 카프카는 고성능, 확장성, 내결함성을 갖춘...) 태그: 시각 편집
- 2025년 4월 2일 (수) 09:02 빅데이터분석기사 토론 기여님이 아파치 파케이 문서를 만들었습니다 (새 문서: Apache Parquet(파케이, 파르킷, 파킷 등)는 컬럼 지향 저장 방식을 사용하는 오픈소스 파일 포맷으로, 대규모 분산 데이터 처리 환경에서 효율적인 저장과 빠른 쿼리 성능을 제공하기 위해 설계되었다. ==개요== Apache Parquet는 데이터를 열(column) 단위로 저장하는 컬럼 지향 파일 포맷이다. 이 방식은 행(row) 단위로 데이터를 저장하는 전통적인 파일 포맷과 달리, 쿼리 시...) 태그: 시각 편집
- 2025년 4월 2일 (수) 08:52 빅데이터분석기사 토론 기여님이 아파치 스파크 외부 테이블 문서를 만들었습니다 (새 문서: 아파치 스파크 외부 테이블(External Table, Unmanaged Table)은 Spark SQL에서 테이블의 메타데이터만 관리하고, 실제 데이터 파일은 사용자가 지정한 외부 저장소에 보관하는 테이블 유형이다. 이 방식은 데이터의 소유권과 관리를 사용자에게 맡기며, 테이블 삭제 시에도 외부 데이터 파일은 그대로 유지된다. ==개요== 아파치 스파크 언매니지드 테이블은 매니지드 테이블과...) 태그: 시각 편집
- 2025년 4월 2일 (수) 08:50 빅데이터분석기사 토론 기여님이 아파치 스파크 매니지드 테이블 문서를 만들었습니다 (새 문서: 아파치 스파크 매니지드 테이블(Managed Table)은 Apache Spark SQL에서 테이블의 메타데이터와 데이터를 모두 관리하는 테이블 유형이다. 이 테이블은 Hive 메타스토어(Hive Metastore)와 연동되어, 테이블 생성, 수정, 삭제 등의 작업 시 Spark가 테이블의 데이터와 관련 메타데이터를 직접 관리한다. ==개요== 아파치 스파크 매니지드 테이블은 사용자가 CREATE TABLE 구문을 통해 테이...) 태그: 시각 편집
- 2025년 4월 2일 (수) 08:38 빅데이터분석기사 토론 기여님이 아파치 스파크 2.0 문서를 만들었습니다 (새 문서: 아파치 스파크 2.0은 대규모 분산 데이터 처리를 위한 오픈소스 프레임워크인 Apache Spark의 주요 업그레이드 버전으로, 전 버전 대비 성능 개선과 API 통합, 그리고 새로운 데이터 처리 기능을 대폭 향상시킨 버전이다. ==개요== 아파치 스파크 2.0은 이전 버전에서 분리되어 있던 SparkContext, SQLContext, HiveContext 등의 다양한 컨텍스트를 단일 진입점인 SparkSession으로 통합하...) 태그: 시각 편집
- 2025년 4월 2일 (수) 08:33 빅데이터분석기사 토론 기여님이 아파치 스파크 Spark SQL 문서를 만들었습니다 (새 문서: 아파치 스파크 Spark SQL은 Apache Spark 내에서 구조화된 데이터를 다루기 위한 핵심 모듈로, 표준 SQL 문법을 지원하며 DataFrame 및 Dataset API를 통해 데이터를 읽고, 처리하고, 저장할 수 있도록 한다. Catalyst 옵티마이저와 Tungsten 실행 엔진의 지원을 받아 고성능 분산 데이터 처리를 실현하며, Hive와의 통합을 통해 기존 빅데이터 생태계와도 원활하게 연동된다. ==개요== Spark...) 태그: 시각 편집
- 2025년 4월 2일 (수) 08:32 빅데이터분석기사 토론 기여님이 아파치 스파크 SparkSession 문서를 만들었습니다 (새 문서: SparkSession는 Apache Spark 애플리케이션의 진입점(Entry Point)으로, 스파크 SQL, 데이터프레임, 그리고 Dataset API를 포함한 다양한 기능에 접근할 수 있도록 하는 핵심 객체이다. SparkSession은 이전 버전의 SQLContext, HiveContext, 그리고 SparkContext의 기능을 통합하여 제공함으로써, 사용자가 보다 간편하게 Spark 애플리케이션을 구성하고 실행할 수 있도록 한다. ==개요== SparkSession은...) 태그: 시각 편집
- 2025년 4월 2일 (수) 08:30 빅데이터분석기사 토론 기여 계정이 생성되었습니다