히스토그램

IT 위키
SOLO (토론 | 기여)님의 2025년 4월 28일 (월) 00:51 판
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

히스토그램(histogram)은 연속형 데이터를 여러 구간(bin)으로 나누어, 각 구간에 속하는 데이터의 빈도수를 막대의 높이로 나타낸 그래프이다. 데이터의 분포 형태를 시각적으로 파악하는 데 사용된다.

1 개요[편집 | 원본 편집]

히스토그램

히스토그램은 데이터 집합의 분포(모양)를 보여주는 그래프로, 데이터가 어느 값 주변에 몰려 있는지, 얼마나 퍼져 있는지, 왜곡(skewness)이나 이상치(outlier)가 있는지를 직관적으로 알 수 있다.

2 구성 요소[편집 | 원본 편집]

  • 구간(bin): 데이터를 나누는 연속된 범위
  • 빈도수(frequency): 각 구간에 속하는 데이터 포인트 수
  • 막대(bar): 구간별 빈도수를 표시하는 직사각형 (막대 사이에 간격이 없다)

3 작성 방법[편집 | 원본 편집]

  1. 데이터의 전체 범위를 결정한다.
  2. 적절한 구간 수와 구간 폭을 설정한다.
  3. 각 구간에 해당하는 데이터 개수를 센다.
  4. 구간별 빈도수를 기준으로 막대를 그린다.

4 특징[편집 | 원본 편집]

  • 막대 사이에 간격이 없다.
  • 구간(bin) 수나 폭을 어떻게 설정하느냐에 따라 히스토그램 모양이 달라질 수 있다.
  • 데이터가 연속형일 때 주로 사용하며, 이산형 데이터는 막대그래프(bar chart)로 표현하는 것이 더 적합하다.
  • 빈도(frequency) 대신 상대빈도(relative frequency)나 확률밀도(probability density)를 표시할 수도 있다.

5 히스토그램과 관리도의 차이[편집 | 원본 편집]

  • 히스토그램: 단순히 데이터의 분포 형태를 나타내는 그래프. 중심선이나 관리한계선이 없다.
  • 관리도(Control Chart): 시간에 따라 측정한 품질 데이터의 변동을 중심선과 관리한계선으로 관리하여 공정 상태를 판별하는 그래프.

6 활용 예시[편집 | 원본 편집]

  • 시험 점수 분포 파악
  • 제조 공정의 품질 특성치 분포 분석
  • 금융 수익률의 변동성 분석
  • 생산 품질 데이터의 산포 확인

7 같이 보기[편집 | 원본 편집]

8 참고 문헌[편집 | 원본 편집]

  • Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4th ed.). W. W. Norton & Company.
  • Montgomery, D. C. (2012). Introduction to Statistical Quality Control (7th ed.). Wiley.

9 각주[편집 | 원본 편집]