히스토그램
IT 위키
히스토그램(histogram)은 연속형 데이터를 여러 구간(bin)으로 나누어, 각 구간에 속하는 데이터의 빈도수를 막대의 높이로 나타낸 그래프이다. 데이터의 분포 형태를 시각적으로 파악하는 데 사용된다.
1 개요[편집 | 원본 편집]
히스토그램은 데이터 집합의 분포(모양)를 보여주는 그래프로, 데이터가 어느 값 주변에 몰려 있는지, 얼마나 퍼져 있는지, 왜곡(skewness)이나 이상치(outlier)가 있는지를 직관적으로 알 수 있다.
2 구성 요소[편집 | 원본 편집]
- 구간(bin): 데이터를 나누는 연속된 범위
- 빈도수(frequency): 각 구간에 속하는 데이터 포인트 수
- 막대(bar): 구간별 빈도수를 표시하는 직사각형 (막대 사이에 간격이 없다)
3 작성 방법[편집 | 원본 편집]
- 데이터의 전체 범위를 결정한다.
- 적절한 구간 수와 구간 폭을 설정한다.
- 각 구간에 해당하는 데이터 개수를 센다.
- 구간별 빈도수를 기준으로 막대를 그린다.
4 특징[편집 | 원본 편집]
- 막대 사이에 간격이 없다.
- 구간(bin) 수나 폭을 어떻게 설정하느냐에 따라 히스토그램 모양이 달라질 수 있다.
- 데이터가 연속형일 때 주로 사용하며, 이산형 데이터는 막대그래프(bar chart)로 표현하는 것이 더 적합하다.
- 빈도(frequency) 대신 상대빈도(relative frequency)나 확률밀도(probability density)를 표시할 수도 있다.
5 히스토그램과 관리도의 차이[편집 | 원본 편집]
- 히스토그램: 단순히 데이터의 분포 형태를 나타내는 그래프. 중심선이나 관리한계선이 없다.
- 관리도(Control Chart): 시간에 따라 측정한 품질 데이터의 변동을 중심선과 관리한계선으로 관리하여 공정 상태를 판별하는 그래프.
6 활용 예시[편집 | 원본 편집]
- 시험 점수 분포 파악
- 제조 공정의 품질 특성치 분포 분석
- 금융 수익률의 변동성 분석
- 생산 품질 데이터의 산포 확인
7 같이 보기[편집 | 원본 편집]
8 참고 문헌[편집 | 원본 편집]
- Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4th ed.). W. W. Norton & Company.
- Montgomery, D. C. (2012). Introduction to Statistical Quality Control (7th ed.). Wiley.