BOM

IT 위키

보안기사 (토론 | 기여)님의 2020년 3월 6일 (금) 15:15 판

(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

Byte Order Mark

유니코드 인코딩의 여러가지 방식에 대하여 어떤 인코딩 방식을 사용하고 있는지 구분하기 위해 문서의 가장 앞 부분에 추가되는 짧은 식별 코드

인코딩 방식에 따른 BOM 예시

인코딩 방식	Byte Order Mark(BOM)
UTF-8	EF BB BF
UTF-16 Big Endian	FE FF
UTF-16 Little Endian	FF FE
UTF-32 Big Endian	00 00 FE FF
UTF-32 Little Endian	FF FE 00 00

ex) 문서 처음 2개의 바이트가 FE FF로 시작되면 그 문서는 UTF-16 Big Endian으로 해석

UTF-8에서의 BOM

단일 BOM

UTF-16, 32와 달리 UTF-8은 BOM이 한가지만 존재

즉, BOM을 표기하지 않을 수 있음

UTF-8에서 발생하는 문제

에디터에 따라서 BOM을 표기하기도, 표기하지 않기도 함
외형상 동일하지만, 실제 내용엔 차이가 발생
외형상 동일하지만, 실제 내용엔 차이가 발생
line by line으로 값을 읽거나, 전체에 대한 hash를 적용하는 경우 차이 발생

일반 에디터로는 차이가 없으나, HEX에디터에서 확인할 수 있는 BOM 여부에 따른 차이
BOM이 있는 경우	BOM이 없는 경우

대안

에디터의 설정을 통하여 BOM 삽입 여부 결정

상호호환성을 위해 데이터 사용처의 수요에 맞추어 설정하는 것이 맞으나,
수요가 확실치 않을 경우 일반적으로 UTF-8은 BOM 없이 사용하는 경우가 많음
- BOM이 있는 경우 일부 소스코드 등에서 에러 발생
- UTF-8에서 BOM이 없다고 잘못 읽혀지는 경우는 없음

참고 문헌

UTF-8 인코딩에서의 BOM(Byte Order Mark) 문제

원본 주소 "https://itwiki.kr/index.php?title=BOM&oldid=7366"