>  기사  >  Java  >  UTF-8로 인코딩된 파일을 읽을 때 FileReader 출력에 BOM 표식이 나타나는 이유는 무엇입니까?

UTF-8로 인코딩된 파일을 읽을 때 FileReader 출력에 BOM 표식이 나타나는 이유는 무엇입니까?

DDD
DDD원래의
2024-11-16 08:09:03785검색

Why Does the BOM Marker Appear in FileReader Output When Reading UTF-8 Encoded Files?

FileReader 출력에 BOM 마커 포함

FileReader를 사용하여 BOM(바이트 순서 표시)이 있는 UTF-8 인코딩 파일을 읽는 경우 ), BOM 표식이 출력 문자열에 실수로 나타날 수 있습니다. 이는 BOM이 UTF-8로 인코딩된 텍스트 표현의 일부로 포함되어 있기 때문에 발생합니다.

이런 일이 발생하는 이유를 이해하려면 BOM이 텍스트를 나타내는 특수 문자 또는 문자 시퀀스라는 점에 유의하는 것이 중요합니다. 텍스트 파일 인코딩. UTF-8의 경우 BOM은 바이트 시퀀스 EFBBBF로 표시됩니다.

FileReader는 파일을 읽을 때 UTF-8 인코딩을 사용하여 문자를 디코딩합니다. 그러나 BOM은 유효한 유니코드 문자가 아니므로 디코딩 프로세스 중에 건너뛰거나 제거되지 않습니다. 대신 readLine() 메서드가 반환하는 문자열에 포함됩니다.

이 문제를 방지하려면 다음 접근 방식을 사용할 수 있습니다.

  • 디코딩 전 BOM: substring() 메서드를 사용하여 readLine()이 반환한 문자열에서 처음 세 문자를 제거할 수 있습니다. 이렇게 하면 BOM이 출력 문자열에 포함되기 전에 제거됩니다.
  • BOM 인식 디코더 사용: BOM을 처리하도록 특별히 설계된 디코더를 사용할 수 있습니다. 이러한 디코더는 텍스트를 디코딩할 때 BOM을 자동으로 건너뛰거나 무시합니다.

위 내용은 UTF-8로 인코딩된 파일을 읽을 때 FileReader 출력에 BOM 표식이 나타나는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.