HTML을 TXT로

PHPz
PHPz원래의
2023-05-27 21:28:064139검색

HTML을 TXT로 변환하는 방법

일상적인 인터넷 사용 중에 웹 페이지의 콘텐츠를 가져와서 텍스트 형식으로 변환해야 하는 경우가 종종 있습니다. 일반적인 순간은 웹사이트에서 기사의 텍스트 콘텐츠를 가져와 오프라인 읽기나 기타 목적을 위해 TXT 파일로 저장하려는 것일 수 있습니다. 그러나 HTML과 TXT 간의 비호환성으로 인해 이 프로세스를 처리하는 것이 일부 사람들에게는 혼란스러울 수 있습니다. 이 기사에서는 HTML 텍스트를 TXT 형식으로 변환하는 몇 가지 방법을 소개합니다.

방법 1: 수동 복사 및 붙여넣기

가장 간단하고 직접적인 방법입니다. 변환해야 하는 HTML 텍스트를 선택한 다음 마우스로 마우스 오른쪽 버튼을 클릭하고 "복사" 옵션을 선택한 다음 TXT 파일을 엽니다. 또는 텍스트 편집기에서 다시 마우스 오른쪽 버튼을 클릭하고 붙여넣기를 선택합니다. 그러나 복사된 콘텐츠에는 글꼴, 색상, 스타일 등과 같은 일부 텍스트 서식이 포함될 수 있다는 점에 유의해야 합니다. 따라서 TXT로 복사한 후에는 세심한 청소가 필요합니다.

특정 단락이나 텍스트 줄이 아닌 전체 웹 페이지의 콘텐츠를 크롤링해야 하는 경우 이 방법은 시간이 더 많이 걸리고 어려워집니다. 이 경우 다음 두 가지 방법을 고려해야 합니다.

방법 2: Python 스크립트 사용

Python은 HTTP 클라이언트 라이브러리를 제공하는 매우 널리 사용되는 프로그래밍 언어로, 이를 통해 모든 웹 사이트의 HTML 콘텐츠를 쉽게 크롤링할 수 있습니다. 특정 웹페이지. Python을 사용하여 HTML을 가져와서 형식을 정리하고 TXT 형식으로 변환하는 간단한 스크립트를 작성할 수 있습니다.

먼저 Python을 설치합니다.

두 번째로 타사 라이브러리 "BeautifulSoup"을 설치합니다.

pip install bs4

그런 다음 Python 스크립트를 작성합니다.

import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
text = soup.get_text()

with open('example.txt', 'w') as f:
    f.write(text)

이 스크립트에서는 먼저 요청과 BeautifulSoup 라이브러리를 가져왔습니다. 다음으로, 크롤링할 HTML 웹페이지의 주소를 제공하고 요청 라이브러리는 웹페이지의 콘텐츠를 얻는 데 도움이 됩니다. 획득한 HTML 콘텐츠를 BeautifulSoup 라이브러리에 전달하고 HTML을 구문 분석하는 방법을 지정합니다(여기에서는 "html.parser" 사용). get_text() 메서드는 모든 텍스트 내용을 추출하고 모든 HTML 태그와 서식을 제거한 후 객체를 반환합니다. 마지막으로 이 객체를 새 TXT 파일에 씁니다.

방법 3: 온라인 HTML을 TXT 도구로

다음 웹사이트를 방문하는 경우 해당 웹사이트에서 제공하는 온라인 도구를 사용하여 HTML 텍스트를 TXT 형식으로 변환할 수 있습니다:

https://www.convertio.co/zh/html - txt/
https://www.aconvert.com/cn/document/html-to-txt/

HTML 파일을 업로드하거나 HTML 코드를 직접 붙여넣고 "변환 시작" 버튼을 클릭하면 HTML 텍스트를 쉽게 변환할 수 있습니다. TXT 형식. 그러나 HTML 형식과 태그가 많이 포함된 긴 텍스트의 경우 이 방법은 많은 내용을 잃을 수 있으며 변환하는 좋은 방법이 아니라는 점에 유의할 가치가 있습니다.

요약

HTML 텍스트를 TXT 형식으로 변환하고 스타일과 태그를 지우는 것은 일반적인 작업이며, 특히 조사 및 학습을 위해 인터넷을 사용할 때 더욱 그렇습니다. 작업을 수동으로 복사하든, 스크립트와 온라인 도구를 사용하든, 프로세스를 완료하기 위한 다양한 옵션이 있으며 가장 적합한 방법을 선택할 수 있습니다.

위 내용은 HTML을 TXT로의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.