ホームページ  >  記事  >  ウェブフロントエンド  >  HTMLファイル内のテキストコンテンツを読み取る方法

HTMLファイル内のテキストコンテンツを読み取る方法

下次还敢
下次还敢オリジナル
2024-04-11 13:57:24411ブラウズ

HTML ファイル内のテキスト コンテンツを読み取るには、次の手順を実行します。 HTML ファイルをロードします。 HTML を解析します。 text 属性または get_text() メソッドを使用してテキストを抽出します。 オプション: クリーン テキスト (空白、特殊文字、文字列を削除します)小文字に変換) 出力テキスト (印刷、ファイルへの書き込みなど)

HTMLファイル内のテキストコンテンツを読み取る方法

#HTML ファイル内のテキスト コンテンツを読み取る方法

HTML ファイルからテキスト コンテンツを抽出するには、次の手順を使用できます:

1. HTML ファイルを読み込みます

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>

2。 HTML を解析します

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>
##3. テキスト コンテンツを抽出します

##テキスト コンテンツを抽出するには 2 つの方法があります:

#Use

text
    属性:
  • タグ自体を含む、HTML タグ内のすべてのテキストを抽出します。 <pre class="brush:php;toolbar:false">&lt;code class=&quot;python&quot;&gt;text = soup.text&lt;/code&gt;</pre>
  • 使用
get_text()
    メソッド:
  • HTML タグ内のテキストを抽出しますが、タグ自体は無視します。 <pre class="brush:php;toolbar:false">&lt;code class=&quot;python&quot;&gt;text = soup.get_text()&lt;/code&gt;</pre>4. テキスト コンテンツのクリーンアップ (オプション)

テキスト コンテンツをさらにクリーンアップする必要がある場合は、次の操作を実行できます:

空白文字の削除:

  • <code class="python">text = text.replace(' ', '')</code>
  • 特殊文字の削除:
  • <code class="python">import string
    
    text = text.translate(str.maketrans('', '', string.punctuation))</code>
  • 小文字に変換:
  • <code class="python">text = text.lower()</code>
    5. テキスト コンテンツの出力

テキスト コンテンツはさまざまな方法で出力できます。 :

コンソールへの出力:

  • <code class="python">print(text)</code>
  • ファイルへの書き込み:
  • <code class="python">with open('output.txt', 'w') as f:
        f.write(text)</code>

以上がHTMLファイル内のテキストコンテンツを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。