ホームページ >ウェブフロントエンド >htmlチュートリアル >HTMLファイル内のテキストコンテンツを読み取る方法

HTMLファイル内のテキストコンテンツを読み取る方法

下次还敢オリジナル: 2024-04-11 13:57:24829ブラウズ

HTML ファイル内のテキストコンテンツを読み取るには、次の手順を実行します。 HTML ファイルをロードします。 HTML を解析します。 text 属性または get_text() メソッドを使用してテキストを抽出します。オプション: クリーンテキスト (空白、特殊文字、文字列を削除します)小文字に変換) 出力テキスト (印刷、ファイルへの書き込みなど)

#HTML ファイル内のテキストコンテンツを読み取る方法

HTML ファイルからテキストコンテンツを抽出するには、次の手順を使用できます:

1. HTML ファイルを読み込みます

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>

2。 HTML を解析します

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>

##3. テキストコンテンツを抽出します

##テキストコンテンツを抽出するには 2 つの方法があります:

#Use

text

タグ自体を含む、HTML タグ内のすべてのテキストを抽出します。 <pre class="brush:php;toolbar:false"><code class="python">text = soup.text</code></pre>

get_text()

HTML タグ内のテキストを抽出しますが、タグ自体は無視します。 <pre class="brush:php;toolbar:false"><code class="python">text = soup.get_text()</code></pre>4. テキストコンテンツのクリーンアップ (オプション)

テキストコンテンツをさらにクリーンアップする必要がある場合は、次の操作を実行できます:

空白文字の削除:

<code class="python">text = text.replace(' ', '')</code>

<code class="python">import string

text = text.translate(str.maketrans('', '', string.punctuation))</code>

<code class="python">text = text.lower()</code>

5. テキストコンテンツの出力

テキストコンテンツはさまざまな方法で出力できます。 :

コンソールへの出力:

```
<code class="python">print(text)</code>
```

<code class="python">with open('output.txt', 'w') as f:
    f.write(text)</code>

以上がHTMLファイル内のテキストコンテンツを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

html

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：HTMLのフォント色の透明度を設定する方法次の記事：HTMLのフォント色の透明度を設定する方法

続きを見る