ホームページ > 記事 > ウェブフロントエンド > HTMLファイル内のテキストコンテンツを読み取る方法
HTML ファイル内のテキスト コンテンツを読み取るには、次の手順を実行します。 HTML ファイルをロードします。 HTML を解析します。 text 属性または get_text() メソッドを使用してテキストを抽出します。 オプション: クリーン テキスト (空白、特殊文字、文字列を削除します)小文字に変換) 出力テキスト (印刷、ファイルへの書き込みなど)
#HTML ファイル内のテキスト コンテンツを読み取る方法
HTML ファイルからテキスト コンテンツを抽出するには、次の手順を使用できます:1. HTML ファイルを読み込みます
<code class="python">import requests url = 'https://example.com' response = requests.get(url)</code>
2。 HTML を解析します
<code class="python">from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')</code>##3. テキスト コンテンツを抽出します
##テキスト コンテンツを抽出するには 2 つの方法があります:
#Use
text<pre class="brush:php;toolbar:false"><code class="python">text = soup.text</code></pre>
<pre class="brush:php;toolbar:false"><code class="python">text = soup.get_text()</code></pre>
4. テキスト コンテンツのクリーンアップ (オプション)テキスト コンテンツをさらにクリーンアップする必要がある場合は、次の操作を実行できます:
空白文字の削除:
<code class="python">text = text.replace(' ', '')</code>
<code class="python">import string text = text.translate(str.maketrans('', '', string.punctuation))</code>
<code class="python">text = text.lower()</code>5. テキスト コンテンツの出力
テキスト コンテンツはさまざまな方法で出力できます。 :
コンソールへの出力:
<code class="python">print(text)</code>
<code class="python">with open('output.txt', 'w') as f: f.write(text)</code>
以上がHTMLファイル内のテキストコンテンツを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。