インターネットの普及に伴い、HTML マークアップ言語はネットワーク プログラミングで一般的に使用される言語の 1 つになりました。 Webページを作成する際にはHTMLを使用してWebページを作成し、HTMLにさまざまなタグや要素を挿入することでさまざまな視覚効果や機能を実現します。 ただし、HTML コンテンツを処理する必要がある一部のシナリオでは、HTML タグを削除し、プレーン テキスト コンテンツのみを保持する必要があります (検索エンジンによる Web ページ情報の巡回、クローラー データの処理など)。この記事では、golangでHTMLタグを削除する方法を紹介します。 1. 正規表現の使用 golang の regexp パッケージでは、正規表現を使用して文字列の照合と処理を行うことができます。正規表現を使用して HTML タグを照合し、タグを空の文字列に置き換えることができます。これはサンプル プログラムです: package main import ( "fmt" "regexp" ) func main() { text := "Hello, World!" re := regexp.MustCompile(`<[^>]*>`) result := re.ReplaceAllString(text, "") fmt.Println(result) }出力: Hello, World!このプログラムは正規表現 549a3fd9a3c62568d8b32cd8627105c3]*> を使用してすべての HTML タグと一致します。ここで、b3f8d3808f5493bc86531ae59b808fc6]* は「>」記号のない任意の文字を表します、> 「>」記号を使用して、HTML タグ全体と一致できるようにします。 2. サードパーティ ライブラリを使用する golang には、アプリケーションの迅速な開発とデプロイに役立つ非常に便利なサードパーティ ライブラリが多数用意されています。 HTML タグを削除するタスクでは、github.com/microcosm-cc/bluemonday という名前のサードパーティ ライブラリを使用できます。 以下はサンプル プログラムです: package main import ( "fmt" "github.com/microcosm-cc/bluemonday" ) func main() { text := "Hello, World!" policy := bluemonday.StrictPolicy() result := policy.Sanitize(text) fmt.Println(result) }出力: Hello, World!このプログラムは、github.com/microcosm-cc/bluemonday ライブラリを使用して、 HTML タグを削除するには、このライブラリは、HTML タグを迅速に削除するのに役立つ非常に豊富な API とデフォルトの戦略を提供します。 3. goquery ライブラリを使用する golang には、非常に使いやすいサードパーティ ライブラリ github.com/PuerkitoBio/goquery もあります。このライブラリは次の目的で使用されます。 HTML および XML ドキュメントを解析すると、このライブラリを使用して HTML タグを削除できます。以下はサンプル プログラムです: package main import ( "fmt" "strings" "github.com/PuerkitoBio/goquery" ) func main() { text := "Hello, World!" r := strings.NewReader(text) doc, _ := goquery.NewDocumentFromReader(r) result := doc.Text() fmt.Println(result) }出力: Hello, World!このプログラムは、github.com/PuerkitoBio/goquery ライブラリを使用して HTML ドキュメントを解析し、プレーン ドキュメントを抽出します。テキストコンテンツなので、HTML タグを削除できます。 4. 注意事項 どのような方法で HTML タグを削除する場合でも、従う必要がある注意事項がいくつかあります。 HTML タグの一致 これを行うときは、正規表現がすべてのタグをカバーしていることを確認する必要があります。そうしないと、誤った判断やタグが見逃されます。期待される結果。 一部の Web ページには、特殊文字 ( など)、CSS スタイルが含まれている場合があります。 (スタイルなど)など、これらの内容も取り扱いには注意が必要です。 5. 概要 golang で HTML タグを削除するには、正規表現やサードパーティのライブラリなどを使用する方法がたくさんあります。比較と実験の結果、github.com/microcosm-cc/bluemonday ライブラリと github.com/PuerkitoBio/goquery ライブラリを使用して HTML タグを削除することをお勧めします。どちらのライブラリも非常に優れています。優れた互換性と安定性を備えています。もちろん、いくつかの単純なシナリオでは、正規表現も使用できます。いずれの方法を使用する場合でも、プログラムが正常に動作するように、いくつかの詳細と注意事項に注意を払う必要があります。