ホームページ >バックエンド開発 >Golang >スクラッパーの競合他社

スクラッパーの競合他社

Barbara Streisand
Barbara Streisandオリジナル
2024-11-06 15:21:031043ブラウズ

Scrapper Concorrente

プログラムの目的

Web ページに同時にアクセスして、各ページのタイトルを抽出し、これらのタイトルを端末に表示します。これは Go の同時実行機能を使用して行われ、複数のページに同時にアクセスできるため、時間を節約できます。

コードの説明

使用されるパッケージ

import (
    "fmt"
    "net/http"
    "sync"
    "github.com/PuerkitoBio/goquery"
)

fetchTitle関数

この役割は以下を担当します:

  • Web ページ (URL) にアクセスします
  • ページタイトルを抽出
  • 結果をチャネルにエクスポートします
func fetchTitle(url string, wg *sync.WaitGroup, results chan<- string) {
    defer wg.Done() // Marca a goroutine como concluída no WaitGroup

関数パラメータ:

  • url 文字列: タイトルを取得するためにアクセスする Web ページのアドレス (URL) を表します
  • wg *sync.WaitGroup: WaitGroup へのポインター。同時に実行されているすべてのタスク (ゴルーチン) の完了を同期するために使用します。 * は、「アドレス」を WaitGroup` に渡し、そのコピーではないことを示します。
  • results chan<- string: これは、プログラムの別の部分に文字列を送信できる一方向チャネルです。結果 (タイトルまたはエラー メッセージ) を main 関数に渡すために使用されます。

defer wg.Done() 行は、fetchTitle 関数の終了時にこのタスク (ゴルーチン) を完了としてマークするようにプログラムに指示します。これは、メインがすべてのタスクがいつ完了したかを知るために重要です。

HTTPリクエスト


要求、エラー := http.Get(url)
if err != nil {
結果 <- fmt.Sprintf("%s へのアクセス中にエラーが発生しました: %v", url, err)
戻る
}
defer req.Body.Close()

  • http.Get(url): この行は、URL に対して HTTP GET リクエストを作成します。これは、ページにアクセスし、サーバーにそのコンテンツを要求していることを意味します。
  • err != nil: ここでは、ページへのアクセス時にエラーがあったかどうかを確認します (たとえば、ページが存在しない、サーバーが応答していないなど)。エラーがある場合は、結果チャネルにメッセージを送信し、return で関数を終了します。
  • defer req.Body.Close(): これにより、ページ コンテンツの使用が完了した後、それを保存するために割り当てられたメモリが解放されます。

ステータスチェック


if req.StatusCode != 200 {
results <- fmt.Sprintf("%s へのアクセス中にエラーが発生しました: ステータス %d %s", url, req.StatusCode, req.Status)
戻る
}

  • req.StatusCode != 200: サーバーがコード 200 OK (成功を示す) で応答したかどうかを確認します。 200 でない場合は、ページが正しく読み込まれていないことを意味します。次に、結果チャネルにエラー メッセージを送信し、関数を終了します。

タイトルの読み込みと検索


ドキュメント、エラー := goquery.NewDocumentFromReader(req.Body)
if err != nil {
results <- fmt.Sprintf("%s からのドキュメントの読み込みエラー: %v", url, err)
戻る
}
タイトル := doc.Find("タイトル").Text()
results <- fmt.Sprintf("%s のタイトル: %s", URL, title)
}

  • goquery.NewDocumentFromReader(req.Body): ページの HTML コンテンツ (req.Body によって提供される) を goquery にロードします。これにより、HTML の特定の部分に移動して検索できるようになります。
  • doc.Find("title").Text(): タグ を検索します。ページの HTML 内で、その中のテキスト (つまり、タイトル) を取得します。 </pre> <li> <strong>results <- fmt.Sprintf("Título de %s: %s", url, title)</strong>: 抽出されたタイトルを結果チャネルに送信し、後で読み取られます。</li> <h2> メイン関数 </h2> <p>main 関数は、プログラムを構成および制御する main 関数です。</p> <p><br> func main() {<br> URL := []string{<br> "http://olos.novagne.com.br/Olos/login.aspx?logout=true",<br> "http://sistema.novagne.com.br/novagne/",<br> }<br> </p> <ul> <li> <strong>urls := []string{...}</strong>: 処理する URL のリストを定義します。各 URL は、ページ タイトルを抽出するゴルーチンに渡されます。</li> </ul> <h2> WaitGroup とチャネルの構成 </h2> <p><br> var wg sync.WaitGroup<br> results := make(chan string, len(urls)) // 結果を保存するチャネル<br> </p> <ul> <li> <strong>var wg sync.WaitGroup</strong>: WaitGroup の新しいインスタンスを作成します。これはゴルーチンの数を制御し、プログラムが終了する前にすべてのゴルーチンが確実に終了するようにします。</li> <li> <strong>results := make(chan string, len(urls))</strong>: URL の数に等しい容量を持つ結果チャネルを作成します。このチャネルには、タイトルまたはエラーを含むメッセージが保存されます。</li> </ul> <h2> ゴルーチンのホーム </h2> <p><br> for _, url := 範囲 URL {<br> wg.Add(1)<br> go fetchTitle(url, &wg, results)<br> }<br> </p> <ul> <li> <strong>for _, url := range urls</strong>: ここでは、リスト内の各 URL をループします。</li> <li> <strong>wg.Add(1)</strong>: URL ごとに、WaitGroup カウンターをインクリメントして、新しいタスク (ゴルーチン) が開始されることを示します。</li> <li> <strong>go fetchTitle(url, &wg, results)</strong>: 各 URL の <strong>ゴルーチン</strong> として fetchTitle を呼び出します。つまり、他の URL と並行して実行します。</li> </ul> <h2> 結果の待機と表示 </h2> <p><br> wg.Wait()<br> 閉じる(結果)<br> </p> <hr> <p>リポジトリ: https://github.com/ionnss/Scrapper-GoRoutine</p> <hr> <p>イオン、</p> <p>もう一つのアースデイ</p> <p>以上がスクラッパーの競合他社の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。</p></div><div class="nphpQianMsg"><a href="javascript:void(0);">html</a> <a href="javascript:void(0);">String</a> <a href="javascript:void(0);">if</a> <a href="javascript:void(0);">for</a> <a href="javascript:void(0);">var</a> <a href="javascript:void(0);">len</a> <a href="javascript:void(0);">nil</a> <a href="javascript:void(0);">github</a> <a href="javascript:void(0);">http</a> <a href="javascript:void(0);">https</a><div class="clear"></div></div><div class="nphpQianSheng"><span>声明:</span><div>この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。</div></div></div><div class="nphpSytBox"><span>前の記事:<a class="dBlack" title="C# から Go へ: AES と Base64 エンコーディングの互換性の実現" href="https://m.php.cn/ja/faq/1796672826.html">C# から Go へ: AES と Base64 エンコーディングの互換性の実現</a></span><span>次の記事:<a class="dBlack" title="C# から Go へ: AES と Base64 エンコーディングの互換性の実現" href="https://m.php.cn/ja/faq/1796672838.html">C# から Go へ: AES と Base64 エンコーディングの互換性の実現</a></span></div><div class="nphpSytBox2"><div class="nphpZbktTitle"><h2>関連記事</h2><em><a href="https://m.php.cn/ja/article.html" class="bBlack"><i>続きを見る</i><b></b></a></em><div class="clear"></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="fluid" data-ad-layout-key="-6t+ed+2i-1n-4w" data-ad-client="ca-pub-5902227090019525" data-ad-slot="8966999616"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><ul class="nphpXgwzList"><li><b></b><a href="https://m.php.cn/ja/faq/419133.html" title="Go言語とは何ですか? Go言語の長所と短所の紹介" class="aBlack">Go言語とは何ですか? Go言語の長所と短所の紹介</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ja/faq/419289.html" title="ジンってどういう意味ですか?" class="aBlack">ジンってどういう意味ですか?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ja/faq/421167.html" title="go が php よりもパフォーマンスが高いのはなぜですか?" class="aBlack">go が php よりもパフォーマンスが高いのはなぜですか?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ja/faq/421591.html" title="Go言語は何に適していますか?" class="aBlack">Go言語は何に適していますか?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ja/faq/422570.html" title="go言語の基本" class="aBlack">go言語の基本</a><div class="clear"></div></li></ul></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5902227090019525" data-ad-slot="5027754603"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><footer><div class="footer"><div class="footertop"><img src="/static/imghwm/logo.png" alt=""><p>福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!</p></div><div class="footermid"><a href="https://m.php.cn/ja/about/us.html">私たちについて</a><a href="https://m.php.cn/ja/about/disclaimer.html">免責事項</a><a href="https://m.php.cn/ja/update/article_0_1.html">Sitemap</a></div><div class="footerbottom"><p> © php.cn All rights reserved </p></div></div></footer><script>isLogin = 0;</script><script type="text/javascript" src="/static/layui/layui.js"></script><script type="text/javascript" src="/static/js/global.js?4.9.47"></script></div><script src="https://vdse.bdstatic.com//search-video.v1.min.js"></script><link rel='stylesheet' id='_main-css' href='/static/css/viewer.min.css' type='text/css' media='all'/><script type='text/javascript' src='/static/js/viewer.min.js?1'></script><script type='text/javascript' src='/static/js/jquery-viewer.min.js'></script><script>jQuery.fn.wait = function (func, times, interval) { var _times = times || -1, //100次 _interval = interval || 20, //20毫秒每次 _self = this, _selector = this.selector, //选择器 _iIntervalID; //定时器id if( this.length ){ //如果已经获取到了,就直接执行函数 func && func.call(this); } else { _iIntervalID = setInterval(function() { if(!_times) { //是0就退出 clearInterval(_iIntervalID); } _times <= 0 || _times--; //如果是正数就 -- _self = $(_selector); //再次选择 if( _self.length ) { //判断是否取到 func && func.call(_self); clearInterval(_iIntervalID); } }, _interval); } return this; } $("table.syntaxhighlighter").wait(function() { $('table.syntaxhighlighter').append("<p class='cnblogs_code_footer'><span class='cnblogs_code_footer_icon'></span></p>"); }); $(document).on("click", ".cnblogs_code_footer",function(){ $(this).parents('table.syntaxhighlighter').css('display','inline-table');$(this).hide(); }); $('.nphpQianCont').viewer({navbar:true,title:false,toolbar:false,movable:false,viewed:function(){$('img').click(function(){$('.viewer-close').trigger('click');});}}); </script></body><!-- Matomo --><script> var _paq = window._paq = window._paq || []; /* tracker methods like "setCustomDimension" should be called before "trackPageView" */ _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u="https://tongji.php.cn/"; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '9']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })(); </script><!-- End Matomo Code --></html>