ホームページ  >  記事  >  バックエンド開発  >  スクラッパーの競合他社

スクラッパーの競合他社

Barbara Streisand
Barbara Streisandオリジナル
2024-11-06 15:21:03930ブラウズ

Scrapper Concorrente

プログラムの目的

Web ページに同時にアクセスして、各ページのタイトルを抽出し、これらのタイトルを端末に表示します。これは Go の同時実行機能を使用して行われ、複数のページに同時にアクセスできるため、時間を節約できます。

コードの説明

使用されるパッケージ

import (
    "fmt"
    "net/http"
    "sync"
    "github.com/PuerkitoBio/goquery"
)

fetchTitle関数

この役割は以下を担当します:

  • Web ページ (URL) にアクセスします
  • ページタイトルを抽出
  • 結果をチャネルにエクスポートします
func fetchTitle(url string, wg *sync.WaitGroup, results chan<- string) {
    defer wg.Done() // Marca a goroutine como concluída no WaitGroup

関数パラメータ:

  • url 文字列: タイトルを取得するためにアクセスする Web ページのアドレス (URL) を表します
  • wg *sync.WaitGroup: WaitGroup へのポインター。同時に実行されているすべてのタスク (ゴルーチン) の完了を同期するために使用します。 * は、「アドレス」を WaitGroup` に渡し、そのコピーではないことを示します。
  • results chan<- string: これは、プログラムの別の部分に文字列を送信できる一方向チャネルです。結果 (タイトルまたはエラー メッセージ) を main 関数に渡すために使用されます。

defer wg.Done() 行は、fetchTitle 関数の終了時にこのタスク (ゴルーチン) を完了としてマークするようにプログラムに指示します。これは、メインがすべてのタスクがいつ完了したかを知るために重要です。

HTTPリクエスト


要求、エラー := http.Get(url)
if err != nil {
結果 <- fmt.Sprintf("%s へのアクセス中にエラーが発生しました: %v", url, err)
戻る
}
defer req.Body.Close()

  • http.Get(url): この行は、URL に対して HTTP GET リクエストを作成します。これは、ページにアクセスし、サーバーにそのコンテンツを要求していることを意味します。
  • err != nil: ここでは、ページへのアクセス時にエラーがあったかどうかを確認します (たとえば、ページが存在しない、サーバーが応答していないなど)。エラーがある場合は、結果チャネルにメッセージを送信し、return で関数を終了します。
  • defer req.Body.Close(): これにより、ページ コンテンツの使用が完了した後、それを保存するために割り当てられたメモリが解放されます。

ステータスチェック


if req.StatusCode != 200 {
results <- fmt.Sprintf("%s へのアクセス中にエラーが発生しました: ステータス %d %s", url, req.StatusCode, req.Status)
戻る
}

  • req.StatusCode != 200: サーバーがコード 200 OK (成功を示す) で応答したかどうかを確認します。 200 でない場合は、ページが正しく読み込まれていないことを意味します。次に、結果チャネルにエラー メッセージを送信し、関数を終了します。

タイトルの読み込みと検索


ドキュメント、エラー := goquery.NewDocumentFromReader(req.Body)
if err != nil {
results <- fmt.Sprintf("%s からのドキュメントの読み込みエラー: %v", url, err)
戻る
}
タイトル := doc.Find("タイトル").Text()
results <- fmt.Sprintf("%s のタイトル: %s", URL, title)
}

  • goquery.NewDocumentFromReader(req.Body): ページの HTML コンテンツ (req.Body によって提供される) を goquery にロードします。これにより、HTML の特定の部分に移動して検索できるようになります。
  • doc.Find("title").Text(): タグ を検索します。ページの HTML 内で、その中のテキスト (つまり、タイトル) を取得します。 </pre> <li> <strong>results <- fmt.Sprintf("Título de %s: %s", url, title)</strong>: 抽出されたタイトルを結果チャネルに送信し、後で読み取られます。</li> <h2> メイン関数 </h2> <p>main 関数は、プログラムを構成および制御する main 関数です。</p> <p><br> func main() {<br> URL := []string{<br> "http://olos.novagne.com.br/Olos/login.aspx?logout=true",<br> "http://sistema.novagne.com.br/novagne/",<br> }<br> </p> <ul> <li> <strong>urls := []string{...}</strong>: 処理する URL のリストを定義します。各 URL は、ページ タイトルを抽出するゴルーチンに渡されます。</li> </ul> <h2> WaitGroup とチャネルの構成 </h2> <p><br> var wg sync.WaitGroup<br> results := make(chan string, len(urls)) // 結果を保存するチャネル<br> </p> <ul> <li> <strong>var wg sync.WaitGroup</strong>: WaitGroup の新しいインスタンスを作成します。これはゴルーチンの数を制御し、プログラムが終了する前にすべてのゴルーチンが確実に終了するようにします。</li> <li> <strong>results := make(chan string, len(urls))</strong>: URL の数に等しい容量を持つ結果チャネルを作成します。このチャネルには、タイトルまたはエラーを含むメッセージが保存されます。</li> </ul> <h2> ゴルーチンのホーム </h2> <p><br> for _, url := 範囲 URL {<br> wg.Add(1)<br> go fetchTitle(url, &wg, results)<br> }<br> </p> <ul> <li> <strong>for _, url := range urls</strong>: ここでは、リスト内の各 URL をループします。</li> <li> <strong>wg.Add(1)</strong>: URL ごとに、WaitGroup カウンターをインクリメントして、新しいタスク (ゴルーチン) が開始されることを示します。</li> <li> <strong>go fetchTitle(url, &wg, results)</strong>: 各 URL の <strong>ゴルーチン</strong> として fetchTitle を呼び出します。つまり、他の URL と並行して実行します。</li> </ul> <h2> 結果の待機と表示 </h2> <p><br> wg.Wait()<br> 閉じる(結果)<br> </p> <hr> <p>リポジトリ: https://github.com/ionnss/Scrapper-GoRoutine</p> <hr> <p>イオン、</p> <p>もう一つのアースデイ</p> <p>以上がスクラッパーの競合他社の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。</p></div><div class="nphpQianMsg"><a href="javascript:void(0);">html</a> <a href="javascript:void(0);">String</a> <a href="javascript:void(0);">if</a> <a href="javascript:void(0);">for</a> <a href="javascript:void(0);">var</a> <a href="javascript:void(0);">len</a> <a href="javascript:void(0);">nil</a> <a href="javascript:void(0);">github</a> <a href="javascript:void(0);">http</a> <a href="javascript:void(0);">https</a><div class="clear"></div></div><div class="nphpQianSheng"><span>声明:</span><div>この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。</div></div></div><div class="nphpSytBox"><span>前の記事:<a class="dBlack" title="C# から Go へ: AES と Base64 エンコーディングの互換性の実現" href="http://m.php.cn/ja/faq/1796672826.html">C# から Go へ: AES と Base64 エンコーディングの互換性の実現</a></span><span>次の記事:<a class="dBlack" title="C# から Go へ: AES と Base64 エンコーディングの互換性の実現" href="http://m.php.cn/ja/faq/1796672838.html">C# から Go へ: AES と Base64 エンコーディングの互換性の実現</a></span></div><div class="nphpSytBox2"><div class="nphpZbktTitle"><h2>関連記事</h2><em><a href="http://m.php.cn/ja/article.html" class="bBlack"><i>続きを見る</i><b></b></a></em><div class="clear"></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="fluid" data-ad-layout-key="-6t+ed+2i-1n-4w" data-ad-client="ca-pub-5902227090019525" data-ad-slot="8966999616"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><ul class="nphpXgwzList"><li><b></b><a href="http://m.php.cn/ja/faq/1796672954.html" title="Go を学ぶ私の旅をフォローしてください" class="aBlack">Go を学ぶ私の旅をフォローしてください</a><div class="clear"></div></li><li><b></b><a href="http://m.php.cn/ja/faq/1796673085.html" title="Go で特定のエラーをキャプチャするにはどうすればよいですか?" class="aBlack">Go で特定のエラーをキャプチャするにはどうすればよいですか?</a><div class="clear"></div></li><li><b></b><a href="http://m.php.cn/ja/faq/1796673104.html" title="従来のメカニズムを使わずに Go はどのようにしてポリモーフィズムを実現するのでしょうか?" class="aBlack">従来のメカニズムを使わずに Go はどのようにしてポリモーフィズムを実現するのでしょうか?</a><div class="clear"></div></li><li><b></b><a href="http://m.php.cn/ja/faq/1796672838.html" title="Go テンプレートで文字列を効率的に連結するにはどうすればよいですか?" class="aBlack">Go テンプレートで文字列を効率的に連結するにはどうすればよいですか?</a><div class="clear"></div></li><li><b></b><a href="http://m.php.cn/ja/faq/1796672890.html" title="Go イメージ パッケージを使用して複数のイメージを 1 つのイメージに連結するにはどうすればよいですか?" class="aBlack">Go イメージ パッケージを使用して複数のイメージを 1 つのイメージに連結するにはどうすればよいですか?</a><div class="clear"></div></li></ul></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5902227090019525" data-ad-slot="5027754603"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><div class="nphpFoot"><div class="nphpFootBg"><ul class="nphpFootMenu"><li><a href="http://m.php.cn/ja/"><b class="icon1"></b><p>ホームページ</p></a></li><li><a href="http://m.php.cn/ja/course.html"><b class="icon2"></b><p>コース</p></a></li><li><a href="http://m.php.cn/ja/wenda.html"><b class="icon4"></b><p>に質問</p></a></li><li><a href="http://m.php.cn/ja/login"><b class="icon5"></b><p>私の</p></a></li><div class="clear"></div></ul></div></div><div class="nphpYouBox" style="display: none;"><div class="nphpYouBg"><div class="nphpYouTitle"><span onclick="$('.nphpYouBox').hide()"></span><a href="http://m.php.cn/ja/"></a><div class="clear"></div></div><ul class="nphpYouList"><li><a href="http://m.php.cn/ja/"><b class="icon1"></b><span>ホームページ</span><div class="clear"></div></a></li><li><a href="http://m.php.cn/ja/course.html"><b class="icon2"></b><span>コース</span><div class="clear"></div></a></li><li><a href="http://m.php.cn/ja/article.html"><b class="icon3"></b><span>記事</span><div class="clear"></div></a></li><li><a href="http://m.php.cn/ja/wenda.html"><b class="icon4"></b><span>に質問</span><div class="clear"></div></a></li><li><a href="http://m.php.cn/ja/dic.html"><b class="icon6"></b><span>辞書</span><div class="clear"></div></a></li><li><a href="http://m.php.cn/ja/course/type/99.html"><b class="icon7"></b><span>マニュアル</span><div class="clear"></div></a></li><li><a href="http://m.php.cn/ja/xiazai/"><b class="icon8"></b><span>ダウンロード</span><div class="clear"></div></a></li><li><a href="http://m.php.cn/ja/faq/zt" title="特集"><b class="icon12"></b><span>特集</span><div class="clear"></div></a></li><div class="clear"></div></ul></div></div><div class="nphpDing" style="display: none;"><div class="nphpDinglogo"><a href="http://m.php.cn/ja/"></a></div><div class="nphpNavIn1"><div class="swiper-container nphpNavSwiper1"><div class="swiper-wrapper"><div class="swiper-slide"><a href="http://m.php.cn/ja/" >ホームページ</a></div><div class="swiper-slide"><a href="http://m.php.cn/ja/article.html" class="hover">記事</a></div><div class="swiper-slide"><a href="http://m.php.cn/ja/wenda.html" >に質問</a></div><div class="swiper-slide"><a href="http://m.php.cn/ja/course.html" >コース</a></div><div class="swiper-slide"><a href="http://m.php.cn/ja/faq/zt" >特集</a></div><div class="swiper-slide"><a href="http://m.php.cn/ja/xiazai" >ダウンロード</a></div><div class="swiper-slide"><a href="http://m.php.cn/ja/game" >ゲーム</a></div><div class="swiper-slide"><a href="http://m.php.cn/ja/dic.html" >辞書</a></div><div class="clear"></div></div></div><div class="langadivs" ><a href="javascript:;" class="bg4 bglanguage"></a><div class="langadiv" ><a onclick="javascript:setlang('zh-cn');" class="language course-right-orders chooselan " href="javascript:;"><span>简体中文</span><span>(ZH-CN)</span></a><a onclick="javascript:setlang('en');" class="language course-right-orders chooselan " href="javascript:;"><span>English</span><span>(EN)</span></a><a onclick="javascript:setlang('zh-tw');" class="language course-right-orders chooselan " href="javascript:;"><span>繁体中文</span><span>(ZH-TW)</span></a><a onclick="javascript:;" class="language course-right-orders chooselan chooselanguage" href="javascript:;"><span>日本語</span><span>(JA)</span></a><a onclick="javascript:setlang('ko');" class="language course-right-orders chooselan " href="javascript:;"><span>한국어</span><span>(KO)</span></a><a onclick="javascript:setlang('ms');" class="language course-right-orders chooselan " href="javascript:;"><span>Melayu</span><span>(MS)</span></a><a onclick="javascript:setlang('fr');" class="language course-right-orders chooselan " href="javascript:;"><span>Français</span><span>(FR)</span></a><a onclick="javascript:setlang('de');" class="language course-right-orders chooselan " href="javascript:;"><span>Deutsch</span><span>(DE)</span></a></div></div><script> var swiper = new Swiper('.nphpNavSwiper1', { slidesPerView : 'auto', observer: true,//修改swiper自己或子元素时,自动初始化swiper observeParents: true,//修改swiper的父元素时,自动初始化swiper }); </script></div></div><!--顶部导航 end--><script>isLogin = 0;</script><script type="text/javascript" src="/static/layui/layui.js"></script><script type="text/javascript" src="/static/js/global.js?4.9.47"></script></div><script src="https://vdse.bdstatic.com//search-video.v1.min.js"></script><link rel='stylesheet' id='_main-css' href='/static/css/viewer.min.css' type='text/css' media='all'/><script type='text/javascript' src='/static/js/viewer.min.js?1'></script><script type='text/javascript' src='/static/js/jquery-viewer.min.js'></script><script>jQuery.fn.wait = function (func, times, interval) { var _times = times || -1, //100次 _interval = interval || 20, //20毫秒每次 _self = this, _selector = this.selector, //选择器 _iIntervalID; //定时器id if( this.length ){ //如果已经获取到了,就直接执行函数 func && func.call(this); } else { _iIntervalID = setInterval(function() { if(!_times) { //是0就退出 clearInterval(_iIntervalID); } _times <= 0 || _times--; //如果是正数就 -- _self = $(_selector); //再次选择 if( _self.length ) { //判断是否取到 func && func.call(_self); clearInterval(_iIntervalID); } }, _interval); } return this; } $("table.syntaxhighlighter").wait(function() { $('table.syntaxhighlighter').append("<p class='cnblogs_code_footer'><span class='cnblogs_code_footer_icon'></span></p>"); }); $(document).on("click", ".cnblogs_code_footer",function(){ $(this).parents('table.syntaxhighlighter').css('display','inline-table');$(this).hide(); }); $('.nphpQianCont').viewer({navbar:true,title:false,toolbar:false,movable:false,viewed:function(){$('img').click(function(){$('.viewer-close').trigger('click');});}}); </script></body></html>