Heim >Backend-Entwicklung >Golang >Scrapper-Konkurrent

Scrapper-Konkurrent

Barbara Streisand
Barbara StreisandOriginal
2024-11-06 15:21:031043Durchsuche

Scrapper Concorrente

Programmziel

Greifen Sie gleichzeitig auf Webseiten zu, um den Titel jeder Seite zu extrahieren und diese Titel im Terminal anzuzeigen. Dies geschieht mithilfe der Parallelität in Go, die Ihnen den gleichzeitigen Zugriff auf mehrere Seiten ermöglicht und so Zeit spart.

Erläuterung des Kodex

Verwendete Pakete

import (
    "fmt"
    "net/http"
    "sync"
    "github.com/PuerkitoBio/goquery"
)

fetchTitle-Funktion

Diese Rolle ist verantwortlich für:

  • Zugriff auf eine Webseite (URL)
  • Seitentitel extrahieren
  • Übertragen Sie das Ergebnis auf einen Kanal
func fetchTitle(url string, wg *sync.WaitGroup, results chan<- string) {
    defer wg.Done() // Marca a goroutine como concluída no WaitGroup

Funktionsparameter:

  • URL-Zeichenfolge: Stellt die Adresse der Webseite (URL) dar, auf die wir zugreifen, um den Titel zu erhalten
  • wg *sync.WaitGroup: Zeiger auf eine WaitGroup, die wir verwenden, um den Abschluss aller gleichzeitig laufenden Aufgaben (Goroutinen) zu synchronisieren. Das * zeigt an, dass wir eine „Adresse“ an WaitGroup übergeben und keine Kopie davon.
  • Ergebnisse chan<- string: Dies ist ein Einwegkanal, der es Ihnen ermöglicht, Strings an einen anderen Teil des Programms zu senden. Es wird verwendet, um Ergebnisse (Titel oder Fehlermeldungen) an die Hauptfunktion zu übergeben

Die Zeile „defer wg.Done()“ weist das Programm an, diese Aufgabe (Goroutine) als abgeschlossen zu markieren, wenn die fetchTitle-Funktion beendet ist. Dies ist wichtig, damit main weiß, wann alle Aufgaben erledigt sind.

HTTP-Anfrage


req, err := http.Get(url)
if err != nil {
Ergebnisse <- fmt.Sprintf("Fehler beim Zugriff auf %s: %v", url, err)
zurück
}
defer req.Body.Close()

  • http.Get(url): Diese Zeile stellt eine HTTP GET-Anfrage an die URL. Das bedeutet, dass wir auf die Seite zugreifen und den Server nach ihrem Inhalt fragen.
  • err != nil: Hier prüfen wir, ob beim Zugriff auf die Seite ein Fehler aufgetreten ist (z. B. wenn die Seite nicht existiert oder der Server nicht antwortet). Im Fehlerfall senden wir eine Nachricht an den Ergebniskanal und beenden die Funktion mit return.
  • defer req.Body.Close(): Dies stellt sicher, dass wir, nachdem wir mit der Verwendung des Seiteninhalts fertig sind, den für die Speicherung zugewiesenen Speicher freigeben.

Statusprüfung


wenn req.StatusCode != 200 {
Ergebnisse <- fmt.Sprintf("Fehler beim Zugriff auf %s: Status %d %s", url, req.StatusCode, req.Status)
zurück
}

  • req.StatusCode != 200: Wir prüfen, ob der Server mit dem Code 200 OK geantwortet hat (zeigt Erfolg an). Wenn es nicht 200 ist, bedeutet das, dass die Seite nicht richtig geladen wurde. Anschließend senden wir eine Fehlermeldung an den Ergebniskanal und beenden die Funktion.

Laden und Suchen von Titeln


doc, err := goquery.NewDocumentFromReader(req.Body)
if err != nil {
Ergebnisse <- fmt.Sprintf("Fehler beim Laden des Dokuments von %s: %v", url, err)
zurück
}
title := doc.Find("title").Text()
Ergebnisse <- fmt.Sprintf("Titel von %s: %s", URL, Titel)
}

  • goquery.NewDocumentFromReader(req.Body): Wir laden den HTML-Inhalt der Seite (bereitgestellt durch req.Body) in goquery, wodurch Sie durch bestimmte Teile des HTML navigieren und diese durchsuchen können.
  • doc.Find("title").Text(): Wir suchen nach dem Tag im HTML der Seite und holen Sie sich den darin enthaltenen Text (d. h. den Titel). </pre> <li> <strong>results <- fmt.Sprintf("Título de %s: %s", url, title)</strong>: Wir senden den extrahierten Titel an den Ergebniskanal, wo er später gelesen wird.</li> <h2> Hauptfunktion </h2> <p>Die Hauptfunktion ist die Hauptfunktion, die das Programm konfiguriert und steuert.</p> <p><br> func main() {<br> URLs := []string{<br> „http://olos.novagne.com.br/Olos/login.aspx?logout=true“,<br> "http://sistema.novagne.com.br/novagne/",<br> }<br> </p> <ul> <li> <strong>urls := []string{...}</strong>: Wir definieren eine Liste von URLs, die wir verarbeiten möchten. Jede URL wird an eine Goroutine übergeben, die den Seitentitel extrahiert.</li> </ul> <h2> WaitGroup- und Kanalkonfiguration </h2> <p><br> var wg sync.WaitGroup<br> results := make(chan string, len(urls)) // Kanal zum Speichern der Ergebnisse<br> </p> <ul> <li> <strong>var wg sync.WaitGroup</strong>: Wir erstellen eine neue Instanz von WaitGroup, die die Anzahl der Goroutinen steuert und sicherstellt, dass sie alle abgeschlossen werden, bevor das Programm endet.</li> <li> <strong>results := make(chan string, len(urls))</strong>: Wir erstellen einen Ergebniskanal mit einer Kapazität, die der Anzahl der URLs entspricht. Dieser Kanal speichert Nachrichten mit Titeln oder Fehlern.</li> </ul> <h2> Heimat der Goroutinen </h2> <p><br> für _, URL := Bereichs-URLs {<br> wg.Add(1)<br> Gehen Sie fetchTitle(url, &wg, results)<br> }<br> </p> <ul> <li> <strong>for _, url := range urls</strong>: Hier durchlaufen wir jede URL in der Liste.</li> <li> <strong>wg.Add(1)</strong>: Für jede URL erhöhen wir den WaitGroup-Zähler, um anzuzeigen, dass eine neue Aufgabe (Goroutine) gestartet wird.</li> <li> <strong>go fetchTitle(url, &wg, results)</strong>: Wir rufen fetchTitle als <strong>Goroutine</strong> für jede URL auf, das heißt, wir lassen sie parallel zu den anderen laufen.</li> </ul> <h2> Warten und Ergebnisse anzeigen </h2> <p><br> wg.Wait()<br> schließen(Ergebnisse)<br> </p> <hr> <p>REPO: https://github.com/ionnss/Scrapper-GoRoutine</p> <hr> <p>Ionen,</p> <p>ein weiterer Tag der Erde</p> <p>Das obige ist der detaillierte Inhalt vonScrapper-Konkurrent. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!</p></div><div class="nphpQianMsg"><a href="javascript:void(0);">html</a> <a href="javascript:void(0);">String</a> <a href="javascript:void(0);">if</a> <a href="javascript:void(0);">for</a> <a href="javascript:void(0);">var</a> <a href="javascript:void(0);">len</a> <a href="javascript:void(0);">nil</a> <a href="javascript:void(0);">github</a> <a href="javascript:void(0);">http</a> <a href="javascript:void(0);">https</a><div class="clear"></div></div><div class="nphpQianSheng"><span>Stellungnahme:</span><div>Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn</div></div></div><div class="nphpSytBox"><span>Vorheriger Artikel:<a class="dBlack" title="Von C# bis Go: AES- und Base64-Kodierungskompatibilität erreichen" href="https://m.php.cn/de/faq/1796672826.html">Von C# bis Go: AES- und Base64-Kodierungskompatibilität erreichen</a></span><span>Nächster Artikel:<a class="dBlack" title="Von C# bis Go: AES- und Base64-Kodierungskompatibilität erreichen" href="https://m.php.cn/de/faq/1796672838.html">Von C# bis Go: AES- und Base64-Kodierungskompatibilität erreichen</a></span></div><div class="nphpSytBox2"><div class="nphpZbktTitle"><h2>In Verbindung stehende Artikel</h2><em><a href="https://m.php.cn/de/article.html" class="bBlack"><i>Mehr sehen</i><b></b></a></em><div class="clear"></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="fluid" data-ad-layout-key="-6t+ed+2i-1n-4w" data-ad-client="ca-pub-5902227090019525" data-ad-slot="8966999616"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><ul class="nphpXgwzList"><li><b></b><a href="https://m.php.cn/de/faq/419133.html" title="Was ist Go-Sprache? Einführung in die Vor- und Nachteile der Go-Sprache" class="aBlack">Was ist Go-Sprache? Einführung in die Vor- und Nachteile der Go-Sprache</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/de/faq/419289.html" title="Was bedeutet Gin?" class="aBlack">Was bedeutet Gin?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/de/faq/421167.html" title="Warum ist Go leistungsfähiger als PHP?" class="aBlack">Warum ist Go leistungsfähiger als PHP?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/de/faq/421591.html" title="Wofür ist die Go-Sprache geeignet?" class="aBlack">Wofür ist die Go-Sprache geeignet?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/de/faq/422570.html" title="Gehen Sie zu den Sprachgrundlagen" class="aBlack">Gehen Sie zu den Sprachgrundlagen</a><div class="clear"></div></li></ul></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5902227090019525" data-ad-slot="5027754603"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><footer><div class="footer"><div class="footertop"><img src="/static/imghwm/logo.png" alt=""><p>Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!</p></div><div class="footermid"><a href="https://m.php.cn/de/about/us.html">Über uns</a><a href="https://m.php.cn/de/about/disclaimer.html">Haftungsausschluss</a><a href="https://m.php.cn/de/update/article_0_1.html">Sitemap</a></div><div class="footerbottom"><p> © php.cn All rights reserved </p></div></div></footer><script>isLogin = 0;</script><script type="text/javascript" src="/static/layui/layui.js"></script><script type="text/javascript" src="/static/js/global.js?4.9.47"></script></div><script src="https://vdse.bdstatic.com//search-video.v1.min.js"></script><link rel='stylesheet' id='_main-css' href='/static/css/viewer.min.css' type='text/css' media='all'/><script type='text/javascript' src='/static/js/viewer.min.js?1'></script><script type='text/javascript' src='/static/js/jquery-viewer.min.js'></script><script>jQuery.fn.wait = function (func, times, interval) { var _times = times || -1, //100次 _interval = interval || 20, //20毫秒每次 _self = this, _selector = this.selector, //选择器 _iIntervalID; //定时器id if( this.length ){ //如果已经获取到了,就直接执行函数 func && func.call(this); } else { _iIntervalID = setInterval(function() { if(!_times) { //是0就退出 clearInterval(_iIntervalID); } _times <= 0 || _times--; //如果是正数就 -- _self = $(_selector); //再次选择 if( _self.length ) { //判断是否取到 func && func.call(_self); clearInterval(_iIntervalID); } }, _interval); } return this; } $("table.syntaxhighlighter").wait(function() { $('table.syntaxhighlighter').append("<p class='cnblogs_code_footer'><span class='cnblogs_code_footer_icon'></span></p>"); }); $(document).on("click", ".cnblogs_code_footer",function(){ $(this).parents('table.syntaxhighlighter').css('display','inline-table');$(this).hide(); }); $('.nphpQianCont').viewer({navbar:true,title:false,toolbar:false,movable:false,viewed:function(){$('img').click(function(){$('.viewer-close').trigger('click');});}}); </script></body><!-- Matomo --><script> var _paq = window._paq = window._paq || []; /* tracker methods like "setCustomDimension" should be called before "trackPageView" */ _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u="https://tongji.php.cn/"; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '9']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })(); </script><!-- End Matomo Code --></html>