>백엔드 개발 >Golang >스크래퍼 경쟁자

스크래퍼 경쟁자

Barbara Streisand
Barbara Streisand원래의
2024-11-06 15:21:031043검색

Scrapper Concorrente

프로그램 목표

동시에 웹페이지에 접속하여 각 페이지의 제목을 추출하고 해당 제목을 터미널에 표시합니다. 이는 Go의 동시성을 사용하여 수행되며, 이를 통해 여러 페이지에 동시에 액세스하여 시간을 절약할 수 있습니다.

코드 설명

사용된 패키지

import (
    "fmt"
    "net/http"
    "sync"
    "github.com/PuerkitoBio/goquery"
)

fetchTitle 함수

이 역할은 다음을 담당합니다.

  • 웹페이지(URL) 접속
  • 페이지 제목 추출
  • 결과를 채널로 전달
func fetchTitle(url string, wg *sync.WaitGroup, results chan<- string) {
    defer wg.Done() // Marca a goroutine como concluída no WaitGroup

기능 매개변수:

  • url 문자열: 제목을 얻기 위해 접속하려는 웹페이지(url)의 주소를 나타냅니다
  • wg *sync.WaitGroup: 동시에 실행 중인 모든 작업(고루틴)의 완료를 동기화하는 데 사용하는 WaitGroup에 대한 포인터입니다. *는 "주소"를 WaitGroup`에 전달하는 것이지 복사본이 아님을 나타냅니다.
  • results chan<- string: 프로그램의 다른 부분으로 문자열을 보낼 수 있는 단방향 채널입니다. 결과(제목 또는 오류 메시지)를 기본 함수에 전달하는 데 사용됩니다.

defer wg.Done() 라인은 fetchTitle 함수가 완료되면 이 작업(고루틴)을 완료된 것으로 표시하도록 프로그램에 지시합니다. 이는 모든 작업이 언제 완료되었는지 Main이 알 수 있도록 중요합니다.

HTTP 요청


요청, 오류 := http.Get(url)
오류가 있는 경우 != nil {
결과 <- fmt.Sprintf("%s 액세스 오류: %v", url, err)
복귀
}
요청 연기.Body.Close()

  • http.Get(url): 이 줄은 URL에 HTTP GET 요청을 보냅니다. 이는 우리가 페이지에 액세스하여 서버에 해당 콘텐츠를 요청하고 있음을 의미합니다.
  • err != nil: 여기에서는 페이지에 액세스할 때 오류가 있었는지 확인합니다(예: 페이지가 존재하지 않거나 서버가 응답하지 않는 경우). 오류가 있으면 결과 채널에 메시지를 보내고 반환으로 기능을 종료합니다.
  • defer req.Body.Close(): 이렇게 하면 페이지 콘텐츠 사용을 마친 후 이를 저장하기 위해 할당된 메모리를 확보할 수 있습니다.

상태 확인


req.StatusCode != 200인 경우 {
결과 <- fmt.Sprintf("%s 액세스 오류: 상태 %d %s", url, req.StatusCode, req.Status)
복귀
}

  • req.StatusCode != 200: 서버가 200 OK 코드로 응답했는지 확인합니다(성공을 나타냄). 200이 아니면 페이지가 제대로 로드되지 않은 것입니다. 그런 다음 결과 채널에 오류 메시지를 보내고 기능을 종료합니다.

타이틀 로딩 및 검색


doc, err := goquery.NewDocumentFromReader(req.Body)
오류가 있는 경우 != nil {
결과 <- fmt.Sprintf("%s에서 문서를 로드하는 중 오류 발생: %v", url, err)
복귀
}
title := doc.Find("title").Text()
결과 <- fmt.Sprintf("%s의 제목: %s", url, title)
}

  • goquery.NewDocumentFromReader(req.Body): 페이지의 HTML 콘텐츠(req.Body에서 제공)를 goquery에 로드합니다. 이를 통해 HTML의 특정 부분을 탐색하고 검색할 수 있습니다.
  • doc.Find("title").Text(): 태그를 찾습니다. 페이지의 HTML에서 내부 텍스트(예: 제목)를 가져옵니다. </pre> <li> <strong>results <- fmt.Sprintf("Título de %s: %s", url, title)</strong>: 추출된 제목을 나중에 읽을 수 있는 결과 채널로 보냅니다.</li> <h2> 주요 기능 </h2> <p>메인 기능은 프로그램을 구성하고 제어하는 ​​주요 기능입니다.</p> <p><br> func 메인() {<br> urls := []문자열{<br> "http://olos.novagne.com.br/Olos/login.aspx?logout=true",<br> "http://sistema.novagne.com.br/novagne/",<br> }<br> </p> <ul> <li> <strong>urls := []string{...}</strong>: 처리하려는 URL 목록을 정의합니다. 각 URL은 페이지 제목을 추출하는 고루틴으로 전달됩니다.</li> </ul> <h2> WaitGroup 및 채널 구성 </h2> <p><br> var wg sync.WaitGroup<br> results := make(chan string, len(urls)) // 결과를 저장할 채널<br> </p> <ul> <li> <strong>var wg sync.WaitGroup</strong>: 고루틴 수를 제어하고 프로그램이 끝나기 전에 고루틴이 모두 완료되도록 하는 WaitGroup의 새 인스턴스를 생성합니다.</li> <li> <strong>results := make(chan string, len(urls))</strong>: URL 수와 동일한 용량의 결과 채널을 만듭니다. 이 채널은 제목이나 오류가 있는 메시지를 저장합니다.</li> </ul> <h2> 고루틴의 홈 </h2> <p><br> for _, url := 범위 URL {<br> wg.추가(1)<br> fetchTitle(url, &wg, 결과)로 이동<br> }<br> </p> <ul> <li> <strong>for _, url := range urls</strong>: 여기에서는 목록의 각 URL을 반복합니다.</li> <li> <strong>wg.Add(1)</strong>: 각 URL에 대해 WaitGroup 카운터를 증가시켜 새 작업(고루틴)이 시작됨을 나타냅니다.</li> <li> <strong>go fetchTitle(url, &wg, results)</strong>: 각 URL에 대해 fetchTitle을 <strong>goroutine</strong>으로 호출합니다. 즉, 다른 URL과 병렬로 실행되도록 합니다.</li> </ul> <h2> 대기 및 결과 표시 </h2> <p><br> wg.잠깐()<br> 닫기(결과)<br> </p> <hr> <p>REPO: https://github.com/ionnss/Scrapper-GoRoutine</p> <hr> <p>이온,</p> <p>또 지구의 날</p> <p>위 내용은 스크래퍼 경쟁자의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!</p></div><div class="nphpQianMsg"><a href="javascript:void(0);">html</a> <a href="javascript:void(0);">String</a> <a href="javascript:void(0);">if</a> <a href="javascript:void(0);">for</a> <a href="javascript:void(0);">var</a> <a href="javascript:void(0);">len</a> <a href="javascript:void(0);">nil</a> <a href="javascript:void(0);">github</a> <a href="javascript:void(0);">http</a> <a href="javascript:void(0);">https</a><div class="clear"></div></div><div class="nphpQianSheng"><span>성명:</span><div>본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.</div></div></div><div class="nphpSytBox"><span>이전 기사:<a class="dBlack" title="C#에서 Go까지: AES 및 Base64 인코딩 호환성 달성" href="https://m.php.cn/ko/faq/1796672826.html">C#에서 Go까지: AES 및 Base64 인코딩 호환성 달성</a></span><span>다음 기사:<a class="dBlack" title="C#에서 Go까지: AES 및 Base64 인코딩 호환성 달성" href="https://m.php.cn/ko/faq/1796672838.html">C#에서 Go까지: AES 및 Base64 인코딩 호환성 달성</a></span></div><div class="nphpSytBox2"><div class="nphpZbktTitle"><h2>관련 기사</h2><em><a href="https://m.php.cn/ko/article.html" class="bBlack"><i>더보기</i><b></b></a></em><div class="clear"></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="fluid" data-ad-layout-key="-6t+ed+2i-1n-4w" data-ad-client="ca-pub-5902227090019525" data-ad-slot="8966999616"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><ul class="nphpXgwzList"><li><b></b><a href="https://m.php.cn/ko/faq/419133.html" title="Go 언어란 무엇인가요? Go 언어의 장점과 단점 소개" class="aBlack">Go 언어란 무엇인가요? Go 언어의 장점과 단점 소개</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ko/faq/419289.html" title="진은 무슨 뜻인가요?" class="aBlack">진은 무슨 뜻인가요?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ko/faq/421167.html" title="Go가 PHP보다 성능이 뛰어난 이유는 무엇입니까?" class="aBlack">Go가 PHP보다 성능이 뛰어난 이유는 무엇입니까?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ko/faq/421591.html" title="Go 언어는 무엇에 적합합니까?" class="aBlack">Go 언어는 무엇에 적합합니까?</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ko/faq/422570.html" title="언어 기본으로 이동" class="aBlack">언어 기본으로 이동</a><div class="clear"></div></li></ul></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5902227090019525" data-ad-slot="5027754603"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><footer><div class="footer"><div class="footertop"><img src="/static/imghwm/logo.png" alt=""><p>공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!</p></div><div class="footermid"><a href="https://m.php.cn/ko/about/us.html">회사 소개</a><a href="https://m.php.cn/ko/about/disclaimer.html">부인 성명</a><a href="https://m.php.cn/ko/update/article_0_1.html">Sitemap</a></div><div class="footerbottom"><p> © php.cn All rights reserved </p></div></div></footer><script>isLogin = 0;</script><script type="text/javascript" src="/static/layui/layui.js"></script><script type="text/javascript" src="/static/js/global.js?4.9.47"></script></div><script src="https://vdse.bdstatic.com//search-video.v1.min.js"></script><link rel='stylesheet' id='_main-css' href='/static/css/viewer.min.css' type='text/css' media='all'/><script type='text/javascript' src='/static/js/viewer.min.js?1'></script><script type='text/javascript' src='/static/js/jquery-viewer.min.js'></script><script>jQuery.fn.wait = function (func, times, interval) { var _times = times || -1, //100次 _interval = interval || 20, //20毫秒每次 _self = this, _selector = this.selector, //选择器 _iIntervalID; //定时器id if( this.length ){ //如果已经获取到了,就直接执行函数 func && func.call(this); } else { _iIntervalID = setInterval(function() { if(!_times) { //是0就退出 clearInterval(_iIntervalID); } _times <= 0 || _times--; //如果是正数就 -- _self = $(_selector); //再次选择 if( _self.length ) { //判断是否取到 func && func.call(_self); clearInterval(_iIntervalID); } }, _interval); } return this; } $("table.syntaxhighlighter").wait(function() { $('table.syntaxhighlighter').append("<p class='cnblogs_code_footer'><span class='cnblogs_code_footer_icon'></span></p>"); }); $(document).on("click", ".cnblogs_code_footer",function(){ $(this).parents('table.syntaxhighlighter').css('display','inline-table');$(this).hide(); }); $('.nphpQianCont').viewer({navbar:true,title:false,toolbar:false,movable:false,viewed:function(){$('img').click(function(){$('.viewer-close').trigger('click');});}}); </script></body><!-- Matomo --><script> var _paq = window._paq = window._paq || []; /* tracker methods like "setCustomDimension" should be called before "trackPageView" */ _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u="https://tongji.php.cn/"; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '9']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })(); </script><!-- End Matomo Code --></html>