搜尋
首頁web前端js教程NodeJS製作爬蟲全過程(續)_node.js

書接上回,我們需要修改程式以達到連續抓取40個頁面的內容。也就是說我們需要輸出每篇文章的標題、連結、第一則評論、評論使用者和論壇積分。

如圖所示,$('.reply_author').eq(0).text().trim();得到的值即為正確的第一條評論的使用者。

{}

在eventproxy取得評論及使用者名稱內容後,我們需要透過使用者名稱跳到使用者介面繼續抓取該使用者積分

複製程式碼 程式碼如下:

var $ = cheerio.load(topicHtml);
//此URL為下一步抓取目標URL
var userHref = 'https://cnodejs.org' $('.reply_author').eq(0).attr('href');
userHref = url.resolve(tUrl, userHref);
var title = $('.topic_full_title').text().trim().replace(/n/g,"");;
var href = topicUrl;
var comment1 = $('.reply_content').eq(0).text().trim();
var author1 = $('.reply_author').eq(0).text().trim();
//傳遞參數到下次並發抓取
ep.emit('user_html', [userHref, title, href, comment1, author1]);

在eventproxy這次中,我們要找score是放在哪裡(class="big")。

{}

找到classname就好辦了,我們先試著把結果輸出一下

複製程式碼 程式碼如下:

var outcome = superagent.get(userUrl)
    .end(function (err, res) {
        if (err) {
            return console.error(err);
        }
        var $ = cheerio.load(res.text);
        var score = $('.big').text().trim();
        console.log(user[1]);
        console.log(user[2]);
        console.log(user[3]);
        console.log(user[4]);
        console.log($('.big').text().trim());
        return ({
            title: user[1],
            href: user[2],
            comment1: user[3],
            author1: user[4],
            score1: score
        });
    });
});

運行程序,這段程式碼得到的結果。

{}

但是問題來了,我們在.end()的回呼函數中能正確輸出結果,但是不能正確的輸出outcome。仔細一看,需要輸出的outcome就是一個Request物件。這是因為粗心犯的錯的,.end()函數並不會傳遞回傳值給Request對象,需要將結果傳回上一層(users)。

複製程式碼 程式碼如下:

//尋找使用者詳細資料
ep.after('user_html', topicUrls.length, function(users){
    users = users.map(function(user){
        var userUrl = user[0];
        var 分數;
        superagent.get(userUrl)
            .end(函數(err, res) {
                若(錯誤){
                    return console.error(err);
                }
                //console.log(res.text);
                var $ = Cheerio.load(res.text);
                分數 = $('.big').text().trim();
            });
        返回({
            標題:使用者[1],
            href: 使用者[2],
            評論1:使用者[3],
            作者1:使用者[4],
            分數1:分數
        });
    });

把使用者仔細地輸出發現除了score1其他都是正確值。仔細除錯發現,程式是先進行了console.log(),然後再進行.map()。更精確地說,在.map()函數裡面,.get()的回呼函數並沒有執行完成賦值score,回傳值就做了。這就是回呼函數的非同步,而外層的同步操作是不會等待回呼函數完成做操作的。

{}

我的做法是eventproxy再發出一層訊息,同時著訊息把資料一起傳遞給接收訊息操作。 after(),只有當訊息全部接收完畢,再印出傳遞的參數(結果)。

複製程式碼程式碼如下:

分數 = $('.big')text().trim();
//新加入
ep.emit('got_score', [user[1], user[2], user[3], user[4], Score]);
.....
ep.after('got_score', 10, 函數(用戶){
console.log(用戶);
});

{}

這個問題解決了,但是score1的數值看起來很簡單吧。再看看,原來class='big'有兩個,使用者的話題也屬於這個class。我們得透過cheerio的.slice收藏start, [end] )來切取第一個元素即將,score 修改為score = $('.big').slice(0).eq(0).text().trim ();。正確結果如圖。

{}

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
node.js流帶打字稿node.js流帶打字稿Apr 30, 2025 am 08:22 AM

Node.js擅長於高效I/O,這在很大程度上要歸功於流。 流媒體匯總處理數據,避免內存過載 - 大型文件,網絡任務和實時應用程序的理想。將流與打字稿的類型安全結合起來創建POWE

Python vs. JavaScript:性能和效率注意事項Python vs. JavaScript:性能和效率注意事項Apr 30, 2025 am 12:08 AM

Python和JavaScript在性能和效率方面的差異主要體現在:1)Python作為解釋型語言,運行速度較慢,但開發效率高,適合快速原型開發;2)JavaScript在瀏覽器中受限於單線程,但在Node.js中可利用多線程和異步I/O提升性能,兩者在實際項目中各有優勢。

JavaScript的起源:探索其實施語言JavaScript的起源:探索其實施語言Apr 29, 2025 am 12:51 AM

JavaScript起源於1995年,由布蘭登·艾克創造,實現語言為C語言。 1.C語言為JavaScript提供了高性能和系統級編程能力。 2.JavaScript的內存管理和性能優化依賴於C語言。 3.C語言的跨平台特性幫助JavaScript在不同操作系統上高效運行。

幕後:什麼語言能力JavaScript?幕後:什麼語言能力JavaScript?Apr 28, 2025 am 12:01 AM

JavaScript在瀏覽器和Node.js環境中運行,依賴JavaScript引擎解析和執行代碼。 1)解析階段生成抽象語法樹(AST);2)編譯階段將AST轉換為字節碼或機器碼;3)執行階段執行編譯後的代碼。

Python和JavaScript的未來:趨勢和預測Python和JavaScript的未來:趨勢和預測Apr 27, 2025 am 12:21 AM

Python和JavaScript的未來趨勢包括:1.Python將鞏固在科學計算和AI領域的地位,2.JavaScript將推動Web技術發展,3.跨平台開發將成為熱門,4.性能優化將是重點。兩者都將繼續在各自領域擴展應用場景,並在性能上有更多突破。

Python vs. JavaScript:開發環境和工具Python vs. JavaScript:開發環境和工具Apr 26, 2025 am 12:09 AM

Python和JavaScript在開發環境上的選擇都很重要。 1)Python的開發環境包括PyCharm、JupyterNotebook和Anaconda,適合數據科學和快速原型開發。 2)JavaScript的開發環境包括Node.js、VSCode和Webpack,適用於前端和後端開發。根據項目需求選擇合適的工具可以提高開發效率和項目成功率。

JavaScript是用C編寫的嗎?檢查證據JavaScript是用C編寫的嗎?檢查證據Apr 25, 2025 am 12:15 AM

是的,JavaScript的引擎核心是用C語言編寫的。 1)C語言提供了高效性能和底層控制,適合JavaScript引擎的開發。 2)以V8引擎為例,其核心用C 編寫,結合了C的效率和麵向對象特性。 3)JavaScript引擎的工作原理包括解析、編譯和執行,C語言在這些過程中發揮關鍵作用。

JavaScript的角色:使網絡交互和動態JavaScript的角色:使網絡交互和動態Apr 24, 2025 am 12:12 AM

JavaScript是現代網站的核心,因為它增強了網頁的交互性和動態性。 1)它允許在不刷新頁面的情況下改變內容,2)通過DOMAPI操作網頁,3)支持複雜的交互效果如動畫和拖放,4)優化性能和最佳實踐提高用戶體驗。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器