Heim >Web-Frontend >js-Tutorial >So implementieren Sie die Baidu-Index-Crawler-Funktion

So implementieren Sie die Baidu-Index-Crawler-Funktion

php中世界最好的语言
php中世界最好的语言Original
2018-04-12 16:45:484690Durchsuche

Dieses Mal zeige ich Ihnen, wie Sie die Baidu-Index-Crawler-Funktion implementieren und welche Vorsichtsmaßnahmen für die Implementierung der Baidu-Index-Crawler-Funktion gelten. Hier sind praktische Fälle, werfen wir einen Blick darauf.

Ich habe zuvor einen einfallsreichen Artikel gelesen, in dem die Front-End-Anti-Crawling-Techniken verschiedener großer Hersteller vorgestellt wurden, aber wie in diesem Artikel gesagt wurde, gibt es keine 100%ige Anti-Crawling-Methode. Dieser Artikel stellt eine einfache Methode vor, um all diese Fronten zu umgehen -Ende der Anti-Crawler-Maßnahmen.

Der folgende Code verwendet Baidu Index als Beispiel. Der Code wurde in eine Baidu Index-Crawler-Knotenbibliothek gepackt: https://github.com/Coffcer/baidu-index-spider

Hinweis: Bitte missbrauchen Sie Crawler nicht, um anderen Ärger zu bereiten

Die Anti-Crawler-Strategie von Baidu Index

Beobachten Sie die Benutzeroberfläche von Baidu Index. Wenn Sie mit der Maus über einen bestimmten Tag fahren, werden zwei Anfragen ausgelöst und die Ergebnisse werden im schwebenden Feld angezeigt Es kann festgestellt werden, dass Baidu Index tatsächlich bestimmte Anti-Crawler-Strategien im Frontend implementiert hat. Wenn die Maus über das Diagramm bewegt wird, werden zwei Anfragen ausgelöst, eine Anfrage gibt ein Stück HTML zurück und eine Anfrage gibt ein generiertes Bild zurück. Der HTML-Code enthält keine tatsächlichen Werte, sondern legt die Breite und den

margin-left

fest, um die entsprechenden Zeichen auf dem Bild anzuzeigen. Darüber hinaus enthält der Anforderungsparameter Parameter wie res und res1, die wir nicht simulieren können, sodass es schwierig ist, die Baidu-Indexdaten mit herkömmlichen simulierten Anforderungen oder HTML-Crawling-Methoden zu crawlen.

Reptil-Idee

Wie man die Anti-Crawler-Methode von Baidu durchbricht, ist eigentlich sehr einfach, es ist nur egal, wie es Anti-Crawler ist. Wir müssen lediglich Benutzervorgänge simulieren, einen Screenshot der erforderlichen Werte erstellen und eine Bilderkennung durchführen. Die Schritte sind ungefähr:

    Anmeldung simulieren
  1. Öffnen Sie die Indexseite
  2. Bewegen Sie die Maus zum angegebenen Datum
  3. Warten Sie, bis die Anfrage beendet ist, und erfassen Sie den numerischen Teil des Bildes
  4. Die Bilderkennung erhält den Wert
  5. Durchlaufen Sie die Schritte 3 bis 5, um den Wert für jedes Datum zu erhalten
  6. Diese Methode kann theoretisch den Inhalt jeder Website crawlen. Als nächstes werden wir den Crawler Schritt für Schritt implementieren. Die folgenden Bibliotheken werden verwendet:

  1. Puppenspieler

    Browser-Bedienung simulieren

  2. node-tesseract

    Ein Tesseract-Paket, das zur Bilderkennung verwendet wird

  3. Jimp

    Bildzuschnitt

Installieren Sie Puppeteer und simulieren Sie Benutzervorgänge

Puppeteer ist ein vom Google Chrome-Team entwickeltes Chrome-Automatisierungstool, das zur Steuerung von Chrome-Ausführungsbefehlen verwendet wird. Sie können Benutzervorgänge simulieren, automatisierte Tests, Crawler usw. durchführen. Die Verwendung ist sehr einfach. Es gibt viele Einführungs-Tutorials im Internet. Nach dem Lesen dieses Artikels können Sie wahrscheinlich wissen, wie man es verwendet.

API-Dokumentation: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md

Installation:

Puppeteer lädt Chromium während der Installation automatisch herunter, um sicherzustellen, dass es ordnungsgemäß funktioniert. Inländische Netzwerke können Chromium jedoch möglicherweise nicht erfolgreich herunterladen. Wenn der Download fehlschlägt, können Sie es mit cnpm installieren oder die Download-Adresse auf den Taobao-Spiegel ändern und es dann erneut installieren:
npm install --save puppeteer

Sie können den Chromium-Download während der Installation auch überspringen und ihn ausführen, indem Sie den nativen Chrome-Pfad über den Code angeben:
npm config set PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrors
npm install --save puppeteer

// npm
npm install --save puppeteer --ignore-scripts
// node
puppeteer.launch({ executablePath: '/path/to/Chrome' });
Leistung

Um das Layout übersichtlich zu halten, werden unten nur die Hauptteile aufgeführt. Die Teile des Codes, die den Selektor betreffen, werden durch ... ersetzt. Den vollständigen Code finden Sie im Github-Repository oben im Artikel.

Baidu-Indexseite öffnen und Anmeldung simulieren

Hier werden Benutzervorgänge, Klicks und Eingaben Schritt für Schritt simuliert. Es gibt keine Handhabung des Anmelde-

Bestätigungscodes

. Wenn Sie sich lokal bei Baidu angemeldet haben, benötigen Sie im Allgemeinen keinen Bestätigungscode.

// 启动浏览器,
// headless参数如果设置为true,Puppeteer将在后台操作你Chromium,换言之你将看不到浏览器的操作过程
// 设为false则相反,会在你电脑上打开浏览器,显示浏览器每一操作。
const browser = await puppeteer.launch({headless:false});
const page = await browser.newPage();
// 打开百度指数
await page.goto(BAIDU_INDEX_URL);
// 模拟登陆
await page.click('...');
await page.waitForSelecto('...');
// 输入百度账号密码然后登录
await page.type('...','username');
await page.type('...','password');
await page.click('...');
await page.waitForNavigation();
console.log(':white_check_mark: 登录成功');
Simulieren Sie die Bewegung der Maus und erhalten Sie die erforderlichen Daten

需要将页面滚动到趋势图的区域,然后移动鼠标到某个日期上,等待请求结束,tooltip显示数值,再截图保存图片。

// 获取chart第一天的坐标
const position = await page.evaluate(() => {
 const $image = document.querySelector('...');
 const $area = document.querySelector('...');
 const areaRect = $area.getBoundingClientRect();
 const imageRect = $image.getBoundingClientRect();
 // 滚动到图表可视化区域
 window.scrollBy(0, areaRect.top);
 return { x: imageRect.x, y: 200 };
});
// 移动鼠标,触发tooltip
await page.mouse.move(position.x, position.y);
await page.waitForSelector('...');
// 获取tooltip信息
const tooltipInfo = await page.evaluate(() => {
 const $tooltip = document.querySelector('...');
 const $title = $tooltip.querySelector('...');
 const $value = $tooltip.querySelector('...');
 const valueRect = $value.getBoundingClientRect();
 const padding = 5;
 return {
 title: $title.textContent.split(' ')[0],
 x: valueRect.x - padding,
 y: valueRect.y,
 width: valueRect.width + padding * 2,
 height: valueRect.height
 }
});

截图

计算数值的坐标,截图并用jimp对裁剪图片。

await page.screenshot({ path: imgPath });
// 对图片进行裁剪,只保留数字部分
const img = await jimp.read(imgPath);
await img.crop(tooltipInfo.x, tooltipInfo.y, tooltipInfo.width, tooltipInfo.height);
// 将图片放大一些,识别准确率会有提升
await img.scale(5);
await img.write(imgPath);

图像识别

这里我们用Tesseract来做图像识别,Tesseracts是Google开源的一款OCR工具,用来识别图片中的文字,并且可以通过训练提高准确率。github上已经有一个简单的node封装: node-tesseract ,需要你先安装Tesseract并设置到环境变量。

Tesseract.process(imgPath, (err, val) => {
if (err || val == null) {
 console.error(':x: 识别失败:' + imgPath);
 return;
}
console.log(val);

实际上未经训练的Tesseracts识别起来会有少数几个错误,比如把9开头的数字识别成`3,这里需要通过训练去提升Tesseracts的准确率,如果识别过程出现的问题都是一样的,也可以简单通过正则去修复这些问题。

封装

实现了以上几点后,只需组合起来就可以封装成一个百度指数爬虫node库。当然还有许多优化的方法,比如批量爬取,指定天数爬取等,只要在这个基础上实现都不难了。

const recognition = require('./src/recognition');
const Spider = require('./src/spider');
module.exports = {
 async run (word, options, puppeteerOptions = { headless: true }) {
 const spider = new Spider({ 
 imgDir, 
 ...options 
 }, puppeteerOptions);
 // 抓取数据
 await spider.run(word);
 // 读取抓取到的截图,做图像识别
 const wordDir = path.resolve(imgDir, word);
 const imgNames = fs.readdirSync(wordDir);
 const result = [];
 imgNames = imgNames.filter(item => path.extname(item) === '.png');
 for (let i = 0; i < imgNames.length; i++) {
 const imgPath = path.resolve(wordDir, imgNames[i]);
 const val = await recognition.run(imgPath);
 result.push(val);
 }
 return result;
 }
}

反爬虫

最后,如何抵挡这种爬虫呢,个人认为通过判断鼠标移动轨迹可能是一种方法。当然前端没有100%的反爬虫手段,我们能做的只是给爬虫增加一点难度。

相信看了本文案例你已经掌握了方法,更多精彩请关注php中文网其它相关文章!

推荐阅读:

easyui日期时间框在IE中的兼容性如何处理

vue判断input输入内容有否有空格

Das obige ist der detaillierte Inhalt vonSo implementieren Sie die Baidu-Index-Crawler-Funktion. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn