Maison >interface Web >js tutoriel >Comment implémenter la fonction d'exploration d'index Baidu

Comment implémenter la fonction d'exploration d'index Baidu

php中世界最好的语言original: 2018-04-12 16:45:484838parcourir

Cette fois, je vais vous montrer comment implémenter la fonction Baidu index crawler et quelles sont les précautions pour implémenter la fonction Baidu index crawler. Voici des cas pratiques, jetons un coup d'oeil.

J'ai déjà lu un article imaginatif qui présentait les techniques anti-exploration frontales de divers grands fabricants, mais comme le dit cet article, il n'existe pas de méthode anti-exploration à 100 %. Cet article présente une méthode simple pour contourner toutes ces façades. -mettre fin aux mesures anti-crawler.

Le code suivant prend Baidu Index comme exemple. Le code a été intégré dans une bibliothèque de nœuds d'exploration Baidu Index : https://github.com/Coffcer/baidu-index-spider

Remarque : Veuillez ne pas abuser des robots d'exploration pour causer des problèmes aux autres

Stratégie anti-crawler de Baidu Index

Observez l'interface de Baidu Index. Les données de l'index sont un graphique de tendance Lorsque la souris passe sur un certain jour, deux requêtes seront déclenchées et les résultats seront affichés dans la boîte flottante

. On peut constater que Baidu Index a en fait mis en œuvre certaines stratégies anti-crawler sur le front-end. Lorsque la souris se déplace sur le graphique, deux requêtes seront déclenchées, une requête renvoie un morceau de code HTML et une requête renvoie une image générée. Le code HTML ne contient pas de valeurs réelles, mais définit la largeur et la marge-gauche pour afficher les caractères correspondants sur l'image. De plus, le paramètre de requête contient des paramètres tels que res et res1 que nous ne savons pas comment simuler, il est donc difficile d'explorer les données de l'index Baidu à l'aide de requêtes simulées conventionnelles ou de méthodes d'exploration HTML.

Idée Reptile

Comment percer la méthode anti-crawler de Baidu est en fait très simple, ne vous souciez pas de la façon dont elle est anti-crawler. Il nous suffit de simuler les opérations de l'utilisateur, de capturer les valeurs requises et d'effectuer une reconnaissance d'image. Les étapes sont en gros :

Simuler la connexion
Ouvrez la page d'index
Déplacez la souris sur la date spécifiée
Attendez la fin de la requête et capturez la partie numérique de l'image
La reconnaissance d'image prend de la valeur
Parcourez les étapes 3 à 5 pour obtenir la valeur correspondant à chaque date

Cette méthode peut théoriquement explorer le contenu de n'importe quel site Web. Ensuite, nous implémenterons le robot étape par étape. Les bibliothèques suivantes seront utilisées :

. Marionnette Simuler le fonctionnement du navigateur
node-tesseract Un package de tesseract, utilisé pour la reconnaissance d'images
jimp Recadrage d'image

Installez Puppeteer et simulez les opérations des utilisateurs

Puppeteer est un outil d'automatisation Chrome produit par l'équipe Google Chrome, utilisé pour contrôler les commandes d'exécution de Chrome. Vous pouvez simuler les opérations des utilisateurs, effectuer des tests automatisés, des robots d'exploration, etc. L'utilisation est très simple. Il existe de nombreux tutoriels d'introduction sur Internet. Vous saurez probablement comment l'utiliser après avoir lu cet article.

Documentation API : https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md

Installation :

npm install --save puppeteer

Puppeteer télécharge automatiquement Chromium lors de l'installation pour garantir son bon fonctionnement. Cependant, les réseaux nationaux peuvent ne pas réussir à télécharger Chromium. Si le téléchargement échoue, vous pouvez utiliser cnpm pour l'installer, ou modifier l'adresse de téléchargement sur le miroir Taobao, puis l'installer à nouveau :

npm config set PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrors
npm install --save puppeteer

Vous pouvez également ignorer le téléchargement de Chromium lors de l'installation et l'exécuter en spécifiant le chemin natif de Chrome via le code :

// npm
npm install --save puppeteer --ignore-scripts
// node
puppeteer.launch({ executablePath: '/path/to/Chrome' });

Réussite

Pour garder la mise en page soignée, seules les parties principales sont répertoriées ci-dessous. Les parties du code impliquant le sélecteur sont remplacées par.... Pour le code complet, veuillez vous référer au référentiel github en haut de l'article.

Ouvrez la page Baidu Index et simulez la connexion

Ce qui est fait ici, c'est simuler les opérations de l'utilisateur, cliquer et saisir étape par étape. Il n'y a pas de gestion du

code de vérification de connexion. La gestion du code de vérification est un autre sujet. Si vous vous êtes connecté à Baidu localement, vous n'avez généralement pas besoin d'un code de vérification.

// 启动浏览器，
// headless参数如果设置为true，Puppeteer将在后台操作你Chromium，换言之你将看不到浏览器的操作过程
// 设为false则相反，会在你电脑上打开浏览器，显示浏览器每一操作。
const browser = await puppeteer.launch({headless:false});
const page = await browser.newPage();
// 打开百度指数
await page.goto(BAIDU_INDEX_URL);
// 模拟登陆
await page.click('...');
await page.waitForSelecto('...');
// 输入百度账号密码然后登录
await page.type('...','username');
await page.type('...','password');
await page.click('...');
await page.waitForNavigation();
console.log(':white_check_mark: 登录成功');

Simulez le déplacement de la souris et obtenez les données requises

需要将页面滚动到趋势图的区域，然后移动鼠标到某个日期上，等待请求结束，tooltip显示数值，再截图保存图片。

// 获取chart第一天的坐标
const position = await page.evaluate(() => {
 const $image = document.querySelector('...');
 const $area = document.querySelector('...');
 const areaRect = $area.getBoundingClientRect();
 const imageRect = $image.getBoundingClientRect();
 // 滚动到图表可视化区域
 window.scrollBy(0, areaRect.top);
 return { x: imageRect.x, y: 200 }；
});
// 移动鼠标，触发tooltip
await page.mouse.move(position.x, position.y);
await page.waitForSelector('...');
// 获取tooltip信息
const tooltipInfo = await page.evaluate(() => {
 const $tooltip = document.querySelector('...');
 const $title = $tooltip.querySelector('...');
 const $value = $tooltip.querySelector('...');
 const valueRect = $value.getBoundingClientRect();
 const padding = 5;
 return {
 title: $title.textContent.split(' ')[0],
 x: valueRect.x - padding,
 y: valueRect.y,
 width: valueRect.width + padding * 2,
 height: valueRect.height
 }
});

截图

计算数值的坐标，截图并用jimp对裁剪图片。

await page.screenshot({ path: imgPath });
// 对图片进行裁剪，只保留数字部分
const img = await jimp.read(imgPath);
await img.crop(tooltipInfo.x, tooltipInfo.y, tooltipInfo.width, tooltipInfo.height);
// 将图片放大一些，识别准确率会有提升
await img.scale(5);
await img.write(imgPath);

图像识别

这里我们用Tesseract来做图像识别，Tesseracts是Google开源的一款OCR工具，用来识别图片中的文字，并且可以通过训练提高准确率。github上已经有一个简单的node封装： node-tesseract ，需要你先安装Tesseract并设置到环境变量。

Tesseract.process(imgPath, (err, val) => {
if (err || val == null) {
 console.error(':x: 识别失败：' + imgPath);
 return;
}
console.log(val);

实际上未经训练的Tesseracts识别起来会有少数几个错误，比如把9开头的数字识别成`3，这里需要通过训练去提升Tesseracts的准确率，如果识别过程出现的问题都是一样的，也可以简单通过正则去修复这些问题。

封装

实现了以上几点后，只需组合起来就可以封装成一个百度指数爬虫node库。当然还有许多优化的方法，比如批量爬取，指定天数爬取等，只要在这个基础上实现都不难了。

const recognition = require('./src/recognition');
const Spider = require('./src/spider');
module.exports = {
 async run (word, options, puppeteerOptions = { headless: true }) {
 const spider = new Spider({ 
 imgDir, 
 ...options 
 }, puppeteerOptions);
 // 抓取数据
 await spider.run(word);
 // 读取抓取到的截图，做图像识别
 const wordDir = path.resolve(imgDir, word);
 const imgNames = fs.readdirSync(wordDir);
 const result = [];
 imgNames = imgNames.filter(item => path.extname(item) === '.png');
 for (let i = 0; i < imgNames.length; i++) {
 const imgPath = path.resolve(wordDir, imgNames[i]);
 const val = await recognition.run(imgPath);
 result.push(val);
 }
 return result;
 }
}

反爬虫

最后，如何抵挡这种爬虫呢，个人认为通过判断鼠标移动轨迹可能是一种方法。当然前端没有100%的反爬虫手段，我们能做的只是给爬虫增加一点难度。

相信看了本文案例你已经掌握了方法，更多精彩请关注php中文网其它相关文章！

Articles Liés

Voir plus