GitHub 是创新项目的宝库,尤其是在不断发展的人工智能世界中。但是要筛选无数的存储库来找到那些结合了 AI 和 JavaScript 的存储库吗?这就像在浩瀚的代码海洋中寻找宝石一样。输入我们的 Node.js 网络爬虫——一个自动搜索、提取存储库详细信息(如名称、URL 和描述)的脚本。
在本教程中,我们将构建一个利用 GitHub 的爬虫,寻找与 AI 和 JavaScript 配合使用的存储库。让我们深入研究代码并开始挖掘这些宝石。
首先为您的项目创建一个新目录并使用 npm 对其进行初始化:
mkdir github-ai-crawler cd github-ai-crawler npm init -y
接下来,安装必要的依赖项:
npm install axios cheerio
GitHub 提供了强大的搜索功能,可通过 URL 查询访问。例如,您可以使用以下查询搜索与 AI 相关的 JavaScript 存储库:
https://github.com/search?q=ai+language:javascript&type=repositories
我们的爬虫将模仿此搜索,解析结果并提取相关详细信息。
在项目目录中创建一个名为crawler.js的文件并开始编码。
const axios = require('axios'); const cheerio = require('cheerio');
我们使用 axios 来获取 GitHub 的搜索结果,并使用 Cheerio 来解析 HTML。
const SEARCH_URL = 'https://github.com/search?q=ai+language:javascript&type=repositories';
此 URL 的目标是与 AI 相关并用 JavaScript 编写的存储库。
2220 免费 资源 针对开发者! ❤️?? (每日更新)
1400 个免费 HTML 模板
351 篇免费新闻文章
67 个免费 AI 提示
315 个免费代码库
52 个适用于 Node、Nuxt、Vue 等的免费代码片段和样板!
25 个免费开源图标库
访问 dailysandbox.pro 免费访问资源宝库!
const fetchRepositories = async () => { try { // Fetch the search results page const { data } = await axios.get(SEARCH_URL); const $ = cheerio.load(data); // Load the HTML into cheerio // Extract repository details const repositories = []; $('.repo-list-item').each((_, element) => { const repoName = $(element).find('a').text().trim(); const repoUrl = `https://github.com${$(element).find('a').attr('href')}`; const repoDescription = $(element).find('.mb-1').text().trim(); repositories.push({ name: repoName, url: repoUrl, description: repoDescription, }); }); return repositories; } catch (error) { console.error('Error fetching repositories:', error.message); return []; } };
这是发生的事情:
最后,调用函数并记录结果:
mkdir github-ai-crawler cd github-ai-crawler npm init -y
保存脚本并使用 Node.js 运行它:
npm install axios cheerio
您将看到与 AI 相关的 JavaScript 存储库列表,每个存储库都有其名称、URL 和描述,整齐地显示在您的终端中。
想更进一步吗?这里有一些想法:
保存到 JSON 文件的示例:
https://github.com/search?q=ai+language:javascript&type=repositories
通过这个爬虫,您可以自动完成在 GitHub 上查找相关存储库的繁琐任务。不再需要手动浏览或无休止的点击——您的脚本会完成艰苦的工作,在几秒钟内呈现结果。
有关 Web 开发的更多技巧,请查看 DailySandbox 并注册我们的免费时事通讯以保持领先地位!
以上是在 Node.js 中构建网络爬虫以发现 GitHub 上由 AI 驱动的 JavaScript 存储库的详细内容。更多信息请关注PHP中文网其他相关文章!