如何做一个简易的搜索引擎-js教程-PHP中文网

首页

web前端

js教程

如何做一个简易的搜索引擎

坏嘻嘻

Sep 14, 2018 pm 05:15 PM

有时候因为工作、自身的需求，我们都会去浏览不同网站去获取我们需要的数据，于是爬虫应运而生，下面是我在开发一个简单爬虫的经过与遇到的问题。

上一次小白已经得到了一个任劳任怨的网络小爬虫，要是不搞一波小事情似乎对不太起这个小爬虫，于是乎小白又鼓捣鼓捣参考各方大神的资料以倒排索引为基础原理设计了一个简答的搜索引擎。

之前的爬虫只是得到了网页的源码而没有做任何处理，乃是一个一次性的小爬虫，所以小白用正则表达式对网页内容进行匹配得到其中的网址，之后小爬虫就可以利用这个自生自灭至死方休的帮我们爬取网页拉，这里不得不提一下beautifulsoup和正则表达式了，据说beautifulsoup模块是一个网页爬取提取的利器，只可惜小宝在做完之后才听得大名万分遗憾没能试用一番，但是正则表达时小白可是切身的研究了一丢丢，熟练了（强行熟练）也是非常的好用，比如提取网页源码的网址：

    link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\&#39;).+?(?=\&#39;)", html)

    这一句就提出个七七八八来，当然这么粗糙鱼目混珠的情况也是少不了的，但是还是非常好用的，
    虽然看起来很复杂但是只要掌握了(?52e6299321e87de75a2b0d13a7b81305be337b902aa7e2394219c5df34c1adf3之中，title和链接什么的也有对应的标签，
    运用正则表单式理论上可以分离出来，不过小白亲身时间发现只匹配一次效果非常不好，
    匹配的内容的确包括想要的内容，但是因为标签一般都是嵌套的嘛而且小白技术毕竟也不好正则表达式可能表述的也有问题，
    所以总是会将内容嵌套在标签中返回，这里就有一个比较笨的方法供大家参考，咳咳，
    既然一次不能得到，那么就对内容进行再匹配，咳咳，经过了三层匹配外加一些小技巧终于是勉强匹配出来了，
    这里代码过于丑陋就不再贴出来了咳咳。

相关推荐：

Scrapy爬虫入门教程四 Spider（爬虫）

php实现简单爬虫的开发，php实现爬虫

以上是如何做一个简易的搜索引擎的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python vs. JavaScript：学习曲线和易用性Apr 16, 2025 am 12:12 AM

Python更适合初学者，学习曲线平缓，语法简洁；JavaScript适合前端开发，学习曲线较陡，语法灵活。1.Python语法直观，适用于数据科学和后端开发。2.JavaScript灵活，广泛用于前端和服务器端编程。

Python vs. JavaScript：社区，图书馆和资源Apr 15, 2025 am 12:16 AM

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好，适合初学者，但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大，JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富，但Python适合从官方文档开始，JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

从C/C到JavaScript：所有工作方式Apr 14, 2025 am 12:05 AM

从C/C 转向JavaScript需要适应动态类型、垃圾回收和异步编程等特点。1）C/C 是静态类型语言，需手动管理内存，而JavaScript是动态类型，垃圾回收自动处理。2）C/C 需编译成机器码，JavaScript则为解释型语言。3）JavaScript引入闭包、原型链和Promise等概念，增强了灵活性和异步编程能力。

JavaScript引擎：比较实施Apr 13, 2025 am 12:05 AM

不同JavaScript引擎在解析和执行JavaScript代码时，效果会有所不同，因为每个引擎的实现原理和优化策略各有差异。1.词法分析：将源码转换为词法单元。2.语法分析：生成抽象语法树。3.优化和编译：通过JIT编译器生成机器码。4.执行：运行机器码。V8引擎通过即时编译和隐藏类优化，SpiderMonkey使用类型推断系统，导致在相同代码上的性能表现不同。

超越浏览器：现实世界中的JavaScriptApr 12, 2025 am 12:06 AM

JavaScript在现实世界中的应用包括服务器端编程、移动应用开发和物联网控制：1.通过Node.js实现服务器端编程，适用于高并发请求处理。2.通过ReactNative进行移动应用开发，支持跨平台部署。3.通过Johnny-Five库用于物联网设备控制，适用于硬件交互。

使用Next.js（后端集成）构建多租户SaaS应用程序Apr 11, 2025 am 08:23 AM

我使用您的日常技术工具构建了功能性的多租户SaaS应用程序（一个Edtech应用程序），您可以做同样的事情。首先，什么是多租户SaaS应用程序？多租户SaaS应用程序可让您从唱歌中为多个客户提供服务

如何使用Next.js（前端集成）构建多租户SaaS应用程序Apr 11, 2025 am 08:22 AM

本文展示了与许可证确保的后端的前端集成，并使用Next.js构建功能性Edtech SaaS应用程序。前端获取用户权限以控制UI的可见性并确保API要求遵守角色库

JavaScript：探索网络语言的多功能性Apr 11, 2025 am 12:01 AM

JavaScript是现代Web开发的核心语言，因其多样性和灵活性而广泛应用。1)前端开发：通过DOM操作和现代框架（如React、Vue.js、Angular）构建动态网页和单页面应用。2)服务器端开发：Node.js利用非阻塞I/O模型处理高并发和实时应用。3)移动和桌面应用开发：通过ReactNative和Electron实现跨平台开发，提高开发效率。

See all articles