簡単な検索エンジンの作り方

坏嘻嘻
坏嘻嘻オリジナル
2018-09-14 17:15:134739ブラウズ

仕事や自分自身の必要性により、必要なデータを取得するためにさまざまな Web サイトを閲覧することがあります。そこでクローラーが誕生します。以下は、私が行った単純なクローラーの開発プロセスと、遭遇した問題です。

前回、シャオバイは熱心なウェブ クローラーを手に入れたので、小さなことを続けないと申し訳ないと思ったので、さまざまな専門家からの情報をいじり始めました。は、基本原則に基づいて設計されたシンプルな検索エンジンです。

以前のクローラーは、何も処理せずに Web ページのソース コードを取得するだけでした。これは 1 回限りの小規模なクローラーであったため、Xiaobi は正規表現を使用して Web ページのコンテンツを照合して URL を取得しました。そして、小さなクローラー これを使用して、Web ページを死ぬまでクロールできます。ここで、Beautifulsoup モジュールが Web クローリングと抽出のための強力なツールであると言われているのは残念です。 Xiaobao はまだ完成していません。後で名前を聞いて試してみることができなかったことを後悔しましたが、習熟すれば、これも非常に簡単です。 Web ページのソース コードを抽出するための URL:

    link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\&#39;).+?(?=\&#39;)", html)
    这一句就提出个七七八八来,当然这么粗糙鱼目混珠的情况也是少不了的,但是还是非常好用的,
    虽然看起来很复杂但是只要掌握了(?52e6299321e87de75a2b0d13a7b81305be337b902aa7e2394219c5df34c1adf3之中,title和链接什么的也有对应的标签,
    运用正则表单式理论上可以分离出来,不过小白亲身时间发现只匹配一次效果非常不好,
    匹配的内容的确包括想要的内容,但是因为标签一般都是嵌套的嘛而且小白技术毕竟也不好正则表达式可能表述的也有问题,
    所以总是会将内容嵌套在标签中返回,这里就有一个比较笨的方法供大家参考,咳咳,
    既然一次不能得到,那么就对内容进行再匹配,咳咳,经过了三层匹配外加一些小技巧终于是勉强匹配出来了,
    这里代码过于丑陋就不再贴出来了咳咳。

関連する推奨事項:

Scrapy クローラー入門チュートリアル 4 Spider (クローラー)

php は単純なクローラーの開発を実現し、PHP はクローラーを実装します

以上が簡単な検索エンジンの作り方の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。