検索エンジンの Python 実装 (Pylucene) サンプルチュートリアル-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

検索エンジンの Python 実装 (Pylucene) サンプルチュートリアル

零下一度

Jul 18, 2017 am 10:12 AM

python検索エンジン

ドキュメント、ドキュメントクラス。 Pylucene におけるインデックス作成の基本単位は「ドキュメント」です。ドキュメントとは、Web ページ、記事、または電子メールのことです。ドキュメントはインデックスの構築に使用される単位であり、検索時の結果の単位でもあります。これを適切に設計すると、パーソナライズされた検索サービスを提供できます。
ファイルされた、ドメインクラス。ドキュメントには複数のフィールド (フィールド) を含めることができます。記事が記事タイトル、記事本文、著者、発行日などの複数のファイルで構成されるのと同じように、Filed はドキュメントのコンポーネントです。
ページをドキュメントとして扱います。ドキュメントには、ページの URL アドレス (url)、ページのタイトル (title)、ページの本文コンテンツ (content) の 3 つのフィールドが含まれます。インデックスの保存方法として、SimpleFSDirectory クラスを使用してインデックスをファイルに保存することを選択します。アナライザーは Pylucene が付属する CJKAnalyzer を選択します。このアナライザーは中国語を適切にサポートしており、中国語コンテンツのテキスト処理に適しています。
検索エンジンとは何ですか?

検索エンジンは、「ネットワーク情報リソースを収集および整理し、情報収集、情報分類、およびユーザークエリの3つの部分を含む情報クエリサービスを提供するシステム」です。図 1 は、検索エンジンの一般的な構造です。情報収集モジュールは、インターネットからネットワーク情報データベースに情報を収集し (通常はクローラを使用します)、その後、情報分類モジュールが単語の分割、ストップワードの削除、重み付けなどの操作を実行します。収集された情報。インデックステーブル (通常は逆インデックス) を確立してインデックスライブラリを形成します。最後に、ユーザークエリモジュールがユーザーの検索ニーズを特定し、検索サービスを提供します。

図 1 検索エンジンの一般的な構造

2. Python を使用して単純な検索エンジンを実装する

2.1 問題分析

図 1 から、完全な検索エンジンアーキテクチャは、インターネット。Python を使用してクローラーを作成します。これが Python の強みです。

次に、情報処理モジュールです。分詞？言葉を止めますか？逆さテーブル？何？この混乱は何ですか？心配しないでください。私たちは前任者によって作成されたホイールを備えています。Pylucene (lucene の Python パッケージバージョンです。Lucene は、開発者がソフトウェアやシステムに検索機能を追加するのに役立ちます。Lucene は、完全な機能を備えたオープンソースライブラリのセットです)。テキストの取得と検索）。 Pylucene を使用すると、インデックスの作成や検索など、収集した情報の処理に簡単に役立ちます。

最後に、Web ページで検索エンジンを使用するために、軽量 Web アプリケーションフレームワークである flask を使用して、検索ステートメントとフィードバック検索結果を取得するための小さな Web ページを作成します。

2.2 クローラーの設計

主に次のコンテンツを収集します: ターゲット Web ページのタイトル、ターゲット Web ページの本文コンテンツ、ターゲット Web ページが指す他のページの URL アドレス。 Web クローラーのワークフローを図 2 に示します。クローラーの主なデータ構造はキューです。まず、最初のシードノードがキューに入り、キューからノードを取り出してアクセスし、ノードページ上のターゲット情報を取得します。次に、他のページを指すノードページの URL リンクをキューに入れ、キューから新しいノードが削除され、キューが空になるまでノードがアクセスされます。キューの「先入れ先出し」機能により、幅優先トラバーサルアルゴリズムが実装され、サイトの各ページに 1 つずつアクセスします。

ディレクトリ、アナライザー、IndexWriter、ドキュメント、およびファイル。

Directory は、ファイル操作のための Pylucene のクラスです。 SimpleFSDirectory、RAMDirectory、CompoundFileDirectory、FileSwitchDirectory など 11 個のサブクラスがあり、リストされているのはインデックスディレクトリの保存に関連するサブクラスです。RAMDirectory はインデックスを RAM メモリに保存します。複合インデックス保存メソッドと FileSwitchDirectory により、インデックス保存メソッドを一時的に切り替えて、さまざまなインデックス保存メソッドを利用できます。

アナライザー、アナライザー。クローラーが取得したテキストをインデックス処理するクラスです。テキストの単語の分割、ストップワードの削除、大文字と小文字の変換などの操作が含まれます。 Pylucene にはいくつかのアナライザーが付属しており、インデックスを構築するときにサードパーティのアナライザーや自作のアナライザーを使用することもできます。アナライザーの品質は、インデックス構築の品質と、検索サービスが提供できる精度と速度に関係します。

IndexWriter、インデックス作成クラス。 Directory によって開かれた記憶域では、IndexWriter はインデックスの書き込み、変更、追加、削除などの操作を実行できますが、インデックスの読み取りや検索はできません。

ドキュメント、ドキュメントクラス。 Pylucene におけるインデックス作成の基本単位は「ドキュメント」です。ドキュメントとは、Web ページ、記事、または電子メールのことです。ドキュメントはインデックスの構築に使用される単位であり、検索時の結果の単位でもあります。これを適切に設計すると、パーソナライズされた検索サービスを提供できます。

ファイルされた、ドメインクラス。ドキュメントには複数のフィールド (フィールド) を含めることができます。記事が記事タイトル、記事本文、著者、発行日などの複数のファイルで構成されるのと同じように、Filed はドキュメントのコンポーネントです。

ページをドキュメントとして扱います。ドキュメントには、ページの URL アドレス (url)、ページのタイトル (title)、ページのメインテキストコンテンツ (content) の 3 つのフィールドが含まれます。インデックスの保存方法として、SimpleFSDirectory クラスを使用してインデックスをファイルに保存することを選択します。アナライザーは Pylucene が付属する CJKAnalyzer を選択します。このアナライザーは中国語を適切にサポートしており、中国語コンテンツのテキスト処理に適しています。

Pylucene を使用してインデックスを構築する具体的な手順は次のとおりです:

lucene.initVM()
INDEXIDR = self.__index_dir
indexdir = SimpleFSDirectory(File(INDEXIDR))①
analyzer = CJKAnalyzer(Version.LUCENE_30)②
index_writer = IndexWriter(indexdir, analyzer, True, IndexWriter.MaxFieldLength(512))③
document = Document()④
document.add(Field("content", str(page_info["content"]), Field.Store.NOT, Field.Index.ANALYZED))⑤
document.add(Field("url", visiting, Field.Store.YES, Field.Index.NOT_ANALYZED))⑥
document.add(Field("title", str(page_info["title"]), Field.Store.YES, Field.Index.ANALYZED))⑦
index_writer.addDocument(document)⑧
index_writer.optimize()⑨
index_writer.close()⑩

インデックスを構築するには 10 の主な手順があります:

①SimpleFSDirectory オブジェクトをインスタンス化し、インデックスをローカルファイルに保存し、パスカスタマイズされたパス「INDEXIDR」の場合。

②CJKAnalyzerアナライザーをインスタンス化します。インスタンス化時のパラメーターVersion.LUCENE_30は、Pyluceneのバージョン番号です。

③ IndexWriter オブジェクトをインスタンス化します。渡される 4 つのパラメーターは、以前にインスタンス化された SimpleFSDirectory オブジェクトと CJKAnalyzer アナライザーで、新しいインデックスの作成を示します (フィールド数)。。

④Document オブジェクトをインスタンス化し、それに document という名前を付けます。

⑤「content」という名前のドメインをドキュメントに追加します。このフィールドの内容は、クローラーによって取得された Web ページのメインテキストコンテンツです。この操作のパラメータは、インスタンス化されてすぐに使用される Field オブジェクトです。Field オブジェクトの 4 つのパラメータは次のとおりです:

(1) "コンテンツ"、ドメインの名前。

(2) page_info["content"]、クローラーによって収集された Web ページのメインテキストコンテンツ。

(3) Field.Store は、このフィールドの値を元の文字に戻すことができるかどうかを示すために使用される変数です。 Field.Store.YES は、このフィールドに格納されている内容を元のテキストの内容に戻すことができることを意味します。 Field.Store.NOT は回復不可能を意味します。

(4) Field.Index 変数は、フィールドの内容をアナライザーで処理するかどうかを示します。Field.ANALYZED は、このフィールドの文字を処理するためにアナライザーが使用されることを示します。このフィールドの文字の処理には使用されません。

⑥ページアドレスを保存するために「url」という名前のドメインを追加します。

⑦ページのタイトルを保存するために「title」という名前のフィールドを追加します。

⑧IndexWriterオブジェクトをインスタンス化して、ドキュメントドキュメントをインデックスファイルに書き込みます。

⑨ インデックスライブラリファイルを最適化し、インデックスライブラリ内の小さなファイルを大きなファイルにマージします。

⑩インデックス構築操作が 1 サイクルで完了したら、IndexWriter オブジェクトを閉じます。

Pylucene のインデックス検索用の主なクラスには、IndexSearcher、Query、QueryParser などがあります[16]。

IndexSearcher、インデックス検索クラス。 IndexWriter によって構築されたインデックスライブラリで検索操作を実行するために使用されます。

Query、クエリリクエストを記述するクラス。クエリ要求を IndexSearcher に送信して、検索操作を完了します。クエリには、さまざまなクエリ要求を完了するための多くのサブクラスがあります。たとえば、TermQuery は、最も基本的で単純なクエリタイプであり、指定されたドメイン内の特定の項目とドキュメントを一致させるために使用されます。RangeQuery は、指定された範囲内で検索され、特定の範囲内のドキュメントを一致させるために使用されます。指定されたドメイン; ファジークエリである FuzzyQuery は、クエリキーワードに意味的に類似する同義語の一致を簡単に識別できます。

QueryParser、クエリパーサー。さまざまなクエリ要件を実装する必要がある場合は、Query が提供するさまざまなサブクラスを使用する必要があるため、Query の使用時に混乱が生じやすくなります。したがって、Pylucene はクエリパーサー QueryParser も提供します。 QueryParser は、送信された Query ステートメントを解析し、Query 構文に従って適切な Query サブクラスを選択して、対応するクエリを完成させることができます。開発者は、下部でどの Query 実装クラスが使用されているかを気にする必要はありません。たとえば、クエリステートメント「キーワード 1 とキーワード 2」は、QueryParser によって解析され、キーワード 1 とキーワード 2 の両方に一致するドキュメントがクエリされます。クエリステートメント「id[123 to 456]」は、QueryParser によって解析され、名前が「id」であるドメインがクエリされます。値が指定された範囲「123」から「456」内にあるドキュメント。クエリステートメント「キーワード site:www.web.com」。QueryParser は、「site」という名前のドメイン内の「www.web」の値も満たすクエリを解析します。「.com」と「キーワード」の 2 つのクエリ条件に一致するドキュメント。

インデックス検索は、Pylucene が重点を置いている領域の 1 つです。インデックス検索を実装するためにクエリと呼ばれるクラスが作成されます。クエリには、インデックス検索を実装するための主な手順が 7 つあります。 :

① まず、検索ステートメントがタイトルまたは記事内容に対する単一のドメインクエリではない場合、つまりキーワード「タイトル:」または「コンテンツ:」が含まれていない場合、2 つのドメインを判定します。デフォルトでは、タイトルとコンテンツが検索されます。

②SimpleFSDirectory オブジェクトをインスタンス化し、その作業パスを以前にインデックスが作成されたパスとして指定します。

③实例化一个CJKAnalyzer分析器，搜索时使用的分析器应与索引构建时使用的分析器在类型版本上均一致。

④实例化一个IndexSearcher对象lucene_searcher，它的参数为第○2步的SimpleFSDirectory对象。

⑤实例化一个QueryParser对象my_query，它描述查询请求，解析Query查询语句。参数Version.LUCENE_CURRENT为pylucene的版本号，“title”指默认的搜索域，lucene_analyzer指定了使用的分析器，query_str是Query查询语句。在实例化QueryParser前会对用户搜索请求作简单处理，若用户指定了搜索某个域就搜索该域，若用户未指定则同时搜索“title”和“content”两个域。

⑥lucene_searcher进行搜索操作，返回结果集total_hits。total_hits中包含结果总数totalHits，搜索结果的文档集scoreDocs，scoreDocs中包括搜索出的文档以及每篇文档与搜索语句相关度的得分。

⑦lucene_searcher搜索出的结果集不能直接被Python处理，因而在搜索操作返回结果之前应将结果由Pylucene转为普通的Python数据结构。使用For循环依次处理每个结果，将结果文档按相关度得分高低依次将它们的地址域“url”的值放入Python列表result_urls，将标题域“title”的值放入列表result_titles。最后将包含地址、标题的列表和结果总数组合成一个Python“字典”，将最后处理的结果作为整个搜索操作的返回值。

用户在浏览器搜索框输入搜索词并点击搜索，浏览器发起一个GET请求，Flask的路由route设置了由result函数响应该请求。result函数先实例化一个搜索类query的对象infoso，将搜索词传递给该对象，infoso完成搜索将结果返回给函数result。函数result将搜索出来的页面和结果总数等传递给模板result.html，模板result.html用于呈现结果

如下是Python使用flask模块处理搜索请求的代码：

app = Flask(__name__)#创建Flask实例

@app.route('/')#设置搜索默认主页

def index():
html="<h1 id="title这是标题">title这是标题</h1>"
return render_template(&#39;index.html&#39;)
@app.route("/result",methods=[&#39;GET&#39;, &#39;POST&#39;])#注册路由，并指定HTTP方法为GET、POST
def result(): #resul函数
if request.method=="GET":#响应GET请求
key_word=request.args.get(&#39;word&#39;)#获取搜索语句
   if len(key_word)!=0:
      infoso = query("./glxy") #创建查询类query的实例
       re = infoso.search(key_word)#进行搜索，返回结果集
       so_result=[]
       n=0
       for item in re["url"]:
temp_result={"url":item,"title":re["title"][n]}#将结果集传递给模板
        so_result.append(temp_result)
                n=n+1
        return render_template(&#39;result.html&#39;, key_word=key_word, result_sum=re["Hits"],result=so_result)
    else:
        key_word=""
    return render_template(&#39;result.html&#39;)
if __name__ == &#39;__main__&#39;:
    app.debug = True
    app.run()#运行web服务

以上が検索エンジンの Python 実装 (Pylucene) サンプルチュートリアルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PythonスクリプトがUNIXで実行されない可能性がある一般的な理由は何ですか？Apr 28, 2025 am 12:18 AM

PythonスクリプトがUNIXシステムで実行できない理由には、次のものが含まれます。1）CHMOD XYOUR_SCRIPT.PYを使用して実行権限を付与する不十分な権限。 2）shebangラインが正しくないか欠落している場合、＃！/usr/bin/envpythonを使用する必要があります。 3）環境可変設定が誤っていない場合、OS.Environデバッグを印刷できます。 4）間違ったPythonバージョンを使用して、Shebangラインまたはコマンドラインでバージョンを指定できます。 5）仮想環境を使用して依存関係を分離する依存関係の問題。 6）構文エラー、python-mpy_compileyour_script.pyを使用して検出します。

Pythonアレイを使用することがリストを使用するよりも適切なシナリオの例を挙げてください。Apr 28, 2025 am 12:15 AM

Pythonアレイの使用は、リストよりも大量の数値データの処理に適しています。 1）配列を保存するメモリを保存します。2）アレイは数値的な値で動作するのが高速です。3）アレイフォースタイプの一貫性、4）アレイはCアレイと互換性がありますが、リストほど柔軟で便利ではありません。

Pythonでリストと配列を使用することのパフォーマンスへの影響は何ですか？Apr 28, 2025 am 12:10 AM

listSareのより良い前提条件とmixdatatypes、whilearraysares優れたスナリカル計算砂の砂を大きくしたデータセット。

Numpyは、大きな配列のメモリ管理をどのように処理しますか？Apr 28, 2025 am 12:07 AM

numpymanagesmemoryforlargearrayseffictificleusing biews、copies、andmemory-mappedfiles.1）rewsinging withotingcopying、directmodifying theoriginalArray.2）copiescanbecreatedwithcopy（）methodforpreservingdata.3）Memory-MapplehandLemassiutasedatasetasedatasetasetasetasetasetasedas

モジュールのインポートが必要なのはどれですか：リストまたは配列は？Apr 28, 2025 am 12:06 AM

listsinpythondonotrequireimportingamodule、whilearrays fromthearraymoduledoneedanimport.1）listsarebuiltin、versatile、andcanholdmixeddatypes.2）araysaremoremory-efficient-fornumerumerumerumerumerumerdatabutでき、対象となるンドベフェフサメタイプ。

どのデータ型をPythonアレイに保存できますか？Apr 27, 2025 am 12:11 AM

Pythonlistscanstoreanydatatype,arraymodulearraysstoreonetype,andNumPyarraysarefornumericalcomputations.1)Listsareversatilebutlessmemory-efficient.2)Arraymodulearraysarememory-efficientforhomogeneousdata.3)NumPyarraysareoptimizedforperformanceinscient

Pythonアレイに間違ったデータ型の値を保存しようとするとどうなりますか？Apr 27, 2025 am 12:10 AM

heouttemptemptostoreavure ofthewrongdatatypeinapythonarray、yure counteractypeerror.thisduetothearraymodule'sstricttypeeencultionyを使用します

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

Dreamweaver Mac版

ビジュアル Web 開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。