elasticsearch中国語検索:アナライザーとベストプラクティス
特に英語以外の言語を扱う場合、分析と辞書化は、Elasticsearchのコンテンツインデックスにおいて重要です。中国人にとって、このプロセスは、漢字の特性と単語と文の間のスペースの欠如のためにさらに複雑です。
この記事では、デフォルトの中国のアナライザー、貧困プラグイン、CJKアナライザー、SmartCNアナライザー、ICUプラグインなど、ElasticSearchの中国コンテンツを分析するためのいくつかのソリューションについて説明し、その利点と短所と適用シナリオを分析します。
中国の検索の課題
漢字は、単語または形態素(言語で最小の意味のある単位)を表す表意文字です。結合すると、その意味は変化し、完全に新しい単語を表します。もう1つの困難は、単語と文の間にスペースがないことです。これにより、コンピューターが単語の始まりと終了場所を知ることが困難になります。マンダリン(中国語公式言語と世界で最も広く使用されている中国語)のみを考慮しても、実際に中国語を書いていても、3〜4,000人を知る必要があります。漢字。たとえば、「火山」(火山)は、実際には次の2つの漢字の組み合わせです。
火:火
- 山:山
- 私たちの単語分詞は、これらの2つの漢字を分離するのを避けるのに十分賢くなければなりません。なぜなら、その意味は分離されているときとは異なるからです。
もう1つの難しさは、使用されるスペルバリアントです:
単純化された中国人:書道
- 伝統的な中国人、より複雑で豊かな:帳簿
- ピンイン、マンダリンのロマン化された形:shūfǎ
- ElasticSearchの中国人アナライザー
アナライザー
- プラグインは、もはや維持されていませんが、非常に優れた辞書に基づいています
-
Chinese
アナライザー、 -
paoding
アナライザー、正式にサポートされているプラグイン ICUプラグインとその単語セグメンテーションデバイス。 -
cjk
これらのアナライザーは大きく異なり、そのパフォーマンスを単純なテスト単語「携帯電話」と比較します。 「携帯電話」とは、「携帯電話」を意味します。これは、「ハンド」と「モバイル」を表す2つの漢字で構成されています。 「ji」という言葉は、他の多くの単語も構成します: -
smartcn
フライト:航空券 - ロボット:ロボット
機関銃:機関銃
- 機会:機会
- 「携帯電話」を検索した場合、Ramboが機関銃を所有していることに関するドキュメントが必要ないため、
- APIを使用してこれらのソリューションをテストします。
-
デフォルト
Chinese
アナライザー:すべての漢字を単語要素に分割するだけです。したがって、携帯電話と携帯電話の2つの語彙要素が得られます。 ElasticSearchのstandard
アナライザーは、まったく同じ出力を生成します。したがって、Chinese
は非推奨であり、まもなくstandard
に置き換えられ、避ける必要があります。 -
paoding
プラグイン:paoding
ほとんど業界標準であり、エレガントなソリューションと見なされます。残念ながら、ElasticSearchのプラグインは維持されておらず、いくつかの変更後にバージョン1.0.1でのみ実行できます。 (インストール手順は省略されており、元のテキストが提供されます)インストール後、新しいpaoding
ワードセグメントターと2つのコレクターの2つのコレクターを取得します。デフォルトでは、パブリックアナライザーがないため、新しいアナライザーを宣言する必要があります。 (構成手順は省略され、元のテキストが提供されます)両方の構成は、明確で一意の語彙要素で良い結果を提供します。また、より複雑な文を扱うときも非常にうまく振る舞います。max_word_len
most_word
-
アナライザー:テキストのみをバイナリに変換する非常に簡単なアナライザー。 「携帯電話」は
cjk
のみですが、これは良いことですが、「ランタンフェスティバル」(ランタンフェスティバル)などの長い単語を使用すると、ランタンフェスティバルとXiaoフェスティバルの2つの単語が生成されます。それぞれ「Xiao Festival」。手机
-
プラグイン:非常に簡単にインストールできます。 (インストール手順は省略されており、元のテキストが提供されています)Luceneの
smartcn
を使用して、新しいAnalyzerとsmartcn
wordセグメントターを公開します。確率スイートを使用して、非表示のマルコフモデルと大量のトレーニングテキストを使用して、単語の最適なセグメンテーションを見つけます。したがって、かなり優れたトレーニング辞書が組み込まれています。私たちの例は正確に分解されています。smartcn_tokenizer
SmartChineseAnalyzer
- ICUプラグイン:
別の公式プラグイン。 (インストール手順は省略されており、元のテキストが提供されます)英語以外の言語を扱う場合は、このプラグインを使用することをお勧めします。 、、
icu_tokenizer
、icu_normalizer
などの多くの強力な分析ツールと、icu_folding
単語セグメントターを開示します。単語頻度に関する情報を含む中国語と日本の辞書を使用して、漢字グループを推測します。 「携帯電話」では、すべてが正常であり、期待どおりに機能しますが、「ランタンフェスティバル」では、ランタンフェスティバルとフェスティバルの2つの単語が制作されます。これは、「ランタンフェスティバル」と「フェスティバル」が「ランタンフェスティバル」よりも重要だからです。 "。 一般。icu_collation
結果の比較(省略されたフォーム、元のテキストが提供) 私の観点からは、
とが最良の結果を得ました。 paoding
分詞という言葉は非常に悪いです、smartcn
は「ランタンフェスティバル」で少しがっかりしていますが、伝統的な中国人に対処するのは非常に得意です。 chinese
icu_tokenizer
ドキュメントまたはユーザー検索リクエストから従来の中国語を処理する必要がある場合があります。これらの従来の入力を現代の中国語に変換するための正規化ステップが必要です。 アプリケーションを介して処理するか、 最後のソリューションは、 さらなる改善 ElasticSearch分析に最適な普遍的なソリューションはありません。また、中国語も例外ではありません。取得した情報に基づいて、独自のアナライザーを組み合わせて構築する必要があります。たとえば、マルチフィールドとマルチマッチクエリを使用して、検索フィールドに (FAQパートが省略され、元のテキストが提供)smartcn
やpaoding
などのプラグインが正しく処理しないためです。 elasticsearch-analysis-stconvert
プラグインを使用してElasticSearchで直接処理してみてください。従来のキャラクターと単純化されたキャラクターを両方向に変換できます。 (インストール手順は省略されており、元のテキストが提供されています)cjk
:正しく分詞を入力できない場合、必要なドキュメントをキャプチャしてからicu_tokenizer
(非常に良い)を使用して関連性を向上させる可能性が非常に高いです。 cjk
およびsmartcn
分詞を使用します。
以上がElasticSearchを使用した効率的な中国の検索の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

PhpisusedForsedingEmailsDueToitsIttegration withServerMailServicesAndExternalSmtpproviders、自動化とMarketingCampaign.1)SetupYourphpenvironment withebeBironment witheBiserverandphp、保証

メールを送信する最良の方法は、PHPMailerライブラリを使用することです。 1)Mail()関数を使用することはシンプルですが信頼できないため、電子メールがスパムを入力するか、配信できない場合があります。 2)PHPMailerは、より良い制御と信頼性を提供し、HTMLメール、添付ファイル、SMTP認証をサポートします。 3)SMTP設定が正しく構成されていることを確認し、暗号化(StartTLSやSSL/TLSなど)を使用してセキュリティを強化します。 4)大量の電子メールについては、メールキューシステムを使用してパフォーマンスを最適化することを検討してください。

customedersandaddadvancedfeaturesinphpemailentalitylivainability.1)customederadddetadata fortrackingandcategorization.2)htmLemailsallowStingtintintintintintinteractivity.3)添付物質の添付物質の添付

PHPとSMTPを使用してメールを送信することは、PHPMailerライブラリを介して実現できます。 1)PHPMailerをインストールして構成する、2)SMTPサーバーの詳細を設定する、3)電子メールコンテンツを定義し、4)メールを送信してエラーを処理します。この方法を使用して、電子メールの信頼性とセキュリティを確保します。

BestappRoachforseminginphpisusingthephpmailerlibrarydueToitsReliability、featurrichness、andeaseofuse.phpmailerSupportssmtpは、detairederorhandlingを提供します

依存関係注射(DI)を使用する理由は、コードのゆるい結合、テスト可能性、および保守性を促進するためです。 1)コンストラクターを使用して依存関係を注入します。2)サービスロケーターの使用を避け、3)依存関係噴射コンテナを使用して依存関係を管理する、4)依存関係を注入することでテスト可能性を向上させる、5)注入依存性を回避、6)パフォーマンスに対するDIの影響を考慮します。

phpperformancetuningisucial cuseenhancess andandandadsand。

bestpracticesforsendingemails securlyinphpinclude:1)sutureconsmttarttlsencryptionとの使用の使用、2)検証およびサンシジン化のinputStopReventinjectuctacks、3)adinitivedinitivedInemailsopenslsl、4)adlinglinglingemailoaに


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

Dreamweaver Mac版
ビジュアル Web 開発ツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。
