搜尋
首頁後端開發php教程有效的中文搜索與Elasticsearch

Elasticsearch 中文搜索:分析器與最佳實踐

Elasticsearch 的內容索引中,分析和詞元化至關重要,尤其處理非英語語言時。對於中文,由於漢字的特性以及詞句之間缺乏空格,這一過程更為複雜。

本文探討 Elasticsearch 中分析中文內容的幾種方案,包括默認的中文分析器、paoding 插件、cjk 分析器、smartcn 分析器和 ICU 插件,並分析其優缺點及適用場景。

中文搜索的挑戰

漢字是表意文字,代表一個詞或語素(語言中最小的有意義單位)。組合在一起,其含義會發生變化,代表一個全新的詞。另一個難點是詞句之間沒有空格,這使得計算機很難知道一個詞從哪裡開始,到哪裡結束。

即使只考慮普通話(中國官方語言,也是世界上使用最廣泛的漢語),也有數万個漢字,即使實際書面漢語只需要認識三千到四千個漢字。例如,“火山”(火山)實際上是以下兩個漢字的組合:

  • 火:火
  • 山:山

我們的分詞器必須足夠聰明,避免將這兩個漢字分開,因為它們組合在一起的意義與分開時不同。

另一個難點是使用的拼寫變體:

  • 簡體中文:書法
  • 繁體中文,更複雜、更豐富:書法
  • 拼音,普通話的羅馬化形式:shū fǎ

Elasticsearch 中的中文分析器

目前,Elasticsearch 提供以下幾種中文分析器:

  • 默認的 Chinese 分析器,基於 Lucene 4 中已棄用的類;
  • paoding 插件,雖然不再維護,但基於非常好的詞典;
  • cjk 分析器,它對內容進行二元組化;
  • smartcn 分析器,一個官方支持的插件;
  • ICU 插件及其分詞器。

這些分析器的差異很大,我們將通過一個簡單的測試詞“手機”來比較它們的性能。 “手機”的意思是“手機”,它由兩個漢字組成,分別表示“手”和“機”。 “機”字還構成許多其他詞:

  • 機票:機票
  • 機器人:機器人
  • 機槍:機槍
  • 機遇:機遇

我們的分詞不能拆分這些漢字,因為如果我搜索“手機”,我不希望出現關於 Rambo 擁有機槍的任何文檔。

我們將使用強大的 _analyze API 測試這些方案:

curl -XGET 'http://localhost:9200/chinese_test/_analyze?analyzer=paoding_analyzer1' -d '手机'

Efficient Chinese Search with Elasticsearch

  • 默認的 Chinese 分析器: 它只將所有漢字分成詞元。因此,我們得到兩個詞元:手和機。 Elasticsearch 的 standard 分析器產生完全相同的輸出。因此,Chinese 已棄用,很快將被 standard 取代,應避免使用。

  • paoding 插件: paoding 幾乎是行業標準,被認為是一種優雅的解決方案。不幸的是,Elasticsearch 的插件沒有維護,我只能在經過一些修改後才能在 1.0.1 版本上運行它。 (安裝步驟略,原文已提供)安裝後,我們得到了一個新的 paoding 分詞器和兩個收集器:max_word_lenmost_word。默認情況下沒有公開分析器,因此我們必須聲明一個新的分析器。 (配置步驟略,原文已提供)兩種配置都提供了良好的結果,具有清晰且唯一的詞元。在處理更複雜的句子時,其行為也非常好。

  • cjk 分析器: 非常簡單的分析器,它只將任何文本轉換成二元組。 “手機”只索引手机,效果不錯,但如果我們使用更長的詞,例如“元宵節”(元宵節),則會生成兩個詞元:元宵和宵節,分別表示“元宵”和“宵節”。

  • smartcn 插件: 非常易於安裝。 (安裝步驟略,原文已提供)它公開了一個新的 smartcn 分析器,以及 smartcn_tokenizer 分詞器,使用 Lucene 的 SmartChineseAnalyzer。它使用概率套件來查找單詞的最佳分割,使用隱馬爾可夫模型和大量的訓練文本。因此,已經嵌入了一個相當好的訓練詞典——我們的示例被正確地分詞了。

  • ICU 插件: 另一個官方插件。 (安裝步驟略,原文已提供)如果您處理任何非英語語言,建議使用此插件。它公開了一個 icu_tokenizer 分詞器,以及許多強大的分析工具,如 icu_normalizericu_foldingicu_collation 等。它使用中文和日文字典,其中包含有關詞頻的信息,以推斷漢字組。在“手機”上,一切正常,並且按預期工作,但在“元宵節”上,會產生兩個詞元:元宵和節——這是因為“元宵”和“節”比“元宵節”更常見。

結果比較 (表格略,原文已提供)

從我的角度來看,paodingsmartcn 獲得了最佳結果。 chinese 分詞器非常糟糕,icu_tokenizer 在“元宵節”上有點令人失望,但在處理繁體中文方面表現非常好。

繁體中文支持

您可能需要處理來自文檔或用戶搜索請求的繁體中文。您需要一個規範化步驟將這些繁體輸入轉換為現代中文,因為像 smartcnpaoding 這樣的插件無法正確處理它。

您可以通過您的應用程序進行處理,或者嘗試使用 elasticsearch-analysis-stconvert 插件直接在 Elasticsearch 中進行處理。它可以雙向轉換繁體字和簡體字。 (安裝步驟略,原文已提供)

最後一種解決方案是使用 cjk:如果您無法正確分詞輸入,您仍然很有可能捕獲所需的文檔,然後使用 icu_tokenizer(也相當好)來提高相關性。

進一步的改進

對於 Elasticsearch 的分析,沒有完美的萬能解決方案,中文也不例外。您必鬚根據獲得的信息來組合和構建自己的分析器。例如,我在搜索字段上使用 cjksmartcn 分詞,使用多字段和多匹配查詢。

(FAQ 部分略,原文已提供)

以上是有效的中文搜索與Elasticsearch的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
unset()和session_destroy()有什麼區別?unset()和session_destroy()有什麼區別?May 04, 2025 am 12:19 AM

Thedifferencebetweenunset()andsession_destroy()isthatunset()clearsspecificsessionvariableswhilekeepingthesessionactive,whereassession_destroy()terminatestheentiresession.1)Useunset()toremovespecificsessionvariableswithoutaffectingthesession'soveralls

在負載平衡的情況下,什麼是粘性會話(會話親和力)?在負載平衡的情況下,什麼是粘性會話(會話親和力)?May 04, 2025 am 12:16 AM

stickysessensureuserRequestSarerOutedTothesMeServerForsessionDataConsisterency.1)sessionIdentificeAssificationAssigeaSsignAssignSignSuserServerServerSustersusiseCookiesorUrlModifications.2)一致的ententRoutingDirectSsssssubsequeSssubsequeSubsequestrequestSameSameserver.3)loadBellankingDisteributesNebutesneNewuserEreNevuseRe.3)

PHP中有哪些不同的會話保存處理程序?PHP中有哪些不同的會話保存處理程序?May 04, 2025 am 12:14 AM

phpoffersvarioussessionsionsavehandlers:1)文件:默認,簡單的ButMayBottLeneckonHigh-trafficsites.2)Memcached:高性能,Idealforsforspeed-Criticalapplications.3)REDIS:redis:similartomemememememcached,withddeddeddedpassistence.4)withddeddedpassistence.4)databases:gelifforcontrati forforcontrati,有用

PHP中的會話是什麼?為什麼使用它們?PHP中的會話是什麼?為什麼使用它們?May 04, 2025 am 12:12 AM

PHP中的session是用於在服務器端保存用戶數據以在多個請求之間保持狀態的機制。具體來說,1)session通過session_start()函數啟動,並通過$_SESSION超級全局數組存儲和讀取數據;2)session數據默認存儲在服務器的臨時文件中,但可通過數據庫或內存存儲優化;3)使用session可以實現用戶登錄狀態跟踪和購物車管理等功能;4)需要注意session的安全傳輸和性能優化,以確保應用的安全性和效率。

說明PHP會話的生命週期。說明PHP會話的生命週期。May 04, 2025 am 12:04 AM

PHPsessionsstartwithsession_start(),whichgeneratesauniqueIDandcreatesaserverfile;theypersistacrossrequestsandcanbemanuallyendedwithsession_destroy().1)Sessionsbeginwhensession_start()iscalled,creatingauniqueIDandserverfile.2)Theycontinueasdataisloade

絕對會話超時有什麼區別?絕對會話超時有什麼區別?May 03, 2025 am 12:21 AM

絕對會話超時從會話創建時開始計時,閒置會話超時則從用戶無操作時開始計時。絕對會話超時適用於需要嚴格控制會話生命週期的場景,如金融應用;閒置會話超時適合希望用戶長時間保持會話活躍的應用,如社交媒體。

如果會話在服務器上不起作用,您將採取什麼步驟?如果會話在服務器上不起作用,您將採取什麼步驟?May 03, 2025 am 12:19 AM

服務器會話失效可以通過以下步驟解決:1.檢查服務器配置,確保會話設置正確。 2.驗證客戶端cookies,確認瀏覽器支持並正確發送。 3.檢查會話存儲服務,如Redis,確保其正常運行。 4.審查應用代碼,確保會話邏輯正確。通過這些步驟,可以有效診斷和修復會話問題,提升用戶體驗。

session_start()函數的意義是什麼?session_start()函數的意義是什麼?May 03, 2025 am 12:18 AM

session_start()iscucialinphpformanagingusersessions.1)ItInitiateSanewsessionifnoneexists,2)resumesanexistingsessions,and3)setsasesessionCookieforContinuityActinuityAccontinuityAcconActInityAcconActInityAcconAccRequests,EnablingApplicationsApplicationsLikeUseAppericationLikeUseAthenticationalticationaltication and PersersonalizedContentent。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。