Elasticsearch 中文搜索:分析器與最佳實踐
Elasticsearch 的內容索引中,分析和詞元化至關重要,尤其處理非英語語言時。對於中文,由於漢字的特性以及詞句之間缺乏空格,這一過程更為複雜。
本文探討 Elasticsearch 中分析中文內容的幾種方案,包括默認的中文分析器、paoding 插件、cjk 分析器、smartcn 分析器和 ICU 插件,並分析其優缺點及適用場景。
中文搜索的挑戰
漢字是表意文字,代表一個詞或語素(語言中最小的有意義單位)。組合在一起,其含義會發生變化,代表一個全新的詞。另一個難點是詞句之間沒有空格,這使得計算機很難知道一個詞從哪裡開始,到哪裡結束。
即使只考慮普通話(中國官方語言,也是世界上使用最廣泛的漢語),也有數万個漢字,即使實際書面漢語只需要認識三千到四千個漢字。例如,“火山”(火山)實際上是以下兩個漢字的組合:
- 火:火
- 山:山
我們的分詞器必須足夠聰明,避免將這兩個漢字分開,因為它們組合在一起的意義與分開時不同。
另一個難點是使用的拼寫變體:
- 簡體中文:書法
- 繁體中文,更複雜、更豐富:書法
- 拼音,普通話的羅馬化形式:shū fǎ
Elasticsearch 中的中文分析器
目前,Elasticsearch 提供以下幾種中文分析器:
- 默認的
Chinese
分析器,基於 Lucene 4 中已棄用的類; -
paoding
插件,雖然不再維護,但基於非常好的詞典; -
cjk
分析器,它對內容進行二元組化; -
smartcn
分析器,一個官方支持的插件; - ICU 插件及其分詞器。
這些分析器的差異很大,我們將通過一個簡單的測試詞“手機”來比較它們的性能。 “手機”的意思是“手機”,它由兩個漢字組成,分別表示“手”和“機”。 “機”字還構成許多其他詞:
- 機票:機票
- 機器人:機器人
- 機槍:機槍
- 機遇:機遇
我們的分詞不能拆分這些漢字,因為如果我搜索“手機”,我不希望出現關於 Rambo 擁有機槍的任何文檔。
我們將使用強大的 _analyze
API 測試這些方案:
curl -XGET 'http://localhost:9200/chinese_test/_analyze?analyzer=paoding_analyzer1' -d '手机'
-
默認的
Chinese
分析器: 它只將所有漢字分成詞元。因此,我們得到兩個詞元:手和機。 Elasticsearch 的standard
分析器產生完全相同的輸出。因此,Chinese
已棄用,很快將被standard
取代,應避免使用。 -
paoding
插件:paoding
幾乎是行業標準,被認為是一種優雅的解決方案。不幸的是,Elasticsearch 的插件沒有維護,我只能在經過一些修改後才能在 1.0.1 版本上運行它。 (安裝步驟略,原文已提供)安裝後,我們得到了一個新的paoding
分詞器和兩個收集器:max_word_len
和most_word
。默認情況下沒有公開分析器,因此我們必須聲明一個新的分析器。 (配置步驟略,原文已提供)兩種配置都提供了良好的結果,具有清晰且唯一的詞元。在處理更複雜的句子時,其行為也非常好。 -
cjk
分析器: 非常簡單的分析器,它只將任何文本轉換成二元組。 “手機”只索引手机
,效果不錯,但如果我們使用更長的詞,例如“元宵節”(元宵節),則會生成兩個詞元:元宵和宵節,分別表示“元宵”和“宵節”。 -
smartcn
插件: 非常易於安裝。 (安裝步驟略,原文已提供)它公開了一個新的smartcn
分析器,以及smartcn_tokenizer
分詞器,使用 Lucene 的SmartChineseAnalyzer
。它使用概率套件來查找單詞的最佳分割,使用隱馬爾可夫模型和大量的訓練文本。因此,已經嵌入了一個相當好的訓練詞典——我們的示例被正確地分詞了。 -
ICU 插件: 另一個官方插件。 (安裝步驟略,原文已提供)如果您處理任何非英語語言,建議使用此插件。它公開了一個
icu_tokenizer
分詞器,以及許多強大的分析工具,如icu_normalizer
、icu_folding
、icu_collation
等。它使用中文和日文字典,其中包含有關詞頻的信息,以推斷漢字組。在“手機”上,一切正常,並且按預期工作,但在“元宵節”上,會產生兩個詞元:元宵和節——這是因為“元宵”和“節”比“元宵節”更常見。
結果比較 (表格略,原文已提供)
從我的角度來看,paoding
和 smartcn
獲得了最佳結果。 chinese
分詞器非常糟糕,icu_tokenizer
在“元宵節”上有點令人失望,但在處理繁體中文方面表現非常好。
繁體中文支持
您可能需要處理來自文檔或用戶搜索請求的繁體中文。您需要一個規範化步驟將這些繁體輸入轉換為現代中文,因為像 smartcn
或 paoding
這樣的插件無法正確處理它。
您可以通過您的應用程序進行處理,或者嘗試使用 elasticsearch-analysis-stconvert
插件直接在 Elasticsearch 中進行處理。它可以雙向轉換繁體字和簡體字。 (安裝步驟略,原文已提供)
最後一種解決方案是使用 cjk
:如果您無法正確分詞輸入,您仍然很有可能捕獲所需的文檔,然後使用 icu_tokenizer
(也相當好)來提高相關性。
進一步的改進
對於 Elasticsearch 的分析,沒有完美的萬能解決方案,中文也不例外。您必鬚根據獲得的信息來組合和構建自己的分析器。例如,我在搜索字段上使用 cjk
和 smartcn
分詞,使用多字段和多匹配查詢。
(FAQ 部分略,原文已提供)
以上是有效的中文搜索與Elasticsearch的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Thedifferencebetweenunset()andsession_destroy()isthatunset()clearsspecificsessionvariableswhilekeepingthesessionactive,whereassession_destroy()terminatestheentiresession.1)Useunset()toremovespecificsessionvariableswithoutaffectingthesession'soveralls

stickysessensureuserRequestSarerOutedTothesMeServerForsessionDataConsisterency.1)sessionIdentificeAssificationAssigeaSsignAssignSignSuserServerServerSustersusiseCookiesorUrlModifications.2)一致的ententRoutingDirectSsssssubsequeSssubsequeSubsequestrequestSameSameserver.3)loadBellankingDisteributesNebutesneNewuserEreNevuseRe.3)

phpoffersvarioussessionsionsavehandlers:1)文件:默認,簡單的ButMayBottLeneckonHigh-trafficsites.2)Memcached:高性能,Idealforsforspeed-Criticalapplications.3)REDIS:redis:similartomemememememcached,withddeddeddedpassistence.4)withddeddedpassistence.4)databases:gelifforcontrati forforcontrati,有用

PHP中的session是用於在服務器端保存用戶數據以在多個請求之間保持狀態的機制。具體來說,1)session通過session_start()函數啟動,並通過$_SESSION超級全局數組存儲和讀取數據;2)session數據默認存儲在服務器的臨時文件中,但可通過數據庫或內存存儲優化;3)使用session可以實現用戶登錄狀態跟踪和購物車管理等功能;4)需要注意session的安全傳輸和性能優化,以確保應用的安全性和效率。

PHPsessionsstartwithsession_start(),whichgeneratesauniqueIDandcreatesaserverfile;theypersistacrossrequestsandcanbemanuallyendedwithsession_destroy().1)Sessionsbeginwhensession_start()iscalled,creatingauniqueIDandserverfile.2)Theycontinueasdataisloade

絕對會話超時從會話創建時開始計時,閒置會話超時則從用戶無操作時開始計時。絕對會話超時適用於需要嚴格控制會話生命週期的場景,如金融應用;閒置會話超時適合希望用戶長時間保持會話活躍的應用,如社交媒體。

服務器會話失效可以通過以下步驟解決:1.檢查服務器配置,確保會話設置正確。 2.驗證客戶端cookies,確認瀏覽器支持並正確發送。 3.檢查會話存儲服務,如Redis,確保其正常運行。 4.審查應用代碼,確保會話邏輯正確。通過這些步驟,可以有效診斷和修復會話問題,提升用戶體驗。

session_start()iscucialinphpformanagingusersessions.1)ItInitiateSanewsessionifnoneexists,2)resumesanexistingsessions,and3)setsasesessionCookieforContinuityActinuityAccontinuityAcconActInityAcconActInityAcconAccRequests,EnablingApplicationsApplicationsLikeUseAppericationLikeUseAthenticationalticationaltication and PersersonalizedContentent。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。