mmseg算法中的问题-php教程-PHP中文網

首頁

後端開發

php教程

mmseg算法中的问题

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:28 PM

javaphppython

mmseg中复杂最大匹配算法没看明白,有人能用一个例子给我解释下吗？

回复内容：

mmseg中复杂最大匹配算法没看明白,有人能用一个例子给我解释下吗？

首先先定義 MMSEG 一個重要概念是 Chunk ，他是一個包含3個詞的詞塊。
MMSEG 算法是基於統計模型的，所以算法的規則也是來自於對語料庫的分析和歸納。

他有四大規則分別為:
規則 1 : 最大匹配 Maximum matching (取詞包含字數最多的chunk)
規則 2 : 最大平均詞彙長度 Largest average word length （取詞的平均字數最多的chunk）
規則 3 : 最小詞方差 Smallest variance of word lengths （取詞的方差最小的chunk）
規則 4 : 最大單字自由度 Largest sum of degree of morphemic freedom of one-character words

<code>    （取詞頻自由度最大的chunk, 也就是chunk中的詞的詞頻取對數後的和，）
</code>

舉的例子比較快了解:
我們用 MMSEG 上的例子 "研究生命起源"，但首先先釐清一點，切 Chunk 通常跟你自己的語料庫(詞典)有很大關係，不一定會切出跟下面一樣的 Chunk。

研 |究 |生 (length = 3)
研 |究 |生命 (length = 4)
研究 |生 |命 (length = 4)
研究 |生命|起 (length = 5)
研究 |生命|起源 (length = 6)
研究生|命 |起 (length = 5)
研究生|命 |起源 (length = 6)

之後依次使用上述四種規則匹配之-

依據規則 1，取length最大的 Chunk

研究 |生命|起源 (length = 6, average length = 2)
研究生|命 |起源 (length = 6, average length = 2)

依據規則 2，取average length最大的 Chunk

研究 |生命|起源 (length = 6, average length = 2, variance = 0 )
研究生|命 |起源 (length = 6, average length = 2, variance = 4/9)

依據規則 3，取variance最小的 Chunk

研究 |生命|起源 (length = 6, average length = 2, variance = 0 )

因為剩下一個 Chunk 所以規則 4 就不用再匹配了。
最終結果就是 "研究 | 生命 | 起源"

若需要用到規則 4 ，當中所謂的詞頻，是要你自己在你的辭典先定義辭典裡的每一個詞的在你的資料及的某個時間點知當時的詞頻。
例如第5號 Chunk : "研究" 詞頻=3 , "生命" 詞頻=5 , "起源" 詞頻=7
取對數的和 = ln3+ln5+ln7
其他 Chunk 也用同樣的算法算出其對數和，
最後所以剩下的 Chunk 比對誰最大就取誰即可。

但是如果最後的匹配四個規則的結果得到不只一個 Chunk ，那麼 MMSEG 就失效了。

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

超越炒作：評估當今PHP的角色Apr 12, 2025 am 12:17 AM

PHP在現代編程中仍然是一個強大且廣泛使用的工具，尤其在web開發領域。 1)PHP易用且與數據庫集成無縫，是許多開發者的首選。 2)它支持動態內容生成和麵向對象編程，適合快速創建和維護網站。 3)PHP的性能可以通過緩存和優化數據庫查詢來提升，其廣泛的社區和豐富生態系統使其在當今技術棧中仍具重要地位。

PHP中的弱參考是什麼？什麼時候有用？Apr 12, 2025 am 12:13 AM

在PHP中，弱引用是通過WeakReference類實現的，不會阻止垃圾回收器回收對象。弱引用適用於緩存系統和事件監聽器等場景，需注意其不能保證對象存活，且垃圾回收可能延遲。

解釋PHP中的__ Invoke Magic方法。Apr 12, 2025 am 12:07 AM

\_\_invoke方法允許對象像函數一樣被調用。 1.定義\_\_invoke方法使對象可被調用。 2.使用$obj(...)語法時，PHP會執行\_\_invoke方法。 3.適用於日誌記錄和計算器等場景，提高代碼靈活性和可讀性。

解釋PHP 8.1中的纖維以進行並發。Apr 12, 2025 am 12:05 AM

Fibers在PHP8.1中引入，提升了並發處理能力。 1)Fibers是一種輕量級的並發模型，類似於協程。 2)它們允許開發者手動控制任務的執行流，適合處理I/O密集型任務。 3)使用Fibers可以編寫更高效、響應性更強的代碼。

PHP社區：資源，支持和發展Apr 12, 2025 am 12:04 AM

PHP社區提供了豐富的資源和支持，幫助開發者成長。 1)資源包括官方文檔、教程、博客和開源項目如Laravel和Symfony。 2)支持可以通過StackOverflow、Reddit和Slack頻道獲得。 3)開發動態可以通過關注RFC了解。 4)融入社區可以通過積極參與、貢獻代碼和學習分享來實現。