首頁  >  文章  >  後端開發  >  如何在Python中統計詞頻並按頻率排序?

如何在Python中統計詞頻並按頻率排序?

Barbara Streisand
Barbara Streisand原創
2024-10-21 21:39:03830瀏覽

How to Count Word Frequency and Sort by Frequency in Python?

計算詞頻並按頻率排序

在處理包含文字資料的大型資料集時,通常需要分析單字的頻率。此資訊可用於各種自然語言處理 (NLP) 任務。在 Python 中,可以使用名為 Counter 的強大工具來簡化此任務。

實作設計

您的設計概述了以下步驟:

  1. 建立一個空列表來儲存唯一單字(newlst)。
  2. 建立一個空列表來儲存對應的單字頻率(Frequency)。
  3. 迭代原始單字列表。
  4. 對於每個單詞,檢查它是否已經在 newlst 中。
  5. 如果該單字不在 newlst 中,則會加它並將頻率設為 1。
  6. 如果單字已經在 newlst 中,增加其頻率。
  7. 依照頻率清單對 newlst 進行排序。

在Python 中使用Counter

Python 的集合模組提供了專門的名為Counter 的類,旨在對可迭代物件中的元素進行計數和聚合。 Counter 允許我們在一行程式碼中執行步驟 3-6。以下是使用 Counter 實作設計的方法:

此程式碼產生唯一單字的排序列表,其中頻率最高的單字會先出現。

範例

以上是如何在Python中統計詞頻並按頻率排序?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn