使用正規表示式擷取句子
將文字分割成句子會帶來一些複雜性,特別是由於其他文本中使用的縮寫和句號的存在上下文。為了應對這項挑戰,我們探索了各種方法。
正規表示式
一種簡單的方法是使用正規表示式。但是,提供的正規表示式可能不夠充分,因為它無法可靠地處理所有微妙之處,包括縮寫。
自然語言工具包 (NLTK)
另一個解決方案利用NLTK,一個強大的自然語言處理庫。 NLTK 的句子分詞器(如下面的程式碼片段所示)可以有效地將文字分詞為句子:
import nltk.data # Load the English tokenizer tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') # Read the text from a file with open("test.txt") as fp: data = fp.read() # Tokenize the text sentences = tokenizer.tokenize(data) # Print the tokenized sentences print('\n-----\n'.join(sentences))
透過採用這種技術,人們可以有效地從文本中提取句子,即使是那些包含縮寫和其他潛在陷阱的句子。
以上是如何使用正規表示式或NLTK有效地從文本中提取句子?的詳細內容。更多資訊請關注PHP中文網其他相關文章!