Heim  >  Artikel  >  Backend-Entwicklung  >  2000w行的文本数据如何检索

2000w行的文本数据如何检索

WBOY
WBOYOriginal
2016-08-04 09:19:11940Durchsuche

在一个txt文档中有2000w行数据,数据的格式如下
行尸走肉_Mother
金蝉脱壳_Smile
霸王别姬_Love
逍遥法外_Eternity
.......
八仙过海_Destiny

请问如何快速检索出成语或者英文单词,麻烦请给我算法,谢谢大牛们

回复内容:

在一个txt文档中有2000w行数据,数据的格式如下
行尸走肉_Mother
金蝉脱壳_Smile
霸王别姬_Love
逍遥法外_Eternity
.......
八仙过海_Destiny

请问如何快速检索出成语或者英文单词,麻烦请给我算法,谢谢大牛们

你的目的到底是要确定某个成语/英文存在不存在还是要计算这个成语/单词出现的次数?
我以为不论什么方法,最大的可能性就是把全文都要过一遍。如果你这个检索的频率很高,这2000万个数据放到内存中再索引存储下会最快,如果只运行一次,那么最快的时间就是把文件都读一遍的时间(计算出现次数)。

搭一个 solr,创建索引,这样搜索效率提升很大

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn