ホームページ  >  記事  >  バックエンド開発  >  2,000万行のテキストデータを取得する方法

2,000万行のテキストデータを取得する方法

WBOY
WBOYオリジナル
2016-08-04 09:19:11941ブラウズ

テキストドキュメントには2000w行のデータがあります。データの形式は次のとおりです
ウォーキングデッド_マザー
金蝉の逃走_笑顔
さらば我が愛_
無罰_永遠
....
海を渡る八仙_運命

イディオムや英語の単語を素早く検索するにはどうすればよいですか?アルゴリズムを教えてください。専門家に感謝します

返信内容:

テキストドキュメントには2000w行のデータがあります。データの形式は次のとおりです
ウォーキングデッド_マザー
金蝉の逃走_笑顔
さらば我が愛_
無罰_永遠
....
海を渡る八仙_運命

イディオムや英語の単語を素早く検索するにはどうすればよいですか?アルゴリズムを教えてください。専門家に感謝します

あなたの目的は、特定のイディオム/単語が英語に存在するかどうかを判断すること、またはこのイディオム/単語が出現する回数を数えることでしょうか?
どのような方法であっても、全文を読むことが一番可能性が高いと思います。取得の頻度が非常に高い場合は、2,000 万のデータをメモリに配置し、インデックスを作成して保存するのが最も速くなります。1 回のみ実行する場合は、すべてのファイルを読み取る時間が最も速くなります (出現回数を計算します)。

Solrを構築してインデックスを作成すると、検索効率が大幅に向上します

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。