正则表达式 - Java 读取txt格式语料库并匹配指定字符串，如何可以快速完成？

Question

有一个9M多行的语料库，文件大小4G。现在需要匹配指定动词，符合句子条件的输出。
但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。

ringa_lee · Answer

Sepatutnya tiada masalah membaca fail, tetapi anda boleh cuba menukar kepada bacaan buffer, kerana saiz garisan mungkin tidak pasti, yang akan menjejaskan kecekapan. .
Jika padanan adalah satu perkataan, anda boleh menggunakan kaedah padanan yang lebih baik, saya tidak tahu sama ada ia adalah biasa

高洛峰 · Answer

Program anda diproses oleh barisan satu-benang pastinya perlahan Gunakan pemprosesan berbilang-benang gunakan cache untuk membaca berbilang baris Kemudian peruntukkannya kepada berbilang benang untuk diproses, supaya CPU boleh dimaksimumkan.

PHP中文网 · Answer

nio multithreading

怪我咯 · Answer

Pattern.compile("(.*\%\&\$cook\%\&\$VB.*)")

Ini berada di dalam gelung, dan ungkapan biasa mesti disusun setiap kali, jadi ia sangat perlahan Anda boleh meletakkannya di luar sementara dan lihat

正则表达式 - Java 读取txt格式语料库并匹配指定字符串，如何可以快速完成？

membalas semua(4)saya akan balas