python优化代码（文本查找）效率？

Question

{代码...} genemark.gff3 格式类似下边: {代码...} 1.txt: {代码...} 附上原始文件的百度云链接，希望感兴趣的参考点击下载 密码 enu8 综合楼下各位朋友的答案，现推荐两种第一种 根据 @ferstar @用筹兮用严 的答...

巴扎黑 · Answer

パフォーマンスをさらに最適化する余地はないはずですが、コードをわずかに調整することができます

リーリー

阿神 · Answer

ここに 2 つの提案があります:

コードのネストが深すぎます。関数内でできるだけ早く返すことにより、ネストレベルを下げることができます。同様に、ループ内で continue を使用してネストレベルを下げることができます。
パフォーマンスについて

リーリー

ループを通過するたびに file1 の行を分割するのは非常に賢明ではありません

以下は私が変更したコードです

リーリー

PHPz · Answer

時間とスペースを交換して、genemark.gff3 のリストと 1.txt の辞書をそれぞれ構築します。具体的な実装:

リーリー

修正バージョン v2 では、内部ループの int() が削除され、出力が簡素化されています。

リーリー

v3: 質問の意味を注意深く検討した結果、メインループはフラグメントと交差するセット内のすべてのフラグメントを見つけることであることがわかりました。まずこのセットを見てみましょう。

リーリー

各コレクション内のフラグメントの数は 6000 ～ 10000 であり、トラバーサルは非効率的です。そのため、フラグメントと交差するすべてのフラグメントを迅速に取得するには、intervaltree の使用を検討してください。

リーリー

時間テストの結果: インターバルツリーの構築には 10 秒かかりましたが、交差処理の速度は約 100 倍向上しました。
間隔リファレンス https://pypi.python.org/pypi/...

伊谢尔伦 · Answer

ファイルを開いた後、閉じる必要はありません

PHP中文网 · Answer

リーリー

6 階の @ferstar によって提案された並列化は正しい方向ですが、コードに問題があります...
変更しました:

リーリー

伊谢尔伦 · Answer

非常に興味深いものを見つけました。皆さんは非常に好意的な反応を示しましたが、実際の結果については、退屈でちょっとテストしてみただけです。

質問で提供されたサンプルテキストは 2 行しかないため、1.txt と genemark.gff3 をそれぞれ 4000 行

に二重化しました。リーリー

回答した階数で並べ替えます。たとえば、質問者のコードは hi.py、次に 1 階の回答者のコードは hi1.py というようになります。

繰り返しのように感じます

またおばあちゃんの家に行きました

3 階の回答者の結果は 2 階の回答者と同じですが、10 秒以上遅くなります

確かに、コミュニケーションは進歩につながり、現在の結果は正しいです

概要

実際には質問者のコード結果が重複しているようで、4階回答者の結果が正しいようです

私の計画 - 4 階のコードに小さな変更を並行して加えます

私が書いたものに問題がありました。@yongchixiyongyan が正しい並列コードを更新しました。私のコードは変更されません。そのため、後で見るクラスメートが参照できるようになります

直接採点 (Python3)

リーリー

次に、運用効率を見てみましょう

リーリー

時間の点ではかなり遅いようです (4000 行のデータはわずか数百 KB です)。質問者は、処理されるデータが大きくなるほど、より明らかになります。並列処理による効率の利点

追伸: 質問者が処理するデータの実際のサイズは、MB または GB レベルに達するはずだと推測しています。このレベルでの並列処理が適切な方法です。

ソースデータと結果のアドレスリンク: http://pan.baidu.com/s/1hrSZQuS パスワード: u93n