大きなファイルの最後の N 行を効率的に取得するにはどうすればよいですか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

大きなファイルの最後の N 行を効率的に取得するにはどうすればよいですか?

Patricia Arquette

Nov 30, 2024 am 10:39 AM

How to Efficiently Retrieve the Last N Lines of a Large File?

「末尾」をシミュレートしてファイルの最後の N 行を取得します

概要:

大きなログファイルを分析する場合、ページネーションや検査のために最後の N 行を取得することが必要になることがよくあります。これにより、オフセットを使用してログファイルを効率的に末尾に付ける方法という問題が生じます。

解決策候補 1:

def tail(f, n, offset=0):
    avg_line_length = 74
    to_read = n + offset
    while 1:
        try:
            f.seek(-(avg_line_length * to_read), 2)
        except IOError:
            f.seek(0)
        pos = f.tell()
        lines = f.read().splitlines()
        if len(lines) >= to_read or pos == 0:
            return lines[-to_read:offset and -offset or None]
        avg_line_length *= 1.3

評価:

これこのアプローチでは、行の平均長についての仮定が立てられ、十分な行が見つかるまで段階的に後方に探索されます。初期見積もりにより、シークを複数回行う必要があり、パフォーマンスが低下する可能性があります。

解決策候補 2:

def tail(f, lines=20):
    BLOCK_SIZE = 1024
    f.seek(0, 2)
    block_end_byte = f.tell()
    lines_to_go = lines
    block_number = -1
    blocks = []
    while lines_to_go > 0 and block_end_byte > 0:
        if (block_end_byte - BLOCK_SIZE > 0):
            f.seek(block_number * BLOCK_SIZE, 2)
            blocks.append(f.read(BLOCK_SIZE))
        else:
            f.seek(0, 0)
            blocks.append(f.read(block_end_byte))
        lines_found = blocks[-1].count('\n')
        lines_to_go -= lines_found
        block_end_byte -= BLOCK_SIZE
        block_number -= 1
    all_read_text = ''.join(reversed(blocks))
    return '\n'.join(all_read_text.splitlines()[-lines:])

説明:

このメソッドは、必要な数の改行が見つかるまで、ファイルをブロックごとにバックトラックします。行の長さについての仮定は行わず、ファイルが小さすぎて後戻りできない場合は最初から読み取ります。

比較:

一般に、候補ソリューション 2 は候補ソリューション 1 よりも効率的で堅牢です。推定に依存せず、ファイルを順番に読み取るためです。これは、オフセットを使用してログファイルを追跡するためのより信頼性の高いアプローチです。

以上が大きなファイルの最後の N 行を効率的に取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python：編集と解釈に深く掘り下げますMay 12, 2025 am 12:14 AM

pythonusesahybridmodelofcompilation andtertation：1）thepythoninterpretercompilessourcodeodeplatform-indopent bytecode.2）thepythonvirtualmachine（pvm）thenexecuteTesthisbytecode、balancingeaseoputhswithporformance。

Pythonは解釈されたものですか、それとも編集された言語であり、なぜそれが重要なのですか？May 12, 2025 am 12:09 AM

pythonisbothintersedand compiled.1）it'scompiledtobytecode forportabalityacrossplatforms.2）bytecodeisthenは解釈され、開発を許可します。

ループ対pythonのループの場合：説明されたキーの違いMay 12, 2025 am 12:08 AM

loopsareideal whenyouwhenyouknumberofiterationsinadvance、foreleloopsarebetterforsituationsは、loopsaremoreedilaConditionismetを使用します

ループのために：実用的なガイドMay 12, 2025 am 12:07 AM

henthenumber ofiterationsisknown advanceの場合、dopendonacondition.1）forloopsareideal foriterating over for -for -for -saredaverseversives likelistorarrays.2）whileopsaresupasiable forsaresutable forscenarioswheretheloopcontinupcontinuspificcond

Python：それは本当に解釈されていますか？神話を暴くMay 12, 2025 am 12:05 AM

pythonisnotpurelyLepted; itusesahybridapproachofbytecodecodecodecodecodecodedruntimerttation.1）pythoncompilessourcodeintobytecode、whodythepythonvirtualmachine（pvm）.2）

同じ要素を持つPython ConcatenateリストMay 11, 2025 am 12:08 AM

ToconcatenateListsinpythothesheElements、使用：1）Operatortokeepduplicates、2）asettoremoveduplicates、or3）listcomplunting for controloverduplicates、各メトドハスディフェルフェルフェントパフォーマンスアンドソーダーインプリテーション。

解釈対編集言語：Pythonの場所May 11, 2025 am 12:07 AM

pythonisantertedlanguage、useaseofuseandflexibility-butfactingporformantationationsincriticalapplications.1）解釈されたlikepythonexecuteline-by-lineを解釈します

ループのために：Pythonでそれぞれを使用するのはいつですか？May 11, 2025 am 12:05 AM

Useforloopswhenthenumberofiterationsisknowninadvance、andwhiloopswheniterationsdependonacondition.1）forloopsareidealforsecenceslikelistoranges.2）

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。