Python は高級プログラミング言語として、データ処理やコンピューター プログラムに幅広い用途があります。ただし、複雑なデータ操作を実行する場合、Python コードは頻繁な IO 操作によってパフォーマンス上の問題が発生する傾向があります。この記事では、Python コードで IO 操作が頻繁に発生するエラーを解決する方法を紹介します。
Python プログラムが IO 操作を実行するときは、ディスクまたは他のストレージ デバイスからデータを読み取る必要があり、これにより頻繁な IO 操作が発生し、影響が生じます。番組のパフォーマンス。これを防ぐために、キャッシュされた IO 操作を使用できます。
IO 操作のキャッシュとは、毎回ディスクからデータを読み取るのではなく、IO 操作の結果をメモリにキャッシュすることを指します。 IO 操作をキャッシュすると、プログラムがディスクにアクセスする回数が減るため、プログラムのパフォーマンスが向上します。
たとえば、次のコードは、キャッシュされた IO 操作を使用してファイルからデータを読み取る方法を示しています。
import functools @functools.lru_cache(maxsize=128) def read_file(filename): with open(filename) as f: return f.read()
この例では、lru_cache()
関数が使用されます。関数の結果をキャッシュします。関数が初めて呼び出されるとき、その結果はメモリにキャッシュされます。関数が再度呼び出されたとき、パラメーターが変更されていない場合、結果はディスクからデータを読み取るのではなく、キャッシュから取得されます。
メモリ マップ ファイルとは、オペレーティング メモリのようにファイルにアクセスできるように、ファイルをプロセスのメモリ空間にマッピングすることを指します。メモリ マップト ファイルを使用すると、特に大量のデータを処理する場合に、頻繁な IO 操作を回避できます。
次のコードは、メモリ マップ ファイルを使用して大きな CSV ファイルを読み取る方法を示しています。
import mmap import csv def read_csv(filename): with open(filename, "rb") as csv_file: with mmap.mmap(csv_file.fileno(), 0, access=mmap.ACCESS_READ) as csv_data: reader = csv.reader(iter(csv_data.readline, b"")) for row in reader: # do something with row
この例では、mmap()
関数を使用して、ファイルをプロセスのメモリ空間にコピーします。次に、csv.reader()
関数を使用して、CSV ファイルの各行を読み取ります。ファイルがメモリにマップされているため、データの読み取り時に IO 操作が必要ないため、プログラムのパフォーマンスが大幅に向上します。
IO 操作の頻度を減らすもう 1 つの解決策は、データをバッチで読み取ることです。これは、一度に 1 つのデータを読み取るのではなく、複数のデータを一度に読み取ることを意味します。
たとえば、1000 個の整数を含むファイルがあるとします。ファイル内のすべての整数を合計する必要がある場合は、次のコードを使用できます。
total = 0 with open("data.txt") as f: for line in f: total += int(line)
ただし、この方法ではディスクからデータが頻繁に読み取られるため、プログラムのパフォーマンスに影響します。代わりに、次のコードを使用してデータを一度にバッチで読み取ることができます。
with open("data.txt") as f: data = f.read().splitlines() total = sum(map(int, data))
この例では、read()
関数を使用してファイル全体を一度に読み取ります。次に、splitlines()
関数を使用して、ファイルの内容を行に分割し、リストに格納します。最後に、map()
関数を使用して各行を整数に変換し、その合計を計算します。この方法により、IO 操作の頻度が減り、プログラムのパフォーマンスが向上します。
非同期 IO 操作とは、IO 操作を実行するときに、プログラムが他のタスクを同時に実行できることを意味します。従来の同期 IO 操作 (IO 操作を実行する場合、プログラムは他のタスクの実行を続行する前に IO 操作が完了するまで待機する必要があります) とは異なり、非同期 IO 操作はプログラムの同時実行性とスループットを向上させることができます。
Python 3.4 では、非同期 IO 操作を実行する便利な方法を提供する asyncio
ライブラリが導入されました。以下は、asyncio
ライブラリを使用して URL コンテンツを読み取る例です。
import asyncio import aiohttp async def fetch_url(url): async with aiohttp.ClientSession() as session: async with session.get(url) as response: return await response.text() async def main(): urls = [...] tasks = [] for url in urls: tasks.append(asyncio.ensure_future(fetch_url(url))) results = await asyncio.gather(*tasks) # do something with results asyncio.run(main())
この例では、fetch_url()
関数を使用して URL を読み取ります。コンテンツを非同期的に。次に、main()
関数を使用して複数の非同期 IO 操作を同時に実行し、すべての操作が完了した後に結果を処理します。非同期 IO 操作を使用すると、過度に頻繁な IO 操作が回避され、プログラムのパフォーマンスが向上します。
概要では、Python コードでの IO 操作が頻繁すぎるエラーを解決する方法を紹介しました。キャッシュされた IO 操作、メモリ マップ ファイル、データのバッチ読み取り、非同期 IO 操作などのテクノロジを使用すると、IO 操作の頻度を効果的に削減し、プログラムのパフォーマンスを向上させ、IO 操作によって引き起こされるエラーを回避できます。 Python プログラマーとして、これらのテクニックを理解し、必要に応じて使用する必要があります。
以上がPython コードで頻繁に発生する IO 操作エラーを解決するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。