掌握 Python 内存优化：数据科学和机器学习技术-Python教程-PHP中文网

首页

后端开发

Python教程

掌握 Python 内存优化：数据科学和机器学习技术

Barbara Streisand

Jan 20, 2025 am 06:14 AM

Mastering Python Memory Optimization: Techniques for Data Science and Machine Learning

作为一位多产的作家，我邀请您探索我的亚马逊图书收藏。请记得在 Medium 上关注我以获取更新并表示您的支持！非常感谢您的鼓励！

Python 在数据科学和机器学习领域日益突出，需要对大型项目进行高效的内存管理。数据集规模的扩大和计算需求的增加使得优化内存使用变得至关重要。我在内存密集型 Python 应用程序方面的经验产生了几种有效的优化策略，我将在这里分享。

我们将从 NumPy 开始，这是一个用于数值计算的基石库。与 Python 列表相比，NumPy 数组具有显着的内存优势，特别是对于大量数据集。它们的连续内存分配和静态类型最大限度地减少了开销。

考虑这个比较：

import numpy as np
import sys

# Creating a list and a NumPy array with 1 million integers
py_list = list(range(1000000))
np_array = np.arange(1000000)

# Comparing memory usage
print(f"Python list size: {sys.getsizeof(py_list) / 1e6:.2f} MB")
print(f"NumPy array size: {np_array.nbytes / 1e6:.2f} MB")

NumPy 数组更小的内存占用是显而易见的。随着数据集的增大，这种差异变得更加明显。

NumPy 还提供内存高效的操作。它不是为每个操作生成新数组，而是经常就地修改数组：

# In-place operations
np_array += 1  # Modifies the original array directly

转向 Pandas，分类数据类型是内存优化的关键。对于唯一值有限的字符串列，转换为分类类型可以大大减少内存消耗：

import pandas as pd

# DataFrame with repeated string values
df = pd.DataFrame({'category': ['A', 'B', 'C'] * 1000000})

# Memory usage check
print(f"Original memory usage: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

# Conversion to categorical
df['category'] = pd.Categorical(df['category'])

# Post-conversion memory usage
print(f"Memory usage after conversion: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

可以节省大量内存，尤其是对于包含重复字符串的大型数据集。

对于稀疏数据集，Pandas 提供稀疏数据结构，仅存储非空值，从而为具有大量空值或零值的数据集节省大量内存：

# Creating a sparse series
sparse_series = pd.Series([0, 0, 1, 0, 2, 0, 0, 3], dtype="Sparse[int]")

print(f"Memory usage: {sparse_series.memory_usage(deep=True) / 1e3:.2f} KB")

当数据集超过可用 RAM 时，内存映射文件就会发生变革。它们允许像在内存中一样处理大文件，而无需加载整个文件：

import mmap
import os

# Creating a large file
with open('large_file.bin', 'wb') as f:
    f.write(b'0' * 1000000000)  # 1 GB file

# Memory-mapping the file
with open('large_file.bin', 'r+b') as f:
    mmapped_file = mmap.mmap(f.fileno(), 0)

# Reading from the memory-mapped file
print(mmapped_file[1000000:1000010])

# Cleaning up
mmapped_file.close()
os.remove('large_file.bin')

这对于随机访问大文件而不将它们完全加载到内存中特别有用。

生成器表达式和 itertools 对于内存高效的数据处理来说非常强大。它们允许处理大型数据集，而无需同时将所有内容加载到内存中：

import itertools

# Generator expression
sum_squares = sum(x*x for x in range(1000000))

# Using itertools for memory-efficient operations
evens = itertools.islice(itertools.count(0, 2), 1000000)
sum_evens = sum(evens)

print(f"Sum of squares: {sum_squares}")
print(f"Sum of even numbers: {sum_evens}")

这些技术在处理大型数据集时最大限度地减少内存开销。

对于性能关键的代码部分，Cython 提供了巨大的优化潜力。将 Python 代码编译为 C 可以显着提高速度并减少潜在的内存消耗：

def sum_squares_cython(int n):
    cdef int i
    cdef long long result = 0
    for i in range(n):
        result += i * i
    return result

# Usage
result = sum_squares_cython(1000000)
print(f"Sum of squares: {result}")

此 Cython 函数将优于其纯 Python 函数，特别是对于较大的 n 值。

PyPy 是一个即时编译器，提供自动内存优化。它对于长时间运行的程序特别有益，通常可以显着减少内存使用量：

import numpy as np
import sys

# Creating a list and a NumPy array with 1 million integers
py_list = list(range(1000000))
np_array = np.arange(1000000)

# Comparing memory usage
print(f"Python list size: {sys.getsizeof(py_list) / 1e6:.2f} MB")
print(f"NumPy array size: {np_array.nbytes / 1e6:.2f} MB")

与标准 CPython 相比，PyPy 可以提高内存效率和速度。

内存分析对于识别优化机会至关重要。 memory_profiler 库是一个很有价值的工具：

# In-place operations
np_array += 1  # Modifies the original array directly

使用 mprof run script.py 和 mprof plot 可视化内存使用情况。

解决内存泄漏问题至关重要。 tracemalloc 模块 (Python 3.4 ) 帮助识别内存分配源：

import pandas as pd

# DataFrame with repeated string values
df = pd.DataFrame({'category': ['A', 'B', 'C'] * 1000000})

# Memory usage check
print(f"Original memory usage: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

# Conversion to categorical
df['category'] = pd.Categorical(df['category'])

# Post-conversion memory usage
print(f"Memory usage after conversion: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

这可以精确定位内存密集型代码部分。

对于内存极其密集的应用程序，可能需要自定义内存管理。这可能涉及用于对象重用或自定义缓存的对象池：

# Creating a sparse series
sparse_series = pd.Series([0, 0, 1, 0, 2, 0, 0, 3], dtype="Sparse[int]")

print(f"Memory usage: {sparse_series.memory_usage(deep=True) / 1e3:.2f} KB")

这可以最大限度地减少对象创建/销毁的开销。

对于特别大的数据集，请考虑使用 Dask 等核外计算库：

import mmap
import os

# Creating a large file
with open('large_file.bin', 'wb') as f:
    f.write(b'0' * 1000000000)  # 1 GB file

# Memory-mapping the file
with open('large_file.bin', 'r+b') as f:
    mmapped_file = mmap.mmap(f.fileno(), 0)

# Reading from the memory-mapped file
print(mmapped_file[1000000:1000010])

# Cleaning up
mmapped_file.close()
os.remove('large_file.bin')

Dask 通过将计算分成更小的块来处理大于可用 RAM 的数据集。

算法优化也至关重要。选择高效的算法可以显着减少内存使用：

import itertools

# Generator expression
sum_squares = sum(x*x for x in range(1000000))

# Using itertools for memory-efficient operations
evens = itertools.islice(itertools.count(0, 2), 1000000)
sum_evens = sum(evens)

print(f"Sum of squares: {sum_squares}")
print(f"Sum of even numbers: {sum_evens}")

这个优化的斐波那契函数使用常量内存，与简单的递归实现不同。

总之，有效的 Python 内存优化结合了高效的数据结构、专门的库、内存高效的编码和适当的算法。这些技术减少了内存占用，从而能够处理更大的数据集和更复杂的计算。请记住分析您的代码以识别瓶颈并将优化工作集中在它们会产生最大影响的地方。

101本书

101 Books是由作家Aarav Joshi联合创立的人工智能出版社，利用人工智能最大限度地降低出版成本，让优质知识触手可及（有些书的价格低至4 美元！）。

在 Amazon 上查找我们的 Golang Clean Code 书。

有关更新和更多内容，请在亚马逊上搜索 Aarav Joshi。可通过[链接]获得特别折扣。

我们的创作

探索我们的创作：

我们在Medium上

以上是掌握 Python 内存优化：数据科学和机器学习技术的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

如何使用Python查找文本文件的ZIPF分布Mar 05, 2025 am 09:58 AM

本教程演示如何使用Python处理Zipf定律这一统计概念，并展示Python在处理该定律时读取和排序大型文本文件的效率。您可能想知道Zipf分布这个术语是什么意思。要理解这个术语，我们首先需要定义Zipf定律。别担心，我会尽量简化说明。 Zipf定律 Zipf定律简单来说就是：在一个大型自然语言语料库中，最频繁出现的词的出现频率大约是第二频繁词的两倍，是第三频繁词的三倍，是第四频繁词的四倍，以此类推。让我们来看一个例子。如果您查看美国英语的Brown语料库，您会注意到最频繁出现的词是“th

我如何使用美丽的汤来解析HTML？Mar 10, 2025 pm 06:54 PM

本文解释了如何使用美丽的汤库来解析html。它详细介绍了常见方法，例如find（），find_all（），select（）和get_text（），以用于数据提取，处理不同的HTML结构和错误以及替代方案（SEL）

python中的图像过滤Mar 03, 2025 am 09:44 AM

处理嘈杂的图像是一个常见的问题，尤其是手机或低分辨率摄像头照片。本教程使用OpenCV探索Python中的图像过滤技术来解决此问题。图像过滤：功能强大的工具图像过滤器

如何在Python中下载文件Mar 01, 2025 am 10:03 AM

Python 提供多种从互联网下载文件的方法，可以使用 urllib 包或 requests 库通过 HTTP 进行下载。本教程将介绍如何使用这些库通过 Python 从 URL 下载文件。 requests 库 requests 是 Python 中最流行的库之一。它允许发送 HTTP/1.1 请求，无需手动将查询字符串添加到 URL 或对 POST 数据进行表单编码。 requests 库可以执行许多功能，包括：添加表单数据添加多部分文件访问 Python 的响应数据发出请求首

如何使用Python使用PDF文档Mar 02, 2025 am 09:54 AM

PDF 文件因其跨平台兼容性而广受欢迎，内容和布局在不同操作系统、阅读设备和软件上保持一致。然而，与 Python 处理纯文本文件不同，PDF 文件是二进制文件，结构更复杂，包含字体、颜色和图像等元素。幸运的是，借助 Python 的外部模块，处理 PDF 文件并非难事。本文将使用 PyPDF2 模块演示如何打开 PDF 文件、打印页面和提取文本。关于 PDF 文件的创建和编辑，请参考我的另一篇教程。准备工作核心在于使用外部模块 PyPDF2。首先，使用 pip 安装它： pip 是 P