如何在Python中将Scikit-learn的IRIS数据集转换为只有两个特征的数据集？-Python教程-PHP中文网

首页

后端开发

Python教程

如何在Python中将Scikit-learn的IRIS数据集转换为只有两个特征的数据集？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 30, 2023 pm 09:49 PM

数据集转换特征

如何在Python中将Scikit-learn的IRIS数据集转换为只有两个特征的数据集？

Iris，一个多元花卉数据集，是最有用的 Pyhton scikit-learn 数据集之一。它分为 3 类，每类 50 个实例，包含三种鸢尾花（山鸢尾、维吉尼亚鸢尾和杂色鸢尾）的萼片和花瓣部分的测量值。除此之外，Iris 数据集包含这三个物种中每个物种的 50 个实例，并由四个特征组成，即 sepal_length (cm)、sepal_width (cm)、petal_length (cm)、petal_width (cm)。

我们可以使用主成分分析（PCA）将 IRIS 数据集转换为具有 2 个特征的新特征空间。

步骤

我们可以按照下面给出的步骤，使用 Python 中的 PCA 将 IRIS 数据集转换为 2 特征数据集 -

第 1 步 - 首先，从 scikit-learn 导入必要的包。我们需要导入数据集和分解包。

步骤 2 - 加载 IRIS 数据集。

步骤 3 - 打印有关数据集的详细信息。

步骤 4 - 初始化主成分分析 (PCA) 并应用 fit() 函数来拟合数据。 p>

步骤 5 - 将数据集转换为新维度，即 2 特征数据集。

示例

在下面的示例中，我们将使用上述步骤通过 PCA 将 scikit-learn IRIS 植物数据集转换为 2 个特征。

# Importing the necessary packages
from sklearn import datasets
from sklearn import decomposition

# Load iris plant dataset
iris = datasets.load_iris()

# Print details about the dataset
print('Features names : '+str(iris.feature_names))
print('\n')
print('Features size : '+str(iris.data.shape))
print('\n')
print('Target names : '+str(iris.target_names))
print('\n')
X_iris, Y_iris = iris.data, iris.target

# Initialize PCA and fit the data
pca_2 = decomposition.PCA(n_components=2)
pca_2.fit(X_iris)

# Transforming iris data to new dimensions(with 2 features)
X_iris_pca2 = pca_2.transform(X_iris)

# Printing new dataset
print('New Dataset size after transformations: ', X_iris_pca2.shape)

输出

它将产生以下输出 -

Features names : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

Features size : (150, 4)

Target names : ['setosa' 'versicolor' 'virginica']

New Dataset size after transformations: (150, 2)

如何将 Iris 数据集转换为 3 特征数据集？

我们可以使用称为主成分分析（PCA）的统计方法将 Iris 数据集转换为具有 3 个特征的新特征空间。 PCA通过分析原始数据集的特征，基本上将数据线性投影到新的特征空间中。

PCA 背后的主要概念是选择数据的“主要”特征并基于它们构建特征。它将为我们提供新的数据集，该数据集的大小较小，但具有与原始数据集相同的信息。

示例

在下面的示例中，我们将使用 PCA 转换 scikit-learn Iris 植物数据集（用 3 个组件初始化）。

# Importing the necessary packages
from sklearn import datasets
from sklearn import decomposition

# Load iris plant dataset
iris = datasets.load_iris()

# Print details about the dataset
print('Features names : '+str(iris.feature_names))
print('\n')
print('Features size : '+str(iris.data.shape))
print('\n')
print('Target names : '+str(iris.target_names))
print('\n')
print('Target size : '+str(iris.target.shape))
X_iris, Y_iris = iris.data, iris.target

# Initialize PCA and fit the data
pca_3 = decomposition.PCA(n_components=3)
pca_3.fit(X_iris)

# Transforming iris data to new dimensions(with 2 features)
X_iris_pca3 = pca_3.transform(X_iris)

# Printing new dataset
print('New Dataset size after transformations : ', X_iris_pca3.shape)
print('\n')

# Getting the direction of maximum variance in data
print("Components : ", pca_3.components_)
print('\n')

# Getting the amount of variance explained by each component
print("Explained Variance:",pca_3.explained_variance_)
print('\n')

# Getting the percentage of variance explained by each component
print("Explained Variance Ratio:",pca_3.explained_variance_ratio_)
print('\n')

# Getting the singular values for each component
print("Singular Values :",pca_3.singular_values_)
print('\n')

# Getting estimated noise covariance
print("Noise Variance :",pca_3.noise_variance_)

输出

它将产生以下输出 -

Features names : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

Features size : (150, 4)

Target names : ['setosa' 'versicolor' 'virginica']

Target size : (150,)
New Dataset size after transformations : (150, 3)

Components : [[ 0.36138659 -0.08452251 0.85667061 0.3582892 ]
[ 0.65658877 0.73016143 -0.17337266 -0.07548102]
[-0.58202985 0.59791083 0.07623608 0.54583143]]

Explained Variance: [4.22824171 0.24267075 0.0782095 ]

Explained Variance Ratio: [0.92461872 0.05306648 0.01710261]

Singular Values : [25.09996044 6.01314738 3.41368064]

Noise Variance : 0.02383509297344944

以上是如何在Python中将Scikit-learn的IRIS数据集转换为只有两个特征的数据集？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：tutorialspoint。如有侵权，请联系admin@php.cn删除

Python与C：学习曲线和易用性Apr 19, 2025 am 12:20 AM

Python更易学且易用，C 则更强大但复杂。1.Python语法简洁，适合初学者，动态类型和自动内存管理使其易用，但可能导致运行时错误。2.C 提供低级控制和高级特性，适合高性能应用，但学习门槛高，需手动管理内存和类型安全。

Python vs. C：内存管理和控制Apr 19, 2025 am 12:17 AM

Python和C 在内存管理和控制方面的差异显着。 1.Python使用自动内存管理，基于引用计数和垃圾回收，简化了程序员的工作。 2.C 则要求手动管理内存，提供更多控制权但增加了复杂性和出错风险。选择哪种语言应基于项目需求和团队技术栈。

科学计算的Python：详细的外观Apr 19, 2025 am 12:15 AM

Python在科学计算中的应用包括数据分析、机器学习、数值模拟和可视化。1.Numpy提供高效的多维数组和数学函数。2.SciPy扩展Numpy功能，提供优化和线性代数工具。3.Pandas用于数据处理和分析。4.Matplotlib用于生成各种图表和可视化结果。

Python和C：找到合适的工具Apr 19, 2025 am 12:04 AM

选择Python还是C 取决于项目需求：1)Python适合快速开发、数据科学和脚本编写，因其简洁语法和丰富库；2)C 适用于需要高性能和底层控制的场景，如系统编程和游戏开发，因其编译型和手动内存管理。

数据科学和机器学习的PythonApr 19, 2025 am 12:02 AM

Python在数据科学和机器学习中的应用广泛，主要依赖于其简洁性和强大的库生态系统。1）Pandas用于数据处理和分析，2）Numpy提供高效的数值计算，3）Scikit-learn用于机器学习模型构建和优化，这些库让Python成为数据科学和机器学习的理想工具。

学习Python：2小时的每日学习是否足够？Apr 18, 2025 am 12:22 AM

每天学习Python两个小时是否足够？这取决于你的目标和学习方法。1)制定清晰的学习计划，2)选择合适的学习资源和方法，3)动手实践和复习巩固，可以在这段时间内逐步掌握Python的基本知识和高级功能。

Web开发的Python：关键应用程序Apr 18, 2025 am 12:20 AM

Python在Web开发中的关键应用包括使用Django和Flask框架、API开发、数据分析与可视化、机器学习与AI、以及性能优化。1.Django和Flask框架：Django适合快速开发复杂应用，Flask适用于小型或高度自定义项目。2.API开发：使用Flask或DjangoRESTFramework构建RESTfulAPI。3.数据分析与可视化：利用Python处理数据并通过Web界面展示。4.机器学习与AI：Python用于构建智能Web应用。5.性能优化：通过异步编程、缓存和代码优