Rumah > Artikel > pembangunan bahagian belakang > Bagaimana untuk membaca set data dalam python
Cara membaca set data dalam Python: Gunakan Pandas untuk membaca ke dalam jadual data menggunakan pd.read_csv(), pd.read_excel() atau pd.read_json(). Gunakan NumPy untuk membaca dalam tatasusunan berbilang dimensi menggunakan np.genfromtxt(). Gunakan scikit-learn untuk memuatkan set data standard menggunakan datasets.load_digits() atau datasets.load_iris(). Kaedah lain termasuk menggunakan modul csv dan json Python, dan perpustakaan pihak ketiga seperti xlrd.
Cara membaca set data dalam Python
Dalam pembelajaran mesin dan sains data, membaca dan memproses set data adalah penting. Python menyediakan pelbagai perpustakaan dan fungsi yang menjadikan proses ini mudah dan cekap.
1. Menggunakan Pandas
Pustaka Pandas menyediakan kaedah yang berkesan untuk membaca dan memanipulasi jadual data. Untuk membaca set data menggunakan Panda, gunakan langkah berikut:
<code class="python">import pandas as pd # 从 CSV 文件读取数据集 df = pd.read_csv('data.csv') # 从 Excel 文件读取数据集 df = pd.read_excel('data.xlsx') # 从 JSON 文件读取数据集 df = pd.read_json('data.json')</code>
2. Menggunakan NumPy
Pustaka NumPy menyediakan kaedah untuk membaca dan memanipulasi tatasusunan berbilang dimensi. Untuk membaca set data menggunakan NumPy, gunakan langkah berikut:
<code class="python">import numpy as np # 从 CSV 文件读取数据集 data = np.genfromtxt('data.csv', delimiter=',') # 从 Excel 文件读取数据集 data = np.genfromtxt('data.xlsx', delimiter=',', skip_header=1)</code>
3 Menggunakan scikit-learn
Pustaka scikit-learn menyediakan kaedah yang mudah untuk membaca dan memuatkan pelbagai set data. Untuk memuatkan set data menggunakan scikit-learn, gunakan langkah berikut:
<code class="python">from sklearn import datasets # 加载内置数据集 digits = datasets.load_digits() # 加载第三方数据集 iris = datasets.load_iris()</code>
4 Kaedah lain
Selain perpustakaan di atas, terdapat cara lain untuk membaca set data, seperti:
Pilih kaedah yang sesuai
satu untuk dipilih Kaedah yang digunakan untuk membaca set data bergantung pada format set data, saiz dan operasi yang diperlukan. Jika anda perlu bekerja dengan jadual data, Pandas ialah pilihan yang baik. Jika anda perlu bekerja dengan tatasusunan berbilang dimensi, NumPy boleh memenuhi keperluan anda. scikit-learn sangat bagus untuk memuatkan set data standard.
Atas ialah kandungan terperinci Bagaimana untuk membaca set data dalam python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!