検索
ホームページバックエンド開発Python チュートリアルPython で scikit-learn 機械学習ライブラリを使用する方法。

はじめに

scikit-learn は、Python で最も人気のある機械学習ライブラリの 1 つで、分類、回帰、クラスタリング、次元削減などのさまざまな機械学習アルゴリズムとツールを提供します。

scikit-learn の利点は次のとおりです:

  • 使いやすい: scikit-learn のインターフェイスはシンプルで理解しやすいため、ユーザーは簡単に使い始めることができます。機械学習。統一された API: scikit-learn の API は非常に統一されており、さまざまなアルゴリズムの使用方法は基本的に同じであるため、学習と使用がより便利になります。

  • 多数の機械学習アルゴリズムの実装: scikit-learn は、さまざまな古典的な機械学習アルゴリズムを実装し、豊富なツールと機能を提供して、アルゴリズムのデバッグと最適化をより便利にします。

  • オープンソースで無料: scikit-learn は完全にオープンソースで無料であり、誰でもそのコードを使用および変更できます。

  • 効率的で安定した: scikit-learn は、さまざまな効率的な機械学習アルゴリズムを実装し、大規模なデータセットを処理でき、安定性と信頼性の点で優れたパフォーマンスを発揮します。 scikit-learn は、API が非常に統合されており、モデルが比較的シンプルであるため、初心者レベルの機械学習に非常に適しています。ここでのお勧めは、各モデルの適用範囲を紹介するだけでなく、コードサンプルも提供されている公式ドキュメントと合わせて学習することです。

線形回帰モデル - LinearRegression

LinearRegression モデルは、線形回帰に基づくモデルであり、連続変数の予測問題を解くのに適しています。このモデルの基本的な考え方は、線形方程式を確立し、独立変数と従属変数の間の関係を直線としてモデル化し、トレーニング データを使用して直線をフィッティングして線形方程式の係数を見つけることです。次に、この方程式を使用して、予測用のデータをテストします。

線形回帰モデルは、住宅価格予測、売上予測、ユーザー行動予測など、独立変数と従属変数の間に線形関係がある問題に適しています。もちろん、独立変数と従属変数の間の関係が非線形の場合、LinearRegression モデルのパフォーマンスは低下します。このとき、多項式回帰、リッジ回帰、ラッソ回帰などの手法を使用して問題を解決できます。

データセットの準備

他の要因の影響を脇に置いた後、学習時間と学習パフォーマンスの間には一定の線形関係があります。もちろん、ここでの学習時間は効果的な学習を指します。時間、成績 勉強時間が増えると成績も上がります。そこで、学習時間と成績のデータセットを用意します。データセット内のデータの一部は次のとおりです:

学習時間、スコア
0.5,15
0.75,23
1.0,14
1.25,42
1.5,21
1.75,28
1.75,35
2.0,51
2.25,61
2.5,49

線形回帰を使用する

特徴量の合計を決定する 目標

学習時間と成績の間では、学習時間は独立変数である特徴であり、成績は従属変数であるラベルであるため、特徴量と成績を抽出する必要があります。準備された学習時間と成績のデータセットからラベルを取得します。

import pandas as pd
import numpy as np
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
# 读取学习时间和成绩CSV数据文件
data = pd.read_csv('data/study_time_score.csv')
# 提取数据特征学习时间
X = data['学习时间']
# 提取数据目标(标签)分数
Y = data['分数']

トレーニング セットとテスト セットを分割する

特徴データとラベル データが準備できたら、scikit-learn の LinearRegression をトレーニングに使用し、データ セットをトレーニング セットとテスト セットに分割します。 。

"""
将特征数据和目标数据划分为测试集和训练集
通过test_size=0.25将百分之二十五的数据划分为测试集
"""
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=0)
x_train = X_train.values.reshape(-1, 1)
model.fit(x_train, Y_train)

モデルを選択してデータを当てはめる

テスト セットとトレーニング セットを準備した後、トレーニング セットに適合する適切なモデルを選択できるため、他のターゲットに対応するターゲットを予測できます。機能

# 选择模型,选择模型为LinearRegression
model = LinearRegression()
# Scikit-learn中,机器学习模型的输入必须是一个二维数组。我们需要将一维数组转换为二维数组,才能在模型中使用。
x_train = X_train.values.reshape(-1, 1)
# 进行拟合
model.fit(x_train, Y_train)

モデル パラメーターの取得

データ セットには 2 つの学習時間と成績のみが含まれているため、非常に単純な線形モデルであり、その背後にある数式は y=ax b です。 , ここで、y 従属変数は成績、x 独立変数は学習時間です。

"""
输出模型关键参数
Intercept: 截距 即b
Coefficients: 变量权重 即a
"""
print('Intercept:', model.intercept_)
print('Coefficients:', model.coef_)

バックテスト

上記のフィッティング モデルでは、テスト セット データのみが使用されています。次に、テスト セット データを使用して、モデルのフィッティングに関するバックテストを実行する必要があります。トレーニングを使用した後、に設定すると、特徴テストセットを予測でき、得られたターゲット予測結果と実際のターゲット値を比較することで、モデルの適合度を取得できます。

# 转换为n行1列的二维数组
x_test = X_test.values.reshape(-1, 1)
# 在测试集上进行预测并计算评分
Y_pred = model.predict(x_test)
# 打印测试特征数据
print(x_test)
# 打印特征数据对应的预测结果
print(Y_pred)
# 将预测结果与原特征数据对应的实际目标值进行比较,从而获得模型拟合度
# R2 (R-squared):模型拟合优度,取值范围在0~1之间,越接近1表示模型越好的拟合了数据。
print("R2:", r2_score(Y_test, Y_pred))
  • プログラムの実行結果

  • 上記のコードに従って、LinearRegression モデルの適合度を判断する必要があります。つまり、データが適切かどうか。フィッティングには線形モデルを使用します。プログラムの実行結果は次のとおりです。

##予測結果:

[47.43726068 33.05457106 49.83437561 63.41802692 41.84399249 37.84880093
23.46611131 37. 84880093 26.66226456 71.40841004 18.67188144 88.9872529
63.41802692 42.6430308 21.86803469 6 9.81033341 66.61418017 33.05457106
58.62379705 50.63341392 18.67188144 41.044954 0 .8935675710322939

以上がPython で scikit-learn 機械学習ライブラリを使用する方法。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は亿速云で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
详细讲解Python之Seaborn(数据可视化)详细讲解Python之Seaborn(数据可视化)Apr 21, 2022 pm 06:08 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于Seaborn的相关问题,包括了数据可视化处理的散点图、折线图、条形图等等内容,下面一起来看一下,希望对大家有帮助。

详细了解Python进程池与进程锁详细了解Python进程池与进程锁May 10, 2022 pm 06:11 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于进程池与进程锁的相关问题,包括进程池的创建模块,进程池函数等等内容,下面一起来看一下,希望对大家有帮助。

Python自动化实践之筛选简历Python自动化实践之筛选简历Jun 07, 2022 pm 06:59 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于简历筛选的相关问题,包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容,下面一起来看一下,希望对大家有帮助。

归纳总结Python标准库归纳总结Python标准库May 03, 2022 am 09:00 AM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于标准库总结的相关问题,下面一起来看一下,希望对大家有帮助。

Python数据类型详解之字符串、数字Python数据类型详解之字符串、数字Apr 27, 2022 pm 07:27 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于数据类型之字符串、数字的相关问题,下面一起来看一下,希望对大家有帮助。

分享10款高效的VSCode插件,总有一款能够惊艳到你!!分享10款高效的VSCode插件,总有一款能够惊艳到你!!Mar 09, 2021 am 10:15 AM

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件,能够让原本单薄的VS Code如虎添翼,开发效率顿时提升到一个新的阶段。

详细介绍python的numpy模块详细介绍python的numpy模块May 19, 2022 am 11:43 AM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于numpy模块的相关问题,Numpy是Numerical Python extensions的缩写,字面意思是Python数值计算扩展,下面一起来看一下,希望对大家有帮助。

python中文是什么意思python中文是什么意思Jun 24, 2019 pm 02:22 PM

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间,Guido van Rossum在家闲的没事干,为了跟朋友庆祝圣诞节,决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python,所以便把这门语言叫做python。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境