プロジェクト - Python による教師あり学習 - 心臓発作の可能性を予測するためにロジスティック回帰を使用してみましょう-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

プロジェクト - Python による教師あり学習 - 心臓発作の可能性を予測するためにロジスティック回帰を使用してみましょう

DDD

Jan 18, 2025 pm 10:14 PM

Project - Supervised Learning with Python - Lets use Logistic Regression for Predicting the chances of having a Heart Attack

このチュートリアルでは、Python と LogisticRegression アルゴリズムを使用して心臓発作の可能性を予測する機械学習プロジェクトを示します。 Kaggle から取得したデータセットは、予測モデルを構築するために分析されます。

主要な概念:

ロジスティック回帰
StandardScaler (sklearn.preprocessing)
fit_transform()
train_test_split()
model.predict()
model.predict_proba()
classification_report()
roc_auc_score()

プロジェクトの目標:

このプロジェクトは、患者データに基づいて心臓発作のリスクを予測する際のロジスティック回帰の実際的な応用を説明することを目的としています。 Python の機能を活用して、この予測モデルを構築して評価します。

Jupyter Notebook とデータセットはここから入手できます:

ノートブック: https://www.php.cn/link/aa3f874fb850d8908be9af3a69af4289

データセット: https://www.php.cn/link/4223a1d5b9e017dda51515829140e5d2 (Kaggle ソース: https://www.php.cn/link/5bb77e5c6d452aee283844d47756dc05)

将来の計画:

今後のチュートリアルでは、この Kaggle ロードマップで概説されているように、教師あり学習と教師なし学習に焦点を当てて、追加の機械学習の概念を検討します: https://www.php.cn/link/4bea9e07f447fd088811cc81697a4d4e [#Machine Learning Engineer] 2025 年のロードマップ]

対象読者:

このチュートリアルは、機械学習の学習に興味がある Python 愛好家、特にこの分野の初心者向けに設計されています。これは、線形回帰を説明した以前のチュートリアルに基づいて構築されています。

ノートブックを自由に試して、さまざまな機械学習モデルを探索してください!

ステップバイステップガイド:

ステップ 1: データのロード

import pandas as pd

data = pd.read_csv('heart-disease-prediction.csv')
print(data.head())

これにより、pandas を使用してデータセットがロードされます。

ステップ 2: 探索的データ分析 (EDA)

print(data.info())

これは、データセットの構造とデータ型の概要を示します。

ステップ 3: 欠落データの処理

print(data.isnull().sum())
data.fillna(data.mean(), inplace=True)
print(data.isnull().sum())

欠損値は特定され、各列の平均を使用して埋められます。

ステップ 4: データの前処理

X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']]
y = data['TenYearCHD']

関連する特徴量 (X) とターゲット変数 (y) が選択されます。

ステップ 5: データの正規化

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)

モデルのパフォーマンスを向上させるために、データは StandardScaler を使用して正規化されます。

ステップ 6: データ分割

import pandas as pd

data = pd.read_csv('heart-disease-prediction.csv')
print(data.head())

データセットはトレーニングセットとテストセットに分割されます (80/20 分割)。

ステップ 7: モデルのトレーニング

print(data.info())

ロジスティック回帰モデルはトレーニングデータを使用してトレーニングされます。

ステップ 8: モデルの評価

print(data.isnull().sum())
data.fillna(data.mean(), inplace=True)
print(data.isnull().sum())

モデルのパフォーマンスは、classification_report と roc_auc_score を使用して評価されます。

ステップ 9: モデル予測

X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']]
y = data['TenYearCHD']

訓練されたモデルは、新しい患者の心臓病のリスクを予測するために使用されます。

さらなる実践のために追加の患者データが提供されます:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)

以上がプロジェクト - Python による教師あり学習 - 心臓発作の可能性を予測するためにロジスティック回帰を使用してみましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。