L'apprentissage automatique transforme divers secteurs, dont l'immobilier. Une tâche courante consiste à prédire les prix des logements en fonction de diverses caractéristiques telles que le nombre de chambres, de salles de bains, la superficie en pieds carrés et l'emplacement. Dans cet article, nous explorerons comment créer un modèle d'apprentissage automatique à l'aide de scikit-learn pour prédire les prix de l'immobilier, couvrant tous les aspects, du prétraitement des données au déploiement du modèle.
Scikit-learn est l'une des bibliothèques les plus utilisées pour l'apprentissage automatique en Python. Il propose des outils simples et efficaces pour l’analyse et la modélisation des données. Qu'il s'agisse de classification, de régression, de clustering ou de réduction de dimensionnalité, scikit-learn fournit un ensemble complet d'utilitaires pour vous aider à créer des modèles d'apprentissage automatique robustes.
Dans ce guide, nous allons construire un modèle de régression en utilisant scikit-learn pour prédire les prix de l'immobilier. Passons en revue chaque étape du processus.
La tâche à accomplir est de prédire le prix d'une maison en fonction de ses caractéristiques telles que :
Il s'agit d'un problème d'apprentissage supervisé où la variable cible (prix de l'immobilier) est continue, ce qui en fait une tâche de régression. Scikit-learn fournit une variété d'algorithmes de régression, tels que la Régression linéaire et la Forêt aléatoire, que nous utiliserons dans ce projet.
Vous pouvez soit utiliser un ensemble de données du monde réel comme l'ensemble de données Kaggle House Prices, soit collecter vos propres données à partir d'une API publique.
Voici un exemple de ce à quoi pourraient ressembler vos données :
Bedrooms | Bathrooms | Area (sq.ft) | Location | Price ($) |
---|---|---|---|---|
3 | 2 | 1500 | Boston | 300,000 |
4 | 3 | 2000 | Seattle | 500,000 |
여기서 타겟 변수는 가격입니다.
머신러닝 모델에 데이터를 입력하기 전에 사전 처리가 필요합니다. 여기에는 누락된 값 처리, 범주형 기능 인코딩, 데이터 크기 조정이 포함됩니다.
실제 데이터세트에서는 데이터 누락이 흔히 발생합니다. 중앙값과 같은 통계 측정값을 사용하여 누락된 값을 채우거나 누락된 데이터가 있는 행을 삭제할 수 있습니다.
data.fillna(data.median(), inplace=True)
머신러닝 모델에는 숫자 입력이 필요하므로 위치와 같은 범주형 특성을 숫자로 변환해야 합니다. 라벨 인코딩은 각 카테고리에 고유 번호를 할당합니다.
from sklearn.preprocessing import LabelEncoder encoder = LabelEncoder() data['Location'] = encoder.fit_transform(data['Location'])
특징 크기에 민감한 알고리즘의 경우 면적 및 가격과 같은 특성의 크기를 동일하게 유지하는 것이 중요합니다. 스케일링을 적용하는 방법은 다음과 같습니다.
from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_scaled = scaler.fit_transform(X)
모든 기능이 대상 변수에 동일하게 기여하는 것은 아닙니다. 특징 선택은 가장 중요한 특징을 식별하는 데 도움이 되어 모델 성능을 향상시키고 과적합을 줄입니다.
이 프로젝트에서는 SelectKBest를 사용하여 대상 변수와의 상관 관계를 기반으로 상위 5개 기능을 선택합니다.
from sklearn.feature_selection import SelectKBest, f_regression selector = SelectKBest(score_func=f_regression, k=5) X_new = selector.fit_transform(X, y)
이제 데이터를 전처리하고 최상의 기능을 선택했으므로 모델을 학습할 차례입니다. 선형 회귀와 Random Forest
라는 두 가지 회귀 알고리즘을 사용하겠습니다.선형 회귀는 데이터를 직선으로 연결하여 예측 값과 실제 값 간의 차이를 최소화합니다.
from sklearn.linear_model import LinearRegression linear_model = LinearRegression() linear_model.fit(X_train, y_train)
Random Forest는 다중 결정 트리를 사용하고 그 결과를 평균화하여 정확도를 높이고 과적합을 줄이는 앙상블 방법입니다.
from sklearn.ensemble import RandomForestRegressor forest_model = RandomForestRegressor(n_estimators=100) forest_model.fit(X_train, y_train)
모델이 얼마나 잘 일반화되는지 평가하기 위해 데이터를 학습 세트와 테스트 세트로 분할했습니다.
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=42)
모델을 훈련한 후에는 평균 제곱 오차(MSE) 및 R 제곱(R²)과 같은 지표를 사용하여 성능을 평가해야 합니다.
MSE는 예측값과 실제값 간의 평균 제곱 차이를 계산합니다. MSE가 낮을수록 성능이 향상됩니다.
from sklearn.metrics import mean_squared_error mse = mean_squared_error(y_test, y_pred)
R²는 모델이 목표 변수의 분산을 얼마나 잘 설명하는지 알려줍니다. 값이 1이면 완벽한 예측을 의미합니다.
from sklearn.metrics import r2_score r2 = r2_score(y_test, y_pred)
이러한 측정항목을 사용하여 선형 회귀 모델과 Random Forest 모델의 성능을 비교합니다.
모델 성능을 더욱 향상시키기 위해 초매개변수를 미세 조정할 수 있습니다. Random Forest의 경우 n_estimators(트리 수) 및 max_length(트리의 최대 깊이)와 같은 하이퍼매개변수가 성능에 큰 영향을 미칠 수 있습니다.
초매개변수 최적화를 위해 GridSearchCV를 사용하는 방법은 다음과 같습니다.
from sklearn.model_selection import GridSearchCV param_grid = { 'n_estimators': [50, 100, 200], 'max_depth': [None, 10, 20] } grid_search = GridSearchCV(RandomForestRegressor(), param_grid, cv=5) grid_search.fit(X_train, y_train) best_model = grid_search.best_estimator_
모델을 훈련하고 조정한 후 다음 단계는 배포입니다. Flask를 사용하여 예측을 제공하는 간단한 웹 애플리케이션을 만들 수 있습니다.
다음은 주택 가격 예측을 제공하는 기본 Flask 앱입니다.
from flask import Flask, request, jsonify import joblib app = Flask(__name__) # Load the trained model model = joblib.load('best_model.pkl') @app.route('/predict', methods=['POST']) def predict(): data = request.json prediction = model.predict([data['features']]) return jsonify({'predicted_price': prediction[0]}) if __name__ == '__main__': app.run()
joblib를 사용하여 훈련된 모델을 저장합니다.
import joblib joblib.dump(best_model, 'best_model.pkl')
이렇게 하면 API에 요청을 보내 예측을 할 수 있습니다.
이 프로젝트에서는 집값 예측을 위해 scikit-learn을 사용하여 머신러닝 모델을 구축하는 전체 과정을 살펴보았습니다. 데이터 전처리 및 기능 선택부터 모델 학습, 평가, 배포까지 각 단계를 실제 코드 예제로 다루었습니다.
머신러닝을 처음 접하는 사람이든 실제 프로젝트에 scikit-learn을 적용하려는 사람이든 이 가이드는 다양한 회귀 작업에 적용할 수 있는 포괄적인 워크플로를 제공합니다.
모델의 성능과 정확성을 높이기 위해 다양한 모델, 데이터 세트, 기술을 자유롭게 실험해 보세요.
위 내용은 Scikit-learn을 사용한 주택 가격 예측: 완전한 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!