Prédiction du prix des ordinateurs portables avec ML-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Prédiction du prix des ordinateurs portables avec ML

Linda Hamilton

Jan 03, 2025 am 10:13 AM

Dans mon article précédent, j'ai créé un script pour générer un CSV avec des données d'ordinateur portable, en effectuant du web scraping dans PCComponentes.

Cette idée est née en essayant de créer un modèle de Machine Learning qui, en fonction des composants que vous fournissez, prédit le prix de l'appareil. Cependant, lors de mes recherches, j'ai trouvé un DataFrame public qui pouvait être utilisé pour entraîner le modèle, mais il avait un problème : les prix remontaient à 2015, ce qui le rendait peu utile.

Pour cette raison, j'ai décidé de construire un DataFrame directement depuis le site PCComponentes, ce qui me permettrait d'avoir des données mises à jour et fiables. De plus, ce processus pourrait être automatisé à l'avenir (au moins jusqu'à ce que PCComponentes modifie la structure de son site Web).

Allons-y !

Traitement des données DataFrame

Avant d'entraîner le modèle, il est nécessaire d'organiser et de nettoyer les données pour les rendre plus faciles à lire et à traiter. Pour cela, nous utiliserons les bibliothèques Numpy, Pandas et Matplotlib, largement utilisées dans l'analyse et le traitement des données.

La première chose est d'importer ces bibliothèques et d'ouvrir le CSV généré :

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt

Ensuite, on supprime les lignes avec des valeurs vides ou nulles :

df = df.dropna()

Analyse et filtrage des données

Commençons par analyser les différents types de processeurs disponibles. Pour les visualiser, nous utiliserons la bibliothèque Seaborn :

import seaborn as sns  
sns.countplot(data=df, x='CPU')

Predicción de Precios de Portátiles con ML

Ici, nous voyons qu'il existe 207 types de processeurs différents. Entraîner un modèle avec toutes ces valeurs pourrait être problématique, car une grande partie des données ne seraient pas pertinentes et généreraient du bruit qui affecterait les performances.

Au lieu de supprimer toute la colonne, nous filtrerons les valeurs les plus pertinentes :

def cpu_type_define(text):
    text = text.split(' ')
    if text[0] == 'intel':
        if 'i' in text[-1]:
            if text[-1].split('-')[0] == 'i3':
                return 'low gamma intel processor'

            return text[0]+' '+text[1]+' '+text[-1].split('-')[0] 

        return 'low gamma intel processor'
    elif text[0] == 'amd':
        if text[1] == 'ryzen':
            if text[2] == '3':
                return 'low gamma amd processor'

            return text[0]+' '+text[1]+' '+text[2]

        return 'low gamma amd processor'
    elif 'm' in text[0]:
        return 'Mac Processor'
    else:
        return 'Other Processor'

data['Cpu'] = data['Cpu'].apply(cpu_type_define)
sns.histplot(data=data,x='Cpu')
data['Cpu'].value_counts()

Résultant en :

Predicción de Precios de Portátiles con ML

Filtrage GPU

Nous effectuons un processus similaire avec les cartes graphiques (GPU), en réduisant le nombre de catégories pour éviter le bruit dans les données :

def gpu_type_define(text):    

    if 'rtx' in text:

        num = int(''.join([char for char in text if char.isdigit()]))

        if num == 4080 or num == 4090 or num == 3080:
            return 'Nvidia High gamma'
        elif num == 4070 or num == 3070 or num == 4060 or num == 2080:
            return 'Nivida medium gamma'
        elif num == 3050 or num == 3060 or num == 4050 or num == 2070:
            return 'Nvidia low gamma'
        else:
            return 'Other nvidia grafic card'

    elif 'radeon' in text:

        if 'rx' in text:
            return 'Amd High gamma'
        else:
            return 'Amd low Gamma'

    elif 'gpu' in text:
        return 'Apple integrated graphics'

    return text



data['Gpu'] = data['Gpu'].apply(gpu_type_define)
sns.histplot(data=data,x='Gpu')
data['Gpu'].value_counts()

Résultat :

Predicción de Precios de Portátiles con ML

Traitement du stockage et de la RAM

Pour simplifier le stockage des données, nous combinons l'espace total de tous les disques durs en une seule valeur :

def fitler_ssd(text):
    two_discs = text.split('+')


    if len(two_discs) == 2:
        return int(''.join([char for char in two_discs[0] if char.isdigit()])) + int(''.join([char for char in two_discs[1] if char.isdigit()]))        
    else:
        return int(''.join([char for char in text if char.isdigit()]))

data['SSD'] = data['SSD'].str.replace('tb','000')
data['SSD'] = data['SSD'].str.replace('gb','')
data['SSD'] = data['SSD'].str.replace('emmc','')
data['SSD'] = data['SSD'].str.replace('ssd','')

Enfin, on filtre les valeurs de RAM pour ne garder que les chiffres :

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt

Codage de données non numériques

Avant d'entraîner le modèle, il est nécessaire de transformer les colonnes non numériques en données que l'algorithme peut interpréter. Pour cela, nous utilisons le ColumnTransformer et le OneHotEncoder de la bibliothèque sklearn :

df = df.dropna()

Formation sur modèle

J'ai testé plusieurs algorithmes de Machine Learning pour déterminer lequel était le plus efficace selon le coefficient de détermination (R2 Score). Voici les résultats :

Modelo	R2 Score
Logistic Regression	-4086280.26
Random Forest	0.8025
ExtraTreeRegressor	0.7531
GradientBoostingRegressor	0.8025
XGBRegressor	0.7556

Les meilleurs résultats ont été obtenus avec Random Forest et GradientBoostingRegressor, tous deux avec un R2 proche de 1.

Pour m'améliorer encore, j'ai combiné ces algorithmes à l'aide d'un régresseur de vote, obtenant un score R2 de 0,8085 :

import seaborn as sns  
sns.countplot(data=df, x='CPU')

Conclusion

Le modèle formé avec le Voting Regressor était le plus efficace. Vous êtes maintenant prêt à l'intégrer dans une application web, ce que j'expliquerai en détail dans le prochain post.

Lien vers le projet

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Comment le choix entre les listes et les tableaux a-t-il un impact sur les performances globales d'une application Python traitant de grands ensembles de données?May 03, 2025 am 12:11 AM

ForhandlingLargedatasetSInpython, UsenumpyArraysforbetterperformance.1) NumpyArraysAremeMory-EfficientAndFasterFornumericalOperations.2) EvitUnneceSsaryTypeConversions.3) Le effet de levier

Expliquez comment la mémoire est allouée aux listes par rapport aux tableaux dans Python.May 03, 2025 am 12:10 AM

Inpython, listSusedynamicMemoryallocation withover-allocation, whileLumpyArraySallocateFixedMemory.1) listsallocatemoreMoryThreededEdededInitialement, redimensipwenessary.2) NumpyArraySallocateExactMemoryForElements, offrantwectable usinessflexibilité.

Comment spécifiez-vous le type d'éléments de données dans un tableau Python?May 03, 2025 am 12:06 AM

Inpython, YouCanscthedatatatypeyfelemememedenernSspant.1) usenpynernrump.1) usenpynerp.dloatp.ploatm64, formateur préséconstrolatatype.

Qu'est-ce que Numpy et pourquoi est-il important pour l'informatique numérique dans Python?May 03, 2025 am 12:03 AM

NumpyissentialFornumericalComputingInpythondutOtsSpeed, MemoryEfficiency et ComprehenSiveMathematicalFunctions.1) It'sfastBecauseitPerformSoperations INC.2) NumpyArraySareMoremory-EfficientThanpythonlists.3)

Discutez du concept de «l'allocation de la mémoire contigu» et de son importance pour les tableaux.May 03, 2025 am 12:01 AM

ContigusMymoryallocationiscrucialforAraySBauseitallowsforefficient andfastelementAccess.1) iTenablesConstanttimeAccess, o (1), duetoDirectAddressCalculation.2) itimproveScacheefficiendyAllowingMultipleElementFetchesperCacheline.3) itsimplieniesMemorymorymorymorymorymory

Comment coupez-vous une liste de python?May 02, 2025 am 12:14 AM

SlitingyPapyThonListIsDoneUsingTheSyntaxList [Démarrage: arrêt: étape] .He'showitworks: 1) startisheindexofthefirStelementoinclude.2) stopisTheIndexoftheFirstelementsoexclude.3) StepistheincrementBetweenselans.it'susefulfactingPortationSoListShsandCanusegeg

Quelles sont les opérations communes qui peuvent être effectuées sur des tableaux Numpy?May 02, 2025 am 12:09 AM

NumpyAllowsForvariousOperations ONARRAYS: 1) BasicarithmeticLikeaddition, Soustraction, Multiplication, anddivision; 2) AdvancedOperationSuchasmatrixMultiplication; 3) Element-Wiseoperations withoutExplicitloop

Comment les tableaux sont-ils utilisés dans l'analyse des données avec Python?May 02, 2025 am 12:09 AM

ArraySinpython, en particulier ThroughNumpyandPandas, aressentialfordataanalysis, offingspeeedAfficiency.1) numpyarrayablefficienthandlingoflargedatasetsandComplexOperationsLikEMoVingAverages.2)

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

4 Il y a quelques semainesByDDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

3 Il y a quelques semainesByDDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semainesByDDD

Niveaux de force pour chaque ennemi et monstre de R.E.P.O.

3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Blue Prince: Comment se rendre au sous-sol

3 Il y a quelques semainesByDDD

Afficher plus

Outils chauds

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Dreamweaver CS6

Outils de développement Web visuel

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7922

1652

1411

1303

1249