Maison >développement back-end >tutoriel php >Apprentissage automatique en PHP : créez un classificateur d'actualités à l'aide de Rubix ML

Apprentissage automatique en PHP : créez un classificateur d'actualités à l'aide de Rubix ML

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-11-03 03:33:31428parcourir

Machine Learning in PHP: Build a News Classifier Using Rubix ML

Introduction

L'apprentissage automatique est omniprésent : il recommande des films, marque des images et classe même désormais des articles d'actualité. Imaginez si vous pouviez faire cela en PHP ! Avec Rubix ML, vous pouvez apporter la puissance du machine learning à PHP d'une manière simple et accessible. Ce guide vous guidera dans la création d'un classificateur d'actualités simple qui trie les articles en catégories telles que « Sports » ou « Technologie ». À la fin, vous disposerez d'un classificateur fonctionnel capable de prédire les catégories de nouveaux articles en fonction de leur contenu.

Ce projet est parfait pour les débutants qui souhaitent se lancer dans l'apprentissage automatique à l'aide de PHP, et vous pouvez suivre le code complet sur GitHub.

Table des matières

  1. Qu'est-ce que Rubix ML ?
  2. Mise en place du projet
  3. Création de la classe de classification des actualités
  4. Formation du modèle
  5. Prédire de nouveaux échantillons
  6. Pensées finales

Qu’est-ce que Rubix ML ?

Rubix ML est une bibliothèque d'apprentissage automatique pour PHP qui intègre les outils et algorithmes de ML dans un environnement compatible PHP. Que vous travailliez sur la classification, la régression, le clustering ou même le traitement du langage naturel, Rubix ML est là pour vous. Il vous permet de charger et de prétraiter des données, d'entraîner des modèles et d'évaluer les performances, le tout en PHP.

Rubix ML prend en charge un large éventail de tâches d'apprentissage automatique, telles que :

  • Classification : catégoriser les données, comme étiqueter les e-mails comme spam ou non spam.
  • Régression : Prédire des valeurs continues, comme les prix de l'immobilier.
  • Clustering : regrouper des données sans étiquettes, comme rechercher des segments de clientèle.
  • Traitement du langage naturel (NLP) : Travailler avec des données textuelles, telles que leur tokenisation et leur transformation en formats utilisables pour le ML.

Voyons comment utiliser Rubix ML pour créer un classificateur d'actualités simple en PHP !

Mise en place du projet

Nous allons commencer par mettre en place un nouveau projet PHP avec Rubix ML et configurer le chargement automatique.

Étape 1 : initialiser le répertoire du projet

Créez un nouveau répertoire de projet et accédez-y :

mkdir NewsClassifier
cd NewsClassifier

Étape 2 : Installez Rubix ML avec Composer

Assurez-vous que Composer est installé, puis ajoutez Rubix ML à votre projet en exécutant :

composer require rubix/ml

Étape 3 : Configurer le chargement automatique dans composer.json

Pour charger automatiquement les classes depuis le répertoire src de notre projet, ouvrez ou créez un fichier composer.json et ajoutez la configuration suivante :

{
    "autoload": {
        "psr-4": {
            "NewsClassifier\": "src/"
        }
    },
    "require": {
        "rubix/ml": "^2.5"
    }
}

Cela indique à Composer de charger automatiquement toutes les classes du dossier src sous l'espace de noms NewsClassifier.

Étape 4 : Exécutez le vidage du chargement automatique du Composer

Après avoir ajouté la configuration de chargement automatique, exécutez la commande suivante pour régénérer le chargeur automatique de Composer :

mkdir NewsClassifier
cd NewsClassifier

Étape 5 : Structure des répertoires

Votre répertoire de projet devrait ressembler à ceci :

composer require rubix/ml
  • src/ : Contient vos scripts PHP.
  • stockage/ : Où le modèle entraîné sera enregistré.
  • vendor/ : contient les dépendances installées par Composer.

Création de la classe de classification des actualités

Dans src/, créez un fichier appelé Classification.php. Ce fichier contiendra les méthodes d'entraînement du modèle et de prédiction des catégories d'actualités.

{
    "autoload": {
        "psr-4": {
            "NewsClassifier\": "src/"
        }
    },
    "require": {
        "rubix/ml": "^2.5"
    }
}

Cette classe de classification contient des méthodes pour :

  • Train : créez et entraînez un modèle basé sur un pipeline.
  • Enregistrer le modèle : enregistrez le modèle entraîné dans le chemin spécifié.
  • Prédire : chargez le modèle enregistré et prédisez la catégorie pour les nouveaux échantillons.

Entraîner le modèle

Créez un script appelé train.php dans src/ pour entraîner le modèle.

composer dump-autoload

Exécutez ce script pour entraîner le modèle :

NewsClassifier/
├── src/
│   ├── Classification.php
│   └── train.php
├── storage/
├── vendor/
├── composer.json
└── composer.lock

En cas de succès, vous verrez :

<?php

namespace NewsClassifier;

use Rubix\ML\Classifiers\KNearestNeighbors;
use Rubix\ML\Datasets\Labeled;
use Rubix\ML\Datasets\Unlabeled;
use Rubix\ML\PersistentModel;
use Rubix\ML\Pipeline;
use Rubix\ML\Tokenizers\Word;
use Rubix\ML\Transformers\TfIdfTransformer;
use Rubix\ML\Transformers\WordCountVectorizer;
use Rubix\ML\Persisters\Filesystem;

class Classification
{
    private $modelPath;

    public function __construct($modelPath)
    {
        $this->modelPath = $modelPath;
    }

    public function train()
    {
        // Sample data and corresponding labels
        $samples = [
            ['The team played an amazing game of soccer'],
            ['The new programming language has been released'],
            ['The match between the two teams was incredible'],
            ['The new tech gadget has been launched'],
        ];

        $labels = [
            'sports',
            'technology',
            'sports',
            'technology',
        ];

        // Create a labeled dataset
        $dataset = new Labeled($samples, $labels);

        // Set up the pipeline with a text transformer and K-Nearest Neighbors classifier
        $estimator = new Pipeline([
            new WordCountVectorizer(10000, 1, 1, new Word()),
            new TfIdfTransformer(),
        ], new KNearestNeighbors(4));

        // Train the model
        $estimator->train($dataset);

        // Save the model
        $this->saveModel($estimator);

        echo "Training completed and model saved.\n";
    }

    private function saveModel($estimator)
    {
        $persister = new Filesystem($this->modelPath);
        $model = new PersistentModel($estimator, $persister);
        $model->save();
    }

    public function predict(array $samples)
    {
        // Load the saved model
        $persister = new Filesystem($this->modelPath);
        $model = PersistentModel::load($persister);

        // Predict categories for new samples
        $dataset = new Unlabeled($samples);
        return $model->predict($dataset);
    }
}

Prédire de nouveaux échantillons

Créez un autre script, prédire.php, dans src/ pour classer les nouveaux articles en fonction du modèle entraîné.

<?php

require __DIR__ . '/../vendor/autoload.php';

use NewsClassifier\Classification;

// Define the model path
$modelPath = __DIR__ . '/../storage/model.rbx';

// Initialize the Classification object
$classifier = new Classification($modelPath);

// Train the model and save it
$classifier->train();

Exécutez le script de prédiction pour classer les échantillons :

php src/train.php

La sortie doit afficher chaque exemple de texte avec sa catégorie prédite.

Pensées finales

Avec ce guide, vous avez réussi à créer un classificateur d'actualités simple en PHP à l'aide de Rubix ML ! Cela démontre à quel point PHP peut être plus polyvalent que vous ne le pensez, en intégrant des capacités d'apprentissage automatique pour des tâches telles que la classification de texte, les systèmes de recommandation, etc. Le code complet de ce projet est disponible sur GitHub.

Expérimentez avec différents algorithmes ou données pour étendre le classificateur. Qui aurait cru que PHP pouvait faire du machine learning ? Maintenant c’est fait.
Bon codage !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn