recherche
Maisondéveloppement back-endTutoriel PythonAnalyse exploratoire des données : fouiller dans l'arriéré

Dans l'histoire inspirante des Six Triple Eight, la première étape de leur mission consistait à évaluer et à organiser un énorme arriéré de courrier non livré. Ces empilements, imposants jusqu'au plafond, ont dû être catégorisés et compris avant de pouvoir réaliser des progrès. Dans le monde de l'apprentissage automatique moderne, cette phase initiale s'apparente à l'Analyse exploratoire des données (EDA).

Pour cette série, nous reproduirons ce processus en utilisant un ensemble de données CSV, où chaque ligne contient une catégorie (par exemple, « technologie », « entreprise ») et le texte qui lui est associé. Les catégories fonctionnent comme des étiquettes, indiquant à quoi appartient chaque morceau de texte. Des outils tels que Pandas pour la manipulation des données, Matplotlib pour la visualisation, WordCloud pour les informations textuelles, Tiktoken pour l'analyse des jetons et NLTK pour le traitement de texte nous aideront à comprendre notre ensemble de données.

Dans cette étape, nous allons :

  1. Chargez les données et inspectez leur structure.

  2. Identifier les valeurs manquantes ou incohérentes qui pourraient nuire aux performances de notre modèle.

  3. Explorez les répartitions des catégories pour comprendre l'équilibre entre les étiquettes.

  4. Visualisez les fréquences des mots dans les données textuelles pour découvrir des modèles.

  5. Analysez le nombre de jetons à l'aide de Tiktoken pour mesurer la complexité.

Cette phase EDA reflète les efforts de tri méticuleux des Six Triple Eight, qui ont dû donner un sens au chaos avant de pouvoir remettre de l'ordre. En comprenant notre ensemble de données en détail, nous jetons les bases de la création d'un LLM affiné, capable de catégoriser et d'interpréter le texte avec précision.

Introduction

L'analyse exploratoire des données (EDA) revient à s'attaquer à un énorme arriéré de données : empilées, non organisées et remplies d'un potentiel inexploité. Tout comme l'unité Six Triple Eight s'est attaquée à l'énorme arriéré de courrier non livré pendant la Seconde Guerre mondiale, l'EDA est notre moyen de passer au crible le chaos pour découvrir des informations, identifier les tendances et préparer les prochaines étapes de l'analyse des données.

Dans cette exploration, nous plongerons dans un ensemble de données d'articles de presse de la BBC, démêlant sa structure, corrigeant les incohérences et découvrant les histoires enfouies dans les données. "

Évaluation du retard : aperçu de l'ensemble de données

Pour commencer, nous devons d'abord comprendre l'échelle et la structure de notre ensemble de données. L'ensemble de données d'articles d'actualité de la BBC comprend 2 234 entrées réparties dans cinq catégories : affaires, sports, politique, technologie et divertissement. Chaque entrée présente deux caractéristiques principales :

  • catégorie : le sujet ou la section de l'article.
  • texte : Le contenu complet de l'article.

Pour avoir une vue plus claire de ce avec quoi nous travaillons, nous avons chargé les données dans un Pandas DataFrame, effectué une inspection rapide et découvert :

Nettoyer l'arriéré

Alors que le Six Triple Eight s'est attaqué à des piles de courrier non triés, nous devons nous aussi organiser notre ensemble de données. Le processus de nettoyage impliquait plusieurs étapes clés :

  • Suppression des doublons
    Des articles en double encombraient l’ensemble de données. Après avoir identifié et supprimé ces redondances.

  • Gestion des valeurs manquantes
    Bien que notre ensemble de données soit relativement propre, nous nous sommes assurés que toutes les valeurs nulles potentielles étaient prises en compte, ne laissant aucune entrée vide dans les données finales."

Décomposer les catégories

Une fois le retard éliminé, nous avons analysé la répartition des articles entre les catégories pour identifier les thèmes dominants. Voici ce que nous avons trouvé :

  • Premières catégories : affaires et sports à égalité pour la plus grande part, chacune contenant 512 articles.

  • Catégories plus petites : le divertissement, la politique et la technologie comportaient moins d'articles mais offraient des informations uniques.

La distribution a confirmé que l'ensemble de données était équilibré, nous permettant de nous concentrer sur une analyse plus approfondie sans nous soucier d'un déséquilibre significatif des catégories."

Zoom avant : les articles sportifs sous le microscope

Tout comme le tri du courrier par destination, nous avons choisi de nous concentrer sur la catégorie sports pour approfondir. L'objectif était d'analyser le contenu textuel et d'en extraire des modèles significatifs."

  • Tokénisation et suppression des mots vides
    À l'aide de la bibliothèque NLTK, nous avons tokenisé le texte en mots individuels et supprimé les mots vides courants (par exemple, « et », « le », « est »). Cela nous a permis de nous concentrer sur des mots ayant une plus grande signification pour la catégorie."

  • Analyse de la fréquence des mots
    Une distribution de fréquence a été créée pour identifier les termes les plus courants dans les articles sportifs. Sans surprise, des mots comme « match », « équipe » et « jeu » ont dominé, reflétant la nature compétitive du contenu. »

Visualiser les résultats : un nuage de mots
Pour capturer l'essence des articles sportifs, nous avons généré un nuage de mots. Les termes les plus fréquemment utilisés apparaissent plus grands, dressant un tableau vivant des thèmes principaux de la catégorie. "

Exploratory Data Analysis: Digging Through the Backlog

Principaux points à retenir

Tout comme Six Triple Eight a méticuleusement trié et livré l'arriéré de courrier, notre processus EDA a dévoilé une vue structurée et perspicace de l'ensemble de données d'information de la BBC.

Code

!pip install tiktoken
!pip install matplotlib
!pip install wordcloud
!pip install nltk
!pip install pandas

import pandas as pd

df = pd.read_csv('/content/bbc.csv', on_bad_lines='skip')  


df.head()

df.info()

df.describe()

label_count = df['category'].value_counts()


len(df['text'])


df.drop_duplicates(inplace=True)

null_values = df.isnull().sum()

df.dropna(inplace=True)

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt


nltk.download('punkt')
nltk.download('stopwords')
nltk.download('punkt_tab') 


target_label ="sport"
target_df = df[df['category'] == target_label]



target_word = [ word.lower()  for text in target_df['text']
                 for word in word_tokenize(text)
                 if word.isalnum() and word not in stopwords.words('english')
                   ]

target_word_count = Counter(target_word)


word_cloud = WordCloud().generate_from_frequencies(target_word_count)


plt.figure(figsize=(10, 5))
plt.imshow(word_cloud, interpolation='bilinear')
plt.axis('off')
plt.show()

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Comment utiliser Python pour trouver la distribution ZIPF d'un fichier texteComment utiliser Python pour trouver la distribution ZIPF d'un fichier texteMar 05, 2025 am 09:58 AM

Ce tutoriel montre comment utiliser Python pour traiter le concept statistique de la loi de Zipf et démontre l'efficacité de la lecture et du tri de Python de gros fichiers texte lors du traitement de la loi. Vous vous demandez peut-être ce que signifie le terme distribution ZIPF. Pour comprendre ce terme, nous devons d'abord définir la loi de Zipf. Ne vous inquiétez pas, je vais essayer de simplifier les instructions. La loi de Zipf La loi de Zipf signifie simplement: dans un grand corpus en langage naturel, les mots les plus fréquents apparaissent environ deux fois plus fréquemment que les deuxième mots fréquents, trois fois comme les troisième mots fréquents, quatre fois comme quatrième mots fréquents, etc. Regardons un exemple. Si vous regardez le corpus brun en anglais américain, vous remarquerez que le mot le plus fréquent est "th

Comment utiliser la belle soupe pour analyser HTML?Comment utiliser la belle soupe pour analyser HTML?Mar 10, 2025 pm 06:54 PM

Cet article explique comment utiliser la belle soupe, une bibliothèque Python, pour analyser HTML. Il détaille des méthodes courantes comme find (), find_all (), select () et get_text () pour l'extraction des données, la gestion de diverses structures et erreurs HTML et alternatives (Sel

Filtrage d'image en pythonFiltrage d'image en pythonMar 03, 2025 am 09:44 AM

Traiter avec des images bruyantes est un problème courant, en particulier avec des photos de téléphones portables ou de caméras basse résolution. Ce tutoriel explore les techniques de filtrage d'images dans Python à l'aide d'OpenCV pour résoudre ce problème. Filtrage d'image: un outil puissant Filtre d'image

Comment travailler avec des documents PDF à l'aide de PythonComment travailler avec des documents PDF à l'aide de PythonMar 02, 2025 am 09:54 AM

Les fichiers PDF sont populaires pour leur compatibilité multiplateforme, avec du contenu et de la mise en page cohérents sur les systèmes d'exploitation, les appareils de lecture et les logiciels. Cependant, contrairement aux fichiers de texte brut de traitement Python, les fichiers PDF sont des fichiers binaires avec des structures plus complexes et contiennent des éléments tels que des polices, des couleurs et des images. Heureusement, il n'est pas difficile de traiter les fichiers PDF avec les modules externes de Python. Cet article utilisera le module PYPDF2 pour montrer comment ouvrir un fichier PDF, imprimer une page et extraire du texte. Pour la création et l'édition des fichiers PDF, veuillez vous référer à un autre tutoriel de moi. Préparation Le noyau réside dans l'utilisation du module externe PYPDF2. Tout d'abord, l'installez en utilisant PIP: pip is p

Comment se cacher en utilisant Redis dans les applications DjangoComment se cacher en utilisant Redis dans les applications DjangoMar 02, 2025 am 10:10 AM

Ce tutoriel montre comment tirer parti de la mise en cache Redis pour augmenter les performances des applications Python, en particulier dans un cadre Django. Nous couvrirons l'installation redis, la configuration de Django et les comparaisons de performances pour mettre en évidence le bien

Comment effectuer l'apprentissage en profondeur avec TensorFlow ou Pytorch?Comment effectuer l'apprentissage en profondeur avec TensorFlow ou Pytorch?Mar 10, 2025 pm 06:52 PM

Cet article compare TensorFlow et Pytorch pour l'apprentissage en profondeur. Il détaille les étapes impliquées: préparation des données, construction de modèles, formation, évaluation et déploiement. Différences clés entre les cadres, en particulier en ce qui concerne le raisin informatique

Introduction à la programmation parallèle et simultanée dans PythonIntroduction à la programmation parallèle et simultanée dans PythonMar 03, 2025 am 10:32 AM

Python, un favori pour la science et le traitement des données, propose un écosystème riche pour l'informatique haute performance. Cependant, la programmation parallèle dans Python présente des défis uniques. Ce tutoriel explore ces défis, en se concentrant sur l'interprète mondial

Comment implémenter votre propre structure de données dans PythonComment implémenter votre propre structure de données dans PythonMar 03, 2025 am 09:28 AM

Ce didacticiel montre la création d'une structure de données de pipeline personnalisée dans Python 3, en tirant parti des classes et de la surcharge de l'opérateur pour une fonctionnalité améliorée. La flexibilité du pipeline réside dans sa capacité à appliquer une série de fonctions à un ensemble de données, GE

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

mPDF

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) ​​et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

SublimeText3 Linux nouvelle version

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel