Analyse exploratoire des données : fouiller dans l'arriéré-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Analyse exploratoire des données : fouiller dans l'arriéré

DDD

Dec 23, 2024 pm 05:50 PM

Dans l'histoire inspirante des Six Triple Eight, la première étape de leur mission consistait à évaluer et à organiser un énorme arriéré de courrier non livré. Ces empilements, imposants jusqu'au plafond, ont dû être catégorisés et compris avant de pouvoir réaliser des progrès. Dans le monde de l'apprentissage automatique moderne, cette phase initiale s'apparente à l'Analyse exploratoire des données (EDA).

Pour cette série, nous reproduirons ce processus en utilisant un ensemble de données CSV, où chaque ligne contient une catégorie (par exemple, « technologie », « entreprise ») et le texte qui lui est associé. Les catégories fonctionnent comme des étiquettes, indiquant à quoi appartient chaque morceau de texte. Des outils tels que Pandas pour la manipulation des données, Matplotlib pour la visualisation, WordCloud pour les informations textuelles, Tiktoken pour l'analyse des jetons et NLTK pour le traitement de texte nous aideront à comprendre notre ensemble de données.

Dans cette étape, nous allons :

Chargez les données et inspectez leur structure.
Identifier les valeurs manquantes ou incohérentes qui pourraient nuire aux performances de notre modèle.
Explorez les répartitions des catégories pour comprendre l'équilibre entre les étiquettes.
Visualisez les fréquences des mots dans les données textuelles pour découvrir des modèles.
Analysez le nombre de jetons à l'aide de Tiktoken pour mesurer la complexité.

Cette phase EDA reflète les efforts de tri méticuleux des Six Triple Eight, qui ont dû donner un sens au chaos avant de pouvoir remettre de l'ordre. En comprenant notre ensemble de données en détail, nous jetons les bases de la création d'un LLM affiné, capable de catégoriser et d'interpréter le texte avec précision.

Introduction

L'analyse exploratoire des données (EDA) revient à s'attaquer à un énorme arriéré de données : empilées, non organisées et remplies d'un potentiel inexploité. Tout comme l'unité Six Triple Eight s'est attaquée à l'énorme arriéré de courrier non livré pendant la Seconde Guerre mondiale, l'EDA est notre moyen de passer au crible le chaos pour découvrir des informations, identifier les tendances et préparer les prochaines étapes de l'analyse des données.

Dans cette exploration, nous plongerons dans un ensemble de données d'articles de presse de la BBC, démêlant sa structure, corrigeant les incohérences et découvrant les histoires enfouies dans les données. "

Évaluation du retard : aperçu de l'ensemble de données

Pour commencer, nous devons d'abord comprendre l'échelle et la structure de notre ensemble de données. L'ensemble de données d'articles d'actualité de la BBC comprend 2 234 entrées réparties dans cinq catégories : affaires, sports, politique, technologie et divertissement. Chaque entrée présente deux caractéristiques principales :

catégorie : le sujet ou la section de l'article.
texte : Le contenu complet de l'article.

Pour avoir une vue plus claire de ce avec quoi nous travaillons, nous avons chargé les données dans un Pandas DataFrame, effectué une inspection rapide et découvert :

Nettoyer l'arriéré

Alors que le Six Triple Eight s'est attaqué à des piles de courrier non triés, nous devons nous aussi organiser notre ensemble de données. Le processus de nettoyage impliquait plusieurs étapes clés :

Suppression des doublons
Des articles en double encombraient l’ensemble de données. Après avoir identifié et supprimé ces redondances.
Gestion des valeurs manquantes
Bien que notre ensemble de données soit relativement propre, nous nous sommes assurés que toutes les valeurs nulles potentielles étaient prises en compte, ne laissant aucune entrée vide dans les données finales."

Décomposer les catégories

Une fois le retard éliminé, nous avons analysé la répartition des articles entre les catégories pour identifier les thèmes dominants. Voici ce que nous avons trouvé :

Premières catégories : affaires et sports à égalité pour la plus grande part, chacune contenant 512 articles.
Catégories plus petites : le divertissement, la politique et la technologie comportaient moins d'articles mais offraient des informations uniques.

La distribution a confirmé que l'ensemble de données était équilibré, nous permettant de nous concentrer sur une analyse plus approfondie sans nous soucier d'un déséquilibre significatif des catégories."

Zoom avant : les articles sportifs sous le microscope

Tout comme le tri du courrier par destination, nous avons choisi de nous concentrer sur la catégorie sports pour approfondir. L'objectif était d'analyser le contenu textuel et d'en extraire des modèles significatifs."

Tokénisation et suppression des mots vides
À l'aide de la bibliothèque NLTK, nous avons tokenisé le texte en mots individuels et supprimé les mots vides courants (par exemple, « et », « le », « est »). Cela nous a permis de nous concentrer sur des mots ayant une plus grande signification pour la catégorie."
Analyse de la fréquence des mots
Une distribution de fréquence a été créée pour identifier les termes les plus courants dans les articles sportifs. Sans surprise, des mots comme « match », « équipe » et « jeu » ont dominé, reflétant la nature compétitive du contenu. »

Visualiser les résultats : un nuage de mots
Pour capturer l'essence des articles sportifs, nous avons généré un nuage de mots. Les termes les plus fréquemment utilisés apparaissent plus grands, dressant un tableau vivant des thèmes principaux de la catégorie. "

Exploratory Data Analysis: Digging Through the Backlog

Principaux points à retenir

Tout comme Six Triple Eight a méticuleusement trié et livré l'arriéré de courrier, notre processus EDA a dévoilé une vue structurée et perspicace de l'ensemble de données d'information de la BBC.

Code

!pip install tiktoken
!pip install matplotlib
!pip install wordcloud
!pip install nltk
!pip install pandas

import pandas as pd

df = pd.read_csv('/content/bbc.csv', on_bad_lines='skip')  


df.head()

df.info()

df.describe()

label_count = df['category'].value_counts()


len(df['text'])


df.drop_duplicates(inplace=True)

null_values = df.isnull().sum()

df.dropna(inplace=True)

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt


nltk.download('punkt')
nltk.download('stopwords')
nltk.download('punkt_tab') 


target_label ="sport"
target_df = df[df['category'] == target_label]



target_word = [ word.lower()  for text in target_df['text']
                 for word in word_tokenize(text)
                 if word.isalnum() and word not in stopwords.words('english')
                   ]

target_word_count = Counter(target_word)


word_cloud = WordCloud().generate_from_frequencies(target_word_count)


plt.figure(figsize=(10, 5))
plt.imshow(word_cloud, interpolation='bilinear')
plt.axis('off')
plt.show()

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Comment trancher un tableau Python?May 01, 2025 am 12:18 AM

La syntaxe de base pour le découpage de la liste Python est la liste [Démarrage: arrêt: étape]. 1.Start est le premier index d'élément inclus, 2.STOP est le premier indice d'élément exclu et 3.StEP détermine la taille de l'étape entre les éléments. Les tranches sont non seulement utilisées pour extraire les données, mais aussi pour modifier et inverser les listes.

Dans quelles circonstances les listes pourraient-elles mieux fonctionner que les tableaux?May 01, 2025 am 12:06 AM

ListesoutPerformarRaySin: 1) dynamicingizingandfrequentinSertions / Deletions, 2) StoringheteroGeneousData, and3) MemoryEfficiencyForsparsedata, butmayhaveslightperformanceCostSincertorations.

Comment pouvez-vous convertir un tableau Python en une liste Python?May 01, 2025 am 12:05 AM

Toconvertapythonarraytoalist, usethelist () Constructororageneratorexpression.1) ImportTheArrayModuleandCreateArray.2) Uselist (Arr) ou [Xforxinarr] à Convertittoalist, considérant la performance et le domaine de l'émie-efficacité pour les étages.

Quel est le but d'utiliser des tableaux lorsque des listes existent dans Python?May 01, 2025 am 12:04 AM

ChooseArraySoverListsInpyThonforBetterperformanceAndmemeMoryEfficacitéInSpecificScenarios.1) LargenumericalDatasets: ArraySreduceDeMemoryUsage.2)

Expliquez comment itérer les éléments d'une liste et un tableau.May 01, 2025 am 12:01 AM

Dans Python, vous pouvez utiliser pour les boucles, énumérer et les compréhensions de liste pour traverser les listes; En Java, vous pouvez utiliser des boucles traditionnelles et améliorées pour les boucles pour traverser les tableaux. 1. Les méthodes de traversée de la liste Python incluent: pour la compréhension de la boucle, de l'énumération et de la liste. 2. Les méthodes de traversée du tableau Java comprennent: traditionnel pour la boucle et amélioré pour la boucle.

Qu'est-ce que la déclaration de commutation Python?Apr 30, 2025 pm 02:08 PM

L'article traite de la nouvelle instruction "Match" de Python introduite dans la version 3.10, qui constitue un équivalent pour les instructions de commutation dans d'autres langues. Il améliore la lisibilité du code et offre des avantages de performance par rapport aux if-elif-el traditionnels

Que sont les groupes d'exception à Python?Apr 30, 2025 pm 02:07 PM

Les groupes d'exception dans Python 3.11 permettent de gérer plusieurs exceptions simultanément, améliorant la gestion des erreurs dans des scénarios simultanés et des opérations complexes.

Que sont les annotations de fonction dans Python?Apr 30, 2025 pm 02:06 PM

Les annotations de fonction dans Python ajoutent des métadonnées aux fonctions pour la vérification de type, la documentation et la prise en charge de l'IDE. Ils améliorent la lisibilité du code, la maintenance et sont cruciaux dans le développement de l'API, la science des données et la création de bibliothèques.

See all articles