Présentation
La pratique rend parfait.
Quelque chose qui a beaucoup en commun avec le fait d'être un data scientist. La théorie n’est qu’un aspect de l’équation ; l’aspect le plus crucial est de mettre la théorie en pratique. Je ferai l'effort d'enregistrer l'ensemble du processus actuel de développement de mon projet de synthèse, qui impliquera l'étude d'un ensemble de données cinématographiques.
Voici les objectifs :
Objectif :
- Téléchargez un ensemble de données de film depuis Kaggle ou récupérez-le à l'aide de l'API TMDb.
- Explorez divers aspects tels que les genres de films, les audiences, la popularité des réalisateurs et les tendances des années de sortie.
- Créez des tableaux de bord qui visualisent ces tendances et recommandent éventuellement des films en fonction des préférences de l'utilisateur.
1. Collecte de données
J'ai décidé d'utiliser Kaggle pour trouver mon ensemble de données. Il est essentiel de garder à l'esprit les variables cruciales que vous souhaiterez pour l'ensemble de données avec lequel vous travaillez. Il est important de noter que mon ensemble de données doit inclure les éléments suivants : les tendances de l'année de sortie, la popularité des réalisateurs, les audiences et les genres de films. Par conséquent, je dois m'assurer que l'ensemble de données que je choisis contient au minimum les éléments suivants.
Mon ensemble de données se trouvait sur Kaggle et je fournirai le lien ci-dessous. Vous pouvez obtenir la version CSV du fichier en téléchargeant l'ensemble de données, en le décompressant et en l'extrayant. Vous pouvez le consulter pour comprendre ce que vous avez déjà et vraiment comprendre quels types d'informations vous espérez obtenir à partir des données que vous examinerez.
2. Décrire les données
Tout d'abord, nous devons importer les bibliothèques requises et charger les données nécessaires. J'utilise le langage de programmation Python et Jupyter Notebooks pour mon projet afin de pouvoir écrire et voir mon code plus efficacement.
Vous importerez les bibliothèques que nous utiliserons et chargerez les données comme indiqué ci-dessous.
Nous exécuterons ensuite la commande suivante pour obtenir plus de détails sur notre ensemble de données.
data.head() # dispalys the first rows of the dataset. data.tail() # displays the last rows of the dataset. data.shape # Shows the total number of rows and columns. len(data.columns) # Shows the total number of columns. data.columns # Describes different column names. data.dtypes # Describes different data types.
Nous savons maintenant ce que comprend l'ensemble de données et les informations que nous espérons extraire après avoir obtenu toutes les descriptions dont nous avons besoin. Exemple : à l'aide de mon ensemble de données, je souhaite étudier les modèles de popularité des réalisateurs, de répartition des audiences et des genres de films. Je souhaite également suggérer des films en fonction des préférences sélectionnées par l'utilisateur, telles que les réalisateurs et les genres préférés.
3. Nettoyage des données
Cette phase consiste à rechercher toutes les valeurs nulles et à les supprimer. Afin de passer à la visualisation des données, nous examinerons également notre ensemble de données pour détecter les doublons et supprimerons ceux que nous trouverons. Pour ce faire, nous allons exécuter le code qui suit :
1. data['show_id'].value_counts().sum() # Checks for the total number of rows in my dataset 2. data.isna().sum() # Checks for null values(I found null values in director, cast and country columns) 3. data[['director', 'cast', 'country']] = data[['director', 'cast', 'country']].replace(np.nan, "Unknown ") # Fill null values with unknown.
Nous supprimerons ensuite les lignes avec des valeurs inconnues et confirmerons que nous les avons toutes supprimées. Nous vérifierons également le nombre de lignes restantes qui ont nettoyé les données.
Le code qui suit recherche les caractéristiques uniques et les doublons. Bien qu'il n'y ait pas de doublons dans mon ensemble de données, vous devrez peut-être quand même l'utiliser au cas où de futurs ensembles de données le feraient.
data.duplicated().sum() # Checks for duplicates data.nunique() # Checks for unique features data.info # Confirms if nan values are present and also shows datatypes.
Mon type de données date/heure est un objet et j'aimerais qu'il soit au format date/heure approprié, j'ai donc utilisé
data['date_added']=data['date_added'].astype('datetime64[ms]')pour le convertir au format approprié.
4. Visualisation des données
Mon ensemble de données comporte deux types de variables, à savoir les émissions de télévision et les films dans les types et j'ai utilisé un graphique à barres pour présenter les données catégorielles avec les valeurs qu'elles représentent.
J'ai également utilisé un diagramme circulaire pour représenter la même chose que ci-dessus. Le code utilisé est le suivant et le résultat attendu ci-dessous.
## Pie chart display plt.figure(figsize=(8, 8)) data['type'].value_counts().plot( kind='pie', autopct='%1.1f%%', colors=['skyblue', 'lightgreen'], startangle=90, explode=(0.05, 0) ) plt.title('Distribution of Content Types (Movies vs. TV Shows)') plt.ylabel('') plt.show()
- J'ai ensuite effectué une comparaison tabulée en utilisant pd.crosstab(data.type, data.country) pour créer une comparaison tabulée des types en fonction des dates de sortie, des pays et d'autres facteurs (vous pouvez essayer de changer les colonnes dans le code indépendamment). Vous trouverez ci-dessous le code à utiliser et la comparaison attendue. J'ai également vérifié les 20 premiers pays leaders dans la production d'émissions de télévision et les ai visualisés dans un graphique à barres. Vous pouvez copier le code dans l'image et vous assurer que le résultat est presque similaire au mien.
- I then checked for the top 10 movie genre as shown below. You can also use the code to check for TV shows. Just substitute with proper variable names.
- I extracted months and years separately from the dates provided so that I could visualize some histogram plots over the years.
- Checked for the top 10 directors with the most movies and compared them using a bar graph.
- Checked for the cast with the highest rating and visualized them.
5. Recommendation System
I then built a recommendation system that takes in genre or director's name as input and produces a list of movies as per the user's preference. If the input cannot be matched by the algorithm then the user is notified.
The code for the above is as follows:
def recommend_movies(genre=None, director=None): recommendations = data if genre: recommendations = recommendations[recommendations['listed_in'].str.contains(genre, case=False, na=False)] if director: recommendations = recommendations[recommendations['director'].str.contains(director, case=False, na=False)] if not recommendations.empty: return recommendations[['title', 'director', 'listed_in', 'release_year', 'rating']].head(10) else: return "No movies found matching your preferences." print("Welcome to the Movie Recommendation System!") print("You can filter movies by Genre or Director (or both).") user_genre = input("Enter your preferred genre (or press Enter to skip): ") user_director = input("Enter your preferred director (or press Enter to skip): ") recommendations = recommend_movies(genre=user_genre, director=user_director) print("\nRecommended Movies:") print(recommendations)
Conclusion
My goals were achieved, and I had a great time taking on this challenge since it helped me realize that, even though learning is a process, there are days when I succeed and fail. This was definitely a success. Here, we celebrate victories as well as defeats since, in the end, each teach us something. Do let me know if you attempt this.
Till next time!
Note!!
The code is in my GitHub:
https://github.com/MichelleNjeri-scientist/Movie-Dataset-Exploration-and-Visualization
The Kaggle dataset is:
https://www.kaggle.com/datasets/shivamb/netflix-shows
The above is the detailed content of Movie Dataset Exploration and Visualization. For more information, please follow other related articles on the PHP Chinese website!

TomergelistsinPython,youcanusethe operator,extendmethod,listcomprehension,oritertools.chain,eachwithspecificadvantages:1)The operatorissimplebutlessefficientforlargelists;2)extendismemory-efficientbutmodifiestheoriginallist;3)listcomprehensionoffersf

In Python 3, two lists can be connected through a variety of methods: 1) Use operator, which is suitable for small lists, but is inefficient for large lists; 2) Use extend method, which is suitable for large lists, with high memory efficiency, but will modify the original list; 3) Use * operator, which is suitable for merging multiple lists, without modifying the original list; 4) Use itertools.chain, which is suitable for large data sets, with high memory efficiency.

Using the join() method is the most efficient way to connect strings from lists in Python. 1) Use the join() method to be efficient and easy to read. 2) The cycle uses operators inefficiently for large lists. 3) The combination of list comprehension and join() is suitable for scenarios that require conversion. 4) The reduce() method is suitable for other types of reductions, but is inefficient for string concatenation. The complete sentence ends.

PythonexecutionistheprocessoftransformingPythoncodeintoexecutableinstructions.1)Theinterpreterreadsthecode,convertingitintobytecode,whichthePythonVirtualMachine(PVM)executes.2)TheGlobalInterpreterLock(GIL)managesthreadexecution,potentiallylimitingmul

Key features of Python include: 1. The syntax is concise and easy to understand, suitable for beginners; 2. Dynamic type system, improving development speed; 3. Rich standard library, supporting multiple tasks; 4. Strong community and ecosystem, providing extensive support; 5. Interpretation, suitable for scripting and rapid prototyping; 6. Multi-paradigm support, suitable for various programming styles.

Python is an interpreted language, but it also includes the compilation process. 1) Python code is first compiled into bytecode. 2) Bytecode is interpreted and executed by Python virtual machine. 3) This hybrid mechanism makes Python both flexible and efficient, but not as fast as a fully compiled language.

Useaforloopwheniteratingoverasequenceorforaspecificnumberoftimes;useawhileloopwhencontinuinguntilaconditionismet.Forloopsareidealforknownsequences,whilewhileloopssuitsituationswithundeterminediterations.

Pythonloopscanleadtoerrorslikeinfiniteloops,modifyinglistsduringiteration,off-by-oneerrors,zero-indexingissues,andnestedloopinefficiencies.Toavoidthese:1)Use'i


Hot AI Tools

Undresser.AI Undress
AI-powered app for creating realistic nude photos

AI Clothes Remover
Online AI tool for removing clothes from photos.

Undress AI Tool
Undress images for free

Clothoff.io
AI clothes remover

Video Face Swap
Swap faces in any video effortlessly with our completely free AI face swap tool!

Hot Article

Hot Tools

SublimeText3 Chinese version
Chinese version, very easy to use

WebStorm Mac version
Useful JavaScript development tools

Zend Studio 13.0.1
Powerful PHP integrated development environment

SublimeText3 Linux new version
SublimeText3 Linux latest version

Dreamweaver CS6
Visual web development tools
