Erkundung und Visualisierung von Filmdatensätzen-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Erkundung und Visualisierung von Filmdatensätzen

PHPz

Sep 11, 2024 pm 04:15 PM

Einführung

Übung macht den Meister.

Etwas, das viel mit dem Beruf eines Datenwissenschaftlers gemeinsam hat. Die Theorie ist nur ein Aspekt der Gleichung; Der wichtigste Aspekt ist die Umsetzung der Theorie in die Praxis. Ich werde mir die Mühe machen, den gesamten heutigen Entwicklungsprozess meines Abschlussprojekts aufzuzeichnen, zu dem auch das Studium eines Filmdatensatzes gehört.

Das sind die Ziele:
Ziel:

Laden Sie einen Filmdatensatz von Kaggle herunter oder rufen Sie ihn mit der TMDb-API ab.
Erkunden Sie verschiedene Aspekte wie Filmgenres, Bewertungen, Beliebtheit des Regisseurs und Trends im Erscheinungsjahr.
Erstellen Sie Dashboards, die diese Trends visualisieren und optional Filme basierend auf Benutzerpräferenzen empfehlen.

1. Datenerfassung
Ich habe mich entschieden, Kaggle zu verwenden, um meinen Datensatz zu finden. Es ist wichtig, die entscheidenden Variablen im Auge zu behalten, die Sie für den Datensatz benötigen, mit dem Sie arbeiten. Wichtig ist, dass mein Datensatz Folgendes umfassen sollte: Trends im Erscheinungsjahr, Beliebtheit von Regisseuren, Einschaltquoten und Filmgenres. Daher muss ich sicherstellen, dass der von mir ausgewählte Datensatz mindestens Folgendes aufweist:
Mein Datensatz befand sich auf Kaggle und ich werde den Link unten bereitstellen. Sie können die CSV-Version der Datei erhalten, indem Sie den Datensatz herunterladen, ihn entpacken und extrahieren. Sie können einen Blick darauf werfen, um zu verstehen, was Sie bereits haben, und um wirklich zu erkennen, welche Erkenntnisse Sie aus den zu untersuchenden Daten gewinnen möchten.

2. Beschreiben der Daten

Zuerst müssen wir die erforderlichen Bibliotheken importieren und die erforderlichen Daten laden. Ich verwende für mein Projekt die Programmiersprache Python und Jupyter Notebooks, damit ich meinen Code effizienter schreiben und anzeigen kann.
Sie importieren die Bibliotheken, die wir verwenden werden, und laden die Daten wie unten gezeigt.

Movie Dataset Exploration and Visualization

Wir führen dann den folgenden Befehl aus, um weitere Details zu unserem Datensatz zu erhalten.

data.head() # dispalys the first rows of the dataset.
data.tail() # displays the last rows of the dataset.
data.shape # Shows the total number of rows and columns.
len(data.columns)  # Shows the total number of columns.
data.columns # Describes different column names.
data.dtypes # Describes different data types.

Nachdem wir alle benötigten Beschreibungen erhalten haben, wissen wir jetzt, was der Datensatz umfasst und welche Erkenntnisse wir gewinnen möchten. Beispiel: Mithilfe meines Datensatzes möchte ich Muster in der Beliebtheit von Regisseuren, der Einschaltquotenverteilung und den Filmgenres untersuchen. Ich möchte auch Filme vorschlagen, die auf den vom Benutzer ausgewählten Vorlieben basieren, z. B. bevorzugten Regisseuren und Genres.

3. Datenbereinigung

In dieser Phase geht es darum, alle Nullwerte zu finden und zu entfernen. Um mit der Datenvisualisierung fortzufahren, werden wir unseren Datensatz auch auf Duplikate untersuchen und alle gefundenen Duplikate entfernen. Dazu führen wir den folgenden Code aus:

1. data['show_id'].value_counts().sum() # Checks for the total number of rows in my dataset
2. data.isna().sum() # Checks for null values(I found null values in director, cast and country columns)
3. data[['director', 'cast', 'country']] = data[['director', 'cast', 'country']].replace(np.nan, "Unknown ") # Fill null values with unknown.

Wir löschen dann die Zeilen mit unbekannten Werten und bestätigen, dass wir sie alle gelöscht haben. Wir prüfen auch die Anzahl der verbleibenden Zeilen mit bereinigten Daten.

Movie Dataset Exploration and Visualization

Der folgende Code sucht nach eindeutigen Merkmalen und Duplikaten. Obwohl mein Datensatz keine Duplikate enthält, müssen Sie ihn möglicherweise dennoch verwenden, falls dies in zukünftigen Datensätzen der Fall sein sollte.

data.duplicated().sum() # Checks for duplicates
data.nunique() # Checks for unique features
data.info # Confirms if nan values are present and also shows datatypes.

Mein Datums-/Uhrzeitdatentyp ist ein Objekt und ich möchte, dass es im richtigen Datums-/Uhrzeitformat vorliegt, das ich verwendet habe
data['date_added']=data['date_added'].astype('datetime64[ms]'), um es in das richtige Format zu konvertieren.

4. Datenvisualisierung

Mein Datensatz enthält zwei Arten von Variablen, nämlich die Typen „TV-Sendungen“ und „Filme“, und ich habe ein Balkendiagramm verwendet, um die kategorialen Daten mit den Werten darzustellen, die sie darstellen.
Ich habe auch ein Kreisdiagramm verwendet, um das Gleiche wie oben darzustellen. Der verwendete Code ist wie folgt und das erwartete Ergebnis wird unten angezeigt.

## Pie chart display
plt.figure(figsize=(8, 8))  
data['type'].value_counts().plot(
    kind='pie', 
    autopct='%1.1f%%',  
    colors=['skyblue', 'lightgreen'], 
    startangle=90, 
    explode=(0.05, 0) 
)
plt.title('Distribution of Content Types (Movies vs. TV Shows)')
plt.ylabel('')
plt.show()

Movie Dataset Exploration and Visualization

Ich habe dann einen tabellarischen Vergleich mit pd.crossstab(data.type, data.country) durchgeführt, um einen tabellarischen Vergleich der Typen basierend auf Veröffentlichungsdaten, Ländern und anderen Faktoren zu erstellen (Sie können versuchen, die Spalten im Code zu ändern unabhängig). Nachfolgend finden Sie den zu verwendenden Code und den erwarteten Vergleich. Ich habe auch die ersten 20 Länder überprüft, die bei der Produktion von Fernsehsendungen führend sind, und sie in einem Balkendiagramm visualisiert. Sie können den Code im Bild kopieren und sicherstellen, dass das Ergebnis fast meinem ähnelt.

Movie Dataset Exploration and Visualization

I then checked for the top 10 movie genre as shown below. You can also use the code to check for TV shows. Just substitute with proper variable names.

Movie Dataset Exploration and Visualization

I extracted months and years separately from the dates provided so that I could visualize some histogram plots over the years.

Movie Dataset Exploration and Visualization

Checked for the top 10 directors with the most movies and compared them using a bar graph.

Movie Dataset Exploration and Visualization

Checked for the cast with the highest rating and visualized them.

Movie Dataset Exploration and Visualization

5. Recommendation System

I then built a recommendation system that takes in genre or director's name as input and produces a list of movies as per the user's preference. If the input cannot be matched by the algorithm then the user is notified.

Movie Dataset Exploration and Visualization

The code for the above is as follows:

def recommend_movies(genre=None, director=None):
    recommendations = data
    if genre:
        recommendations = recommendations[recommendations['listed_in'].str.contains(genre, case=False, na=False)]
    if director:
        recommendations = recommendations[recommendations['director'].str.contains(director, case=False, na=False)]
    if not recommendations.empty:
        return recommendations[['title', 'director', 'listed_in', 'release_year', 'rating']].head(10)
    else:
        return "No movies found matching your preferences."
print("Welcome to the Movie Recommendation System!")
print("You can filter movies by Genre or Director (or both).")
user_genre = input("Enter your preferred genre (or press Enter to skip): ")
user_director = input("Enter your preferred director (or press Enter to skip): ")
recommendations = recommend_movies(genre=user_genre, director=user_director)
print("\nRecommended Movies:")
print(recommendations)

Conclusion

My goals were achieved, and I had a great time taking on this challenge since it helped me realize that, even though learning is a process, there are days when I succeed and fail. This was definitely a success. Here, we celebrate victories as well as defeats since, in the end, each teach us something. Do let me know if you attempt this.
Till next time!

Note!!
The code is in my GitHub:
https://github.com/MichelleNjeri-scientist/Movie-Dataset-Exploration-and-Visualization

The Kaggle dataset is:
https://www.kaggle.com/datasets/shivamb/netflix-shows

Das obige ist der detaillierte Inhalt vonErkundung und Visualisierung von Filmdatensätzen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Python lernen: Ist 2 Stunden tägliches Studium ausreichend?Apr 18, 2025 am 12:22 AM

Ist es genug, um Python für zwei Stunden am Tag zu lernen? Es hängt von Ihren Zielen und Lernmethoden ab. 1) Entwickeln Sie einen klaren Lernplan, 2) Wählen Sie geeignete Lernressourcen und -methoden aus, 3) praktizieren und prüfen und konsolidieren Sie praktische Praxis und Überprüfung und konsolidieren Sie und Sie können die Grundkenntnisse und die erweiterten Funktionen von Python während dieser Zeit nach und nach beherrschen.

Python für die Webentwicklung: SchlüsselanwendungenApr 18, 2025 am 12:20 AM

Zu den wichtigsten Anwendungen von Python in der Webentwicklung gehören die Verwendung von Django- und Flask -Frameworks, API -Entwicklung, Datenanalyse und Visualisierung, maschinelles Lernen und KI sowie Leistungsoptimierung. 1. Django und Flask Framework: Django eignet sich für die schnelle Entwicklung komplexer Anwendungen, und Flask eignet sich für kleine oder hochmobile Projekte. 2. API -Entwicklung: Verwenden Sie Flask oder Djangorestframework, um RESTFUFFUPI zu erstellen. 3. Datenanalyse und Visualisierung: Verwenden Sie Python, um Daten zu verarbeiten und über die Webschnittstelle anzuzeigen. 4. Maschinelles Lernen und KI: Python wird verwendet, um intelligente Webanwendungen zu erstellen. 5. Leistungsoptimierung: optimiert durch asynchrones Programmieren, Caching und Code

Python vs. C: Erforschung von Leistung und Effizienz erforschenApr 18, 2025 am 12:20 AM

Python ist in der Entwicklungseffizienz besser als C, aber C ist in der Ausführungsleistung höher. 1. Pythons prägnante Syntax und reiche Bibliotheken verbessern die Entwicklungseffizienz. 2. Die Kompilierungsmerkmale von Compilation und die Hardwarekontrolle verbessern die Ausführungsleistung. Bei einer Auswahl müssen Sie die Entwicklungsgeschwindigkeit und die Ausführungseffizienz basierend auf den Projektanforderungen abwägen.

Python in Aktion: Beispiele in realer WeltApr 18, 2025 am 12:18 AM

Zu den realen Anwendungen von Python gehören Datenanalysen, Webentwicklung, künstliche Intelligenz und Automatisierung. 1) In der Datenanalyse verwendet Python Pandas und Matplotlib, um Daten zu verarbeiten und zu visualisieren. 2) In der Webentwicklung vereinfachen Django und Flask Frameworks die Erstellung von Webanwendungen. 3) Auf dem Gebiet der künstlichen Intelligenz werden Tensorflow und Pytorch verwendet, um Modelle zu bauen und zu trainieren. 4) In Bezug auf die Automatisierung können Python -Skripte für Aufgaben wie das Kopieren von Dateien verwendet werden.

Pythons Hauptnutzung: ein umfassender ÜberblickApr 18, 2025 am 12:18 AM

Python wird häufig in den Bereichen Data Science, Web Development und Automation Scripting verwendet. 1) In der Datenwissenschaft vereinfacht Python die Datenverarbeitung und -analyse durch Bibliotheken wie Numpy und Pandas. 2) In der Webentwicklung ermöglichen die Django- und Flask -Frameworks Entwicklern, Anwendungen schnell zu erstellen. 3) In automatisierten Skripten machen Pythons Einfachheit und Standardbibliothek es ideal.

Der Hauptzweck von Python: Flexibilität und BenutzerfreundlichkeitApr 17, 2025 am 12:14 AM

Die Flexibilität von Python spiegelt sich in Multi-Paradigm-Unterstützung und dynamischen Typsystemen wider, während eine einfache Syntax und eine reichhaltige Standardbibliothek stammt. 1. Flexibilität: Unterstützt objektorientierte, funktionale und prozedurale Programmierung und dynamische Typsysteme verbessern die Entwicklungseffizienz. 2. Benutzerfreundlichkeit: Die Grammatik liegt nahe an der natürlichen Sprache, die Standardbibliothek deckt eine breite Palette von Funktionen ab und vereinfacht den Entwicklungsprozess.

Python: Die Kraft der vielseitigen ProgrammierungApr 17, 2025 am 12:09 AM

Python ist für seine Einfachheit und Kraft sehr beliebt, geeignet für alle Anforderungen von Anfängern bis hin zu fortgeschrittenen Entwicklern. Seine Vielseitigkeit spiegelt sich in: 1) leicht zu erlernen und benutzten, einfachen Syntax; 2) Reiche Bibliotheken und Frameworks wie Numpy, Pandas usw.; 3) plattformübergreifende Unterstützung, die auf einer Vielzahl von Betriebssystemen betrieben werden kann; 4) Geeignet für Skript- und Automatisierungsaufgaben zur Verbesserung der Arbeitseffizienz.

Python in 2 Stunden am Tag lernen: Ein praktischer LeitfadenApr 17, 2025 am 12:05 AM

Ja, lernen Sie Python in zwei Stunden am Tag. 1. Entwickeln Sie einen angemessenen Studienplan, 2. Wählen Sie die richtigen Lernressourcen aus, 3. Konsolidieren Sie das durch die Praxis erlernte Wissen. Diese Schritte können Ihnen helfen, Python in kurzer Zeit zu meistern.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Will R.E.P.O. Crossplay haben?

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7557

CakePHP-Tutorial

1384

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten