Heim  >  Artikel  >  Backend-Entwicklung  >  Lernpfad „Python für die Datenanalyse“.

Lernpfad „Python für die Datenanalyse“.

巴扎黑
巴扎黑Original
2017-06-23 16:25:521957Durchsuche

Im Einführungskapitel wird ein Beispiel für die Verarbeitung des MovieLens 1M-Datensatzes vorgestellt. Das Buch stellt vor, dass der Datensatz von GroupLens Research () stammt, zu dem direkt auf die Website von MovieLens gesprungen wird. Dort können Sie auch das entsprechende komprimierte Paket von MovieLens 1M herunterladen . In.

Der heruntergeladene und dekomprimierte Ordner lautet wie folgt:

Diese drei Datentabellen werden im Beispiel verwendet. Die chinesische Version (PDF) von „Python For Data Analysis“, die ich gelesen habe, ist die erste Ausgabe im Jahr 2014. Alle darin enthaltenen Beispiele basieren auf Python 2.7 und Pandas 0.8.2, und ich habe Python 3.5.2 und Pandas 0.8 installiert. 2. Pandas 0.20.2, einige davon sind Parameter, die in der neuen Version geändert wurden, und einige sind in der neuen Version veraltet. Dies hat dazu geführt, dass ich den Beispielcode im Buch ausgeführt habe , werden Sie auf einige Fehler und Warnungen stoßen. Beim Testen des MovieLens 1M-Datensatzcodes in derselben Konfigurationsumgebung wie bei mir treten die folgenden Probleme auf.

  • Beim Einlesen von Daten in ein Pandas-DataFrame-Objekt lautet der im Buch angegebene Code:

    users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames)
    
    rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
    ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames)
    
    mnames = ['movie_id', 'title', 'genres']
    movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames)

    Beim direkten Ausführen erscheint eine Warnung:

    F:/python/HelloWorld/DataAnalysisByPython-1.py:4: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
      users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames)
    F:/python/HelloWorld/DataAnalysisByPython-1.py:7: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
      ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames)
    F:/python/HelloWorld/DataAnalysisByPython-1.py:10: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
      movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames)

    Obwohl es auch ausgeführt werden kann, als perfekte Zwangsstörung Störung, ich möchte diese Warnung immer noch lösen. Diese Warnung bedeutet, dass die „C“-Engine dies nicht unterstützt und daher nur auf die „Python“-Engine zurückgreifen kann. Außerdem gibt es in der Methode pandas.read_table einen Engine-Parameter, der zum Festlegen der Parsing-Engine verwendet wird Zu verwenden, einschließlich 'C' und 'Python' Diese beiden Optionen. Da die „C“-Engine dies nicht unterstützt, müssen wir die Engine nur auf „Python“ setzen.

    users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames, engine = 'python')
    
    rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
    ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine = 'python')
    
    mnames = ['movie_id', 'title', 'genres']
    movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames, engine = 'python')

  • Verwenden Sie die Methode „pivot_table“, um den Durchschnitt jedes Films nach Geschlecht anhand der aggregierten Daten zu berechnen Score, der im Buch angegebene Code lautet:

    mean_ratings = data.pivot_table('rating', rows='title', cols='gender', aggfunc='mean')

    Wenn Sie ihn direkt ausführen, wird ein Fehler gemeldet. Dieser Code kann nicht ausgeführt werden:

    Traceback (most recent call last):
      File "F:/python/HelloWorld/DataAnalysisByPython-1.py", line 19, in <module>mean_ratings = data.pivot_table('rating', rows='title', cols='gender', aggfunc='mean')
    TypeError: pivot_table() got an unexpected keyword argument 'rows'

    TypeError zeigt an, dass der Parameter „rows“ hier kein in der Methode verfügbarer Schlüsselwortparameter ist. Was ist los? Ich habe die Dokumentation zur Verwendung der Pandas-API auf der offiziellen Website () überprüft und festgestellt, dass dies daran liegt, dass sich die Schlüsselwortparameter in pandas.pivot_table in Version 0.20.2 geändert haben. Um den gleichen Effekt zu erzielen, ersetzen Sie einfach die Zeilen durch den Index. und es gibt keinen cols-Parameter, also verwenden Sie stattdessen Spalten.

    mean_ratings = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')

  • Um die Lieblingsfilme des weiblichen Publikums zu verstehen, verwenden Sie die DataFrame-Methode zur Durchführung Spalte F Sortiert in absteigender Reihenfolge, der Beispielcode im Buch lautet:

    top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)
    Dies gibt nur eine Warnung aus und beeinträchtigt das Programm nicht:

    F:/python/HelloWorld/DataAnalysisByPython-1.py:32: FutureWarning: by argument to sort_index is deprecated, pls use .sort_values(by=...)
      top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)
    Hier wird gesagt, dass sich die sort_index-Methode zum Sortieren in Zukunft in der Sprache oder Bibliothek ändern kann, und es wird empfohlen, sort_values ​​​​zu verwenden stattdessen. In der Dokumentation zur API-Nutzung lautet die Beschreibung von pandas.DataFrame.sort_index „Objekt nach Beschriftungen sortieren (entlang einer Achse)“, während die Beschreibung von pandas.DataFrame.sort_values ​​​​​​„Nach Werten entlang einer Achse sortieren“ lautet. . Beide können den gleichen Effekt erzielen, dann werde ich es einfach durch sort_values ​​ersetzen. Sort_index wird auch im folgenden „

    Score-Differenz berechnen“ verwendet und kann auch durch sort_values ​​ersetzt werden.

    top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)

  • Der letzte Fehler betrifft immer noch die Sortierung. Nachdem Sie die Standardabweichung der Score-Daten in „

    Score-Divergenz berechnen“ berechnet haben, sortieren Sie die Reihe in absteigender Reihenfolge basierend auf dem gefilterten Wert. Der Code im Buch lautet:

    这里的错误是:

    Traceback (most recent call last):
      File "F:/python/HelloWorld/DataAnalysisByPython-1.py", line 47, in <module>print(rating_std_by_title.order(ascending=False)[:10])
      File "E:\Program Files\Python35\lib\site-packages\pandas\core\generic.py", line 2970, in __getattr__return object.__getattribute__(self, name)
    AttributeError: 'Series' object has no attribute 'order'

    居然已经没有这个order的方法了,只好去API文档中找替代的方法用。有两个,sort_index和sort_values,这和DataFrame中的方法一样,为了保险起见,我选择使用sort_values:

    print(rating_std_by_title.sort_values(ascending=False)[:10]

    得到的结果和数据展示的结果一样,可以放心使用。

    第三方库不同版本间的差异还是挺明显的,建议是使用最新的版本,在使用时配合官网网站上的API使用文档,轻松解决各类问题~

Das obige ist der detaillierte Inhalt vonLernpfad „Python für die Datenanalyse“.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:Python-LernreiseNächster Artikel:Python-Lernreise