Heim >Backend-Entwicklung >Python-Tutorial >Zusammenfassung häufig verwendeter Bibliotheken für maschinelles Lernen in Python
Python wird häufig im wissenschaftlichen Rechnen verwendet: Computer Vision, künstliche Intelligenz, Mathematik, Astronomie usw. Es ist keine Überraschung, dass dies auch für maschinelles Lernen gilt.
Dieser Artikel listet und beschreibt die nützlichsten Tools und Bibliotheken für maschinelles Lernen in Python. In dieser Liste ist nicht erforderlich, dass diese Bibliotheken in Python geschrieben sind, solange sie über eine Python-Schnittstelle verfügen.
Unsere Absicht ist nicht, alle Bibliotheken für maschinelles Lernen in Python aufzulisten (der Python Package Index (PyPI) lieferte 139 Ergebnisse bei der Suche nach „maschinelles Lernen“), sondern die aufzulisten, von denen wir wissen, dass sie nützlich und gut gepflegt sind derer.
Obwohl einige Module für eine Vielzahl von maschinellen Lernaufgaben verwendet werden können, listen wir nur Bibliotheken auf, deren Hauptaugenmerk auf maschinellem Lernen liegt. Obwohl Scipy1 beispielsweise einige Clustering-Algorithmen enthält, liegt sein Hauptaugenmerk nicht auf maschinellem Lernen, sondern auf einem umfassenden Toolset für wissenschaftliche Berechnungen. Daher schließen wir Scipy aus (obwohl wir es auch verwenden!).
Zu erwähnen ist außerdem, dass wir diese Bibliotheken auch anhand ihrer Integration mit anderen wissenschaftlichen Computerbibliotheken bewerten werden, da maschinelles Lernen (überwacht oder unüberwacht) ebenfalls Teil des Datenverarbeitungssystems ist. Wenn die von Ihnen verwendete Bibliothek nicht zum Rest des Datenverarbeitungssystems passt, werden Sie viel Zeit damit verbringen, eine Zwischenschicht zwischen den verschiedenen Bibliotheken zu erstellen. Es ist wichtig, eine großartige Bibliothek in Ihrem Toolset zu haben, aber es ist ebenso wichtig, dass sich die Bibliothek gut in andere Bibliotheken integrieren lässt.
Wenn Sie gut in anderen Sprachen sind, aber auch Python-Pakete verwenden möchten, beschreiben wir auch kurz die Integration mit Python, um die in diesem Artikel aufgeführten Bibliotheken zu verwenden.
Scikit Learn7 ist das maschinelle Lerntool, das wir bei CB Insights verwenden. Wir verwenden es zur Klassifizierung, Merkmalsauswahl, Merkmalsextraktion und Aggregation.
Was uns am besten gefällt, ist, dass es über eine benutzerfreundliche, konsistente API verfügt und **viele** sofort verfügbare Bewertungs-, Diagnose- und Kreuzvalidierungsmethoden bietet (kommt Ihnen das bekannt vor? Python bietet es auch die Methode „Akku ist bereit“). Das Tüpfelchen auf dem i ist, dass unter der Haube Scipy-Datenstrukturen verwendet werden, was gut zum Rest von Python passt, das Scipy, Numpy, Pandas und Matplotlib für wissenschaftliche Berechnungen verwendet.
Wenn Sie also die Leistung Ihres Klassifikators visualisieren möchten (z. B. mithilfe eines Precision-Recall-Plots oder einer ROC-Kurve (Receiver Operating Characteristics), kann Matplotlib Ihnen dabei helfen, schnelle Visualisierungen zu erstellen.
In Anbetracht des Zeitaufwands für die Bereinigung und Strukturierung von Daten kann die Verwendung dieser Bibliothek sehr praktisch sein, da sie eng in andere wissenschaftliche Computerpakete integriert werden kann.
Darüber hinaus enthält es auch begrenzte Funktionen zur Extraktion natürlicher Sprachverarbeitungsfunktionen sowie einen Wortschatz, tfidf (Term Frequency Inverse Document Frequency-Algorithmus), Vorverarbeitung (Stoppwörter/Stoppwörter, benutzerdefinierte Vorverarbeitung, Analysator). ).
Wenn Sie außerdem schnell verschiedene Benchmark-Tests an kleinen Datensätzen (Spielzeugdatensätzen) durchführen möchten, stellt ein eigenes Datensatzmodul allgemeine und nützliche Datensätze bereit. Sie können auf Basis dieser Datensätze auch eigene kleine Datensätze erstellen, um zu testen, ob das Modell Ihren Erwartungen für Ihre eigenen Zwecke entspricht, bevor Sie das Modell in der realen Welt anwenden. Zur Parameteroptimierung und Parameteranpassung stehen außerdem eine Rastersuche und eine Zufallssuche zur Verfügung.
Keine dieser Funktionen wäre ohne starke Community-Unterstützung möglich oder wenn sie nicht gut gepflegt wird. Wir freuen uns auf die erste stabile Veröffentlichung.
Statsmodels ist eine weitere leistungsstarke Bibliothek mit Schwerpunkt auf statistischen Modellen, die hauptsächlich für prädiktive und explorative Analysen verwendet werden. Wenn Sie lineare Modelle anpassen, statistische Analysen durchführen oder Vorhersagemodelle erstellen möchten, ist Statsmodels genau das Richtige für Sie. Die bereitgestellten statistischen Tests sind recht umfassend und decken die meisten Verifizierungsaufgaben ab.
Wenn Sie ein R- oder S-Benutzer sind, bietet es auch R-Syntax für bestimmte statistische Modelle. Sein Modell akzeptiert auch Numpy-Arrays und Pandas-Datenrahmen, sodass Zwischendatenstrukturen der Vergangenheit angehören.
PyMC ist ein Tool zur Erstellung von **Bayes-Kurven**. Es enthält Diagnosetools für Bayes'sche Modelle, statistische Verteilungen und Modellkonvergenz sowie einige hierarchische Modelle. Wenn Sie eine Bayes'sche Analyse durchführen möchten, sollten Sie sich diese ansehen.
Shogun1 ist eine Toolbox für maschinelles Lernen mit Schwerpunkt auf Support Vector Machines (SVM), geschrieben in C++. Es wird aktiv weiterentwickelt und gewartet, bietet eine Python-Schnittstelle und ist außerdem die am besten dokumentierte Schnittstelle. Allerdings empfanden wir die API im Vergleich zu Scikit-learn als schwieriger zu verwenden. Darüber hinaus sind nicht viele Diagnose- und Bewertungsalgorithmen standardmäßig verfügbar. Geschwindigkeit ist jedoch ein großer Vorteil.
Gensim ist definiert als „Themenmodellierung für Menschen“. Wie auf der Homepage beschrieben, liegt der Schwerpunkt auf der Latent Dirichlet Allocation (LDA) und ihren Varianten. Im Gegensatz zu anderen Paketen unterstützt es die Verarbeitung natürlicher Sprache und kann NLP und andere Algorithmen für maschinelles Lernen einfacher kombinieren.
Wenn Ihr Fachgebiet NLP ist und Sie eine Aggregation und grundlegende Klassifizierung durchführen möchten, können Sie einen Blick darauf werfen. Derzeit führen sie Googles Textdarstellung word2vec ein, die auf dem Recurrent Neural Network basiert. Diese Bibliothek ist ausschließlich in Python geschrieben.
Orange ist unter allen in diesem Artikel aufgeführten Bibliotheken die einzige mit einer grafischen Benutzeroberfläche (GUI). Es ist recht umfassend für Klassifizierungs-, Aggregations- und Merkmalsauswahlmethoden sowie einige Kreuzvalidierungsmethoden. Es ist in einigen Aspekten besser als Scikit-learn (Klassifizierungsmethode, einige Vorverarbeitungsfunktionen), aber seine Anpassungsfähigkeit an andere wissenschaftliche Computersysteme (Numpy, Scipy, Matplotlib, Pandas) ist nicht so gut wie Scikit-learn.
Das Einbinden einer GUI ist jedoch ein sehr wichtiger Vorteil. Sie können die Ergebnisse von Kreuzvalidierungen, Modellen und Feature-Auswahlmethoden visualisieren (für einige Features muss Graphviz installiert sein). Für die meisten Algorithmen verfügt Orange über eigene Datenstrukturen, daher müssen Sie die Daten in eine Orange-kompatible Datenstruktur einbinden, was die Lernkurve steiler macht.
PyMVPA ist eine weitere statistische Lernbibliothek, deren API Scikit-learn sehr ähnlich ist. Enthält Kreuzvalidierungs- und Diagnosetools, ist jedoch nicht so umfassend wie Scikit-learn.
Deep Learning
Obwohl Deep Learning ein Unterbereich des maschinellen Lernens ist, haben wir hier einen separaten Abschnitt erstellt, weil es in letzter Zeit viel Aufmerksamkeit von den Talentakquiseabteilungen von Google und erregt hat Facebook.
Theano ist die ausgereifteste Deep-Learning-Bibliothek. Es bietet eine gute Datenstruktur (Tensor) zur Darstellung der Schichten eines neuronalen Netzwerks, das für die lineare Algebra sehr effizient ist und dem Numpy-Array ähnelt. Es ist zu beachten, dass die API möglicherweise nicht sehr intuitiv ist und die Lernkurve des Benutzers hoch sein wird. Es gibt viele auf Theano basierende Bibliotheken, die seine Datenstrukturen nutzen. Es unterstützt auch die GPU-Programmierung sofort.
Es gibt eine weitere Bibliothek, die auf Theano basiert, PyLearn2, die Theano Modularität und Konfigurierbarkeit verleiht. Sie können neuronale Netze über verschiedene Konfigurationsdateien erstellen. Versuchen Sie es mit verschiedenen Parametern. Man kann sagen, dass seine Modularität leistungsfähiger wird, wenn die Parameter und Eigenschaften des neuronalen Netzwerks in Konfigurationsdateien aufgeteilt werden.
Decaf ist eine Deep-Learning-Bibliothek, die kürzlich von der UC Berkeley veröffentlicht wurde. Sie wurde im Rahmen der Imagenet-Klassifizierungsherausforderung getestet und stellte fest, dass ihre neuronale Netzwerkimplementierung sehr fortgeschritten ist (Stand der Technik).
Wenn Sie die hervorragende Scikit-learn-Bibliotheks-API für Deep Learning verwenden möchten, erleichtert Ihnen Nolearn, das Decaf kapselt, die Verwendung. Es handelt sich um eine Hülle um Decaf, die (größtenteils) mit Scikit-learn kompatibel ist und Decaf noch unglaublicher macht.
OverFeat ist der aktuelle Gewinner von Cats vs. Dogs (Kaggle Challenge) 4. Es ist in C++ geschrieben und enthält auch einen Python-Wrapper (zusammen mit Matlab und Lua). Es nutzt die GPU über die Torch-Bibliothek und ist daher schnell. Gewann außerdem den ImageNet-Wettbewerb zur Klassifizierungserkennung und -lokalisierung. Wenn Ihr Fachgebiet Computer Vision ist, sollten Sie einen Blick darauf werfen.
Hebel ist eine weitere Bibliothek für neuronale Netze mit GPU-Unterstützung, die sofort verfügbar ist. Sie können die Eigenschaften des neuronalen Netzwerks über YAML-Dateien (ähnlich wie Pylearn2) bestimmen, was eine benutzerfreundliche Möglichkeit bietet, göttliche Netzwerke und Code zu trennen, und Sie können das Modell schnell ausführen. Da die Entwicklung erst seit kurzer Zeit erfolgt, mangelt es der Dokumentation an Tiefe und Umfang. Auch das neuronale Netzwerkmodell ist begrenzt, da es nur ein neuronales Netzwerkmodell unterstützt (Feed-Forward).
Allerdings ist sie in reinem Python geschrieben und wird eine sehr benutzerfreundliche Bibliothek sein, da sie viele praktische Funktionen wie Planer und Monitore enthält, die wir in anderen Bibliotheken nicht gefunden haben.
NeuroLab ist eine weitere API-freundliche (ähnlich wie Matlabapi) neuronale Netzwerkbibliothek. Im Gegensatz zu anderen Bibliotheken enthält sie verschiedene Varianten von RNN-Implementierungen (Recurrent Neural Network). Wenn Sie RNN verwenden möchten, ist diese Bibliothek eine der besten Optionen unter ähnlichen APIs.
Sie kennen Python nicht, sind aber gut in anderen Sprachen? Eine der Stärken von Python (neben anderen) ist, dass es so ist Eine perfekte Klebersprache, die Sie verwenden können. Verwenden Sie Ihre eigene häufig verwendete Programmiersprache, um über Python auf diese Bibliotheken zuzugreifen. Um andere Sprachen mit Python zu kombinieren, können folgende Pakete für verschiedene Programmiersprachen verwendet werden:
R -> RPython
Matlab -> - > Jython
Lua -> Lunatic Python
Julia -> mehr als ein Jahr Alle veröffentlichten Updates werden von uns aufgelistet, da sie für Sie nützlich sein könnten. Es ist jedoch unwahrscheinlich, dass diese Bibliotheken Fehlerbehebungen erhalten, insbesondere keine zukünftigen Verbesserungen.
MDP2MlPy
PyBrain
Das obige ist der detaillierte Inhalt vonZusammenfassung häufig verwendeter Bibliotheken für maschinelles Lernen in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!