Heim > Artikel > Backend-Entwicklung > Analysieren Sie häufig verwendete Bibliotheken für maschinelles Lernen in Python
Python wird häufig im wissenschaftlichen Rechnen verwendet: Computer Vision, künstliche Intelligenz, Mathematik, Astronomie usw. Es ist keine Überraschung, dass dies auch für maschinelles Lernen gilt.
Dieser Artikel listet und beschreibt die nützlichsten Tools und Bibliotheken für maschinelles Lernen in Python. In dieser Liste ist nicht erforderlich, dass diese Bibliotheken in Python geschrieben sind, solange sie über eine PythonSchnittstelle verfügen.
Unsere Absicht ist es nicht, alle Bibliotheken für maschinelles Lernen in Python aufzulisten (Bei der Suche nach „maschinelles Lernen“ Python-Paket Index (PyPI) gibt 139 Ergebnisse zurück), sondern listen Sie stattdessen diejenigen auf, von denen wir wissen, dass sie nützlich und gut gepflegt sind.
Obwohl einige Module für eine Vielzahl von maschinellen Lernaufgaben verwendet werden können, listen wir nur Bibliotheken auf, deren Hauptaugenmerk auf maschinellem Lernen liegt. Obwohl Scipy1 beispielsweise einige Clustering-Algorithmen enthält, liegt sein Hauptaugenmerk nicht auf maschinellem Lernen, sondern auf einem umfassenden Toolset für wissenschaftliche Berechnungen. Daher schließen wir Scipy aus (obwohl wir es auch verwenden!).
Zu erwähnen ist außerdem, dass wir diese Bibliotheken auch anhand ihrer Integration mit anderen wissenschaftlichen Computerbibliotheken bewerten werden, da maschinelles Lernen (überwacht oder unüberwacht) ebenfalls Teil des Datenverarbeitungssystems ist. Wenn die von Ihnen verwendete Bibliothek nicht zum Rest des Datenverarbeitungssystems passt, werden Sie viel Zeit damit verbringen, eine Zwischenschicht zwischen den verschiedenen Bibliotheken zu erstellen. Es ist wichtig, eine großartige Bibliothek in Ihrem Toolset zu haben, aber es ist ebenso wichtig, dass sich die Bibliothek gut in andere Bibliotheken integrieren lässt.
Wenn Sie gut in anderen Sprachen sind, aber auch Python-Pakete verwenden möchten, beschreiben wir auch kurz die Integration mit Python, um die in diesem Artikel aufgeführten Bibliotheken zu verwenden.
Scikit Learn7 ist das maschinelle Lerntool, das wir bei CB Insights verwenden. Wir verwenden es zur Klassifizierung, Merkmalsauswahl, Merkmalsextraktion und Aggregation.
Was uns am meisten gefällt, ist, dass es über eine konsistente, benutzerfreundliche API verfügt und **viele** sofort verfügbare Bewertungs-, Diagnose- und Kreuzvalidierungsmethoden bietet (Kommt Ihnen das nicht bekannt vor? Python bietet auch eine „Batterie bereit“-Methode). Das Tüpfelchen auf dem i ist, dass unter der Haube Scipy-Datenstrukturen verwendet werden, was gut zum Rest von Python passt, das Scipy, Numpy, Pandas und Matplotlib für wissenschaftliche Berechnungen verwendet.
Wenn Sie also die Leistung Ihres Klassifikators visualisieren möchten (z. B. mithilfe eines Precision-Recall-Plots oder einer ROC-Kurve (Receiver Operating Characteristics), kann Matplotlib Ihnen dabei helfen, schnelle Visualisierungen zu erstellen.
In Anbetracht des Zeitaufwands für die Bereinigung und Strukturierung von Daten kann die Verwendung dieser Bibliothek sehr praktisch sein, da sie eng in andere wissenschaftliche Computerpakete integriert werden kann.
Darüber hinaus enthält es auch begrenzte Funktionen zur Extraktion natürlicher Sprachverarbeitungsfunktionen sowie einen Wortschatz, tfidf (Term Frequency Inverse Document Frequency Algorithmus), Vorverarbeitung (deaktivierte Wörter/Stopp). Wörter, benutzerdefinierte Vorverarbeitung, Parser).
Wenn Sie außerdem schnell verschiedene Benchmarks für kleine Datensätze (Spielzeugdatensatz) durchführen möchten, bietet das eigene Datensatzmodul allgemeine und nützliche Datensätze. Sie können auf Basis dieser Datensätze auch eigene kleine Datensätze erstellen, um zu testen, ob das Modell den Erwartungen für Ihre eigenen Zwecke entspricht, bevor Sie das Modell auf die reale Welt anwenden. Zur Parameteroptimierung und Parameteranpassung stehen außerdem eine Rastersuche und eine Zufallssuche zur Verfügung.
Keine dieser Funktionen wäre ohne starke Community-Unterstützung oder ohne gute Wartung möglich. Wir freuen uns auf die erste stabile Veröffentlichung.
Statsmodels ist eine weitere leistungsstarke Bibliothek mit Schwerpunkt auf statistischen Modellen, die hauptsächlich für prädiktive und explorative Analysen verwendet wird. Wenn Sie lineare Modelle anpassen, statistische Analysen durchführen oder Vorhersagemodelle erstellen möchten, ist Statsmodels genau das Richtige für Sie. Die bereitgestellten statistischen Tests sind recht umfassend und decken die meisten Verifizierungsaufgaben ab.
Wenn Sie ein R- oder S-Benutzer sind, bietet es auch R-Syntax für bestimmte statistische Modelle. Sein Modell akzeptiert auch NumpyArrays und Pandas-Datenrahmen, sodass Zwischendatenstrukturen der Vergangenheit angehören!
PyMC dient zur Erstellung von **Bayes-Kurven** Werkzeuge. Es enthält Diagnosetools für Bayes'sche Modelle, statistische Verteilungen und Modellkonvergenz sowie einige hierarchische Modelle. Wenn Sie eine Bayes'sche Analyse durchführen möchten, sollten Sie sich diese ansehen.
Shogun1 ist eine Toolbox für maschinelles Lernen mit Schwerpunkt auf Support Vector Machines (SVM), geschrieben in C++. Es wird aktiv weiterentwickelt und gewartet, bietet eine Python-Schnittstelle und ist außerdem die am besten dokumentierte Schnittstelle. Allerdings empfanden wir die API im Vergleich zu Scikit-learn als schwieriger zu verwenden. Darüber hinaus sind nicht viele Diagnose- und Bewertungsalgorithmen standardmäßig verfügbar. Geschwindigkeit ist jedoch ein großer Vorteil.
Gensim ist definiert als „Themenmodellierung fürMenschen)“. Wie auf der Homepage beschrieben, liegt der Schwerpunkt auf der Latent Dirichlet Allocation (LDA) und ihren Varianten. Im Gegensatz zu anderen Paketen unterstützt es die Verarbeitung natürlicher Sprache und kann NLP und andere Algorithmen für maschinelles Lernen einfacher kombinieren.
Wenn Ihr Fachgebiet NLP ist und Sie eine Aggregation und grundlegende Klassifizierung durchführen möchten, können Sie einen Blick darauf werfen. Derzeit führen sie Googles Textdarstellung word2vec ein, die auf einem RekursivenNeuronalen Netzwerk (Recurrent Neural Network) basiert. Diese Bibliothek ist ausschließlich in Python geschrieben.
Orange ist unter allen in diesem Artikel aufgeführten Bibliotheken die einzige mit einer grafischen Benutzeroberfläche (GUI). Es ist recht umfassend für Klassifizierungs-, Aggregations- und Merkmalsauswahlmethoden sowie einige Kreuzvalidierungsmethoden. Es ist in einigen Aspekten besser als Scikit-learn (Klassifizierungsmethode, einige Vorverarbeitungsfunktionen), aber seine Anpassungsfähigkeit an andere wissenschaftliche Computersysteme (Numpy, Scipy, Matplotlib, Pandas) ist nicht so gut wie Scikit-learn.
Das Einbinden einer GUI ist jedoch ein sehr wichtiger Vorteil. Sie können die Ergebnisse von Kreuzvalidierungen, Modellen und Feature-Auswahlmethoden visualisieren (für einige Features muss Graphviz installiert sein). Für die meisten Algorithmen verfügt Orange über eigene Datenstrukturen, daher müssen Sie die Daten in eine Orange-kompatible Datenstruktur einbinden, was die Lernkurve steiler macht.
PyMVPA ist eine weitere statistische Lernbibliothek, deren API Scikit-learn sehr ähnlich ist. Enthält Kreuzvalidierungs- und Diagnosetools, ist jedoch nicht so umfassend wie Scikit-learn.
Deep Learning
Obwohl Deep Learning ein Unterbereich des maschinellen Lernens ist, haben wir hier einen separaten Abschnitt erstellt, weil es in letzter Zeit viel Aufmerksamkeit von den Talentakquiseabteilungen von Google und erregt hat Facebook.
Theano ist die ausgereifteste Deep-Learning-Bibliothek. Es bietet eine gute Datenstruktur (Tensor) zur Darstellung der Schichten eines neuronalen Netzwerks, das für die lineare Algebra sehr effizient ist und dem Numpy-Array ähnelt. Es ist zu beachten, dass die API möglicherweise nicht sehr intuitiv ist und die Lernkurve des Benutzers hoch sein wird. Es gibt viele auf Theano basierende Bibliotheken, die seine Datenstrukturen nutzen. Es unterstützt auch die GPU-Programmierung sofort.
Es gibt eine weitere Theano-basierte Bibliothek, PyLearn2, die Modularität und Konfigurierbarkeit in Theano einführt, an die Sie verschiedene Konfigurationsdateien übergeben können Erstellen Sie das neuronale Netzwerk, das das Ausprobieren verschiedener Parameter erleichtert. Man kann sagen, dass seine Modularität leistungsfähiger wird, wenn die Parameter und Attribute des neuronalen Netzwerks in der Konfigurationsdatei getrennt werden.
DecafDecaf ist eine Deep-Learning-Bibliothek, die kürzlich von der UC Berkeley veröffentlicht wurde. Sie wurde im Rahmen der Imagenet-Klassifizierungsherausforderung getestet und stellte fest, dass ihre neuronale Netzwerkimplementierung sehr fortgeschritten ist (Stand der Technik). NolearnWenn Sie die hervorragende Scikit-learn-Bibliotheks-API für Deep Learning verwenden möchten, erleichtert Ihnen Nolearn, das Decaf kapselt, die Verwendung. Es handelt sich um eine Hülle um Decaf, die (größtenteils) mit Scikit-learn kompatibel ist, was Decaf noch unglaublicher macht. OverFeatOverFeat ist der aktuelle Gewinner von Cats vs. Dogs (Kaggle Challenge) 4. Es ist in C++ geschrieben und enthält auch einen Python-Wrapper (zusammen mit Matlab und Lua). Es nutzt die GPU über die Torch-Bibliothek und ist daher schnell. Gewann außerdem den ImageNet-Wettbewerb zur Klassifizierungserkennung und -lokalisierung. Wenn Ihr Fachgebiet Computer Vision ist, sollten Sie einen Blick darauf werfen. HebelHebel ist eine weitere Bibliothek für neuronale Netze mit GPU-Unterstützung, die sofort verfügbar ist. Sie können die Eigenschaften des neuronalen Netzwerks über YAML-Dateien bestimmen (ähnlich wie Pylearn2), was eine benutzerfreundliche Möglichkeit bietet, das Netzwerk auf Gott-Ebene vom Code zu trennen und das Modell schnell auszuführen. Da die Entwicklung erst seit kurzer Zeit erfolgt, mangelt es der Dokumentation an Tiefe und Umfang. Auch das neuronale Netzwerkmodell ist begrenzt, da es nur ein neuronales Netzwerkmodell unterstützt (Feed-Forward). Es ist jedoch in reinem Python geschrieben und wird eine sehr benutzerfreundliche Bibliothek sein, da es viele praktischeFunktionen enthält, wie z. B. Scheduler und Monitore, die wir in anderen Bibliotheken nicht gefunden haben .
NeurolabNeuroLab ist eine weitere API-freundliche (ähnlich wie Matlabapi) neuronale Netzwerkbibliothek. Im Gegensatz zu anderen Bibliotheken enthält sie verschiedene Varianten von RNN-Implementierungen (Recurrent Neural Network). Wenn Sie RNN verwenden möchten, ist diese Bibliothek eine der besten Optionen unter ähnlichen APIs.Sie kennen Python nicht, sind aber sehr gut in anderen Sprachen? Eine der Stärken von Python (neben anderen) ist, dass es perfekt ist Mit der Glue-Sprache können Sie Ihre übliche Programmiersprache verwenden und über Python auf diese Bibliotheken zugreifen. Um andere Sprachen mit Python zu kombinieren, können folgende Pakete für verschiedene Programmiersprachen verwendet werden:
R -> RPython
Matlab -> - > Jython
Lua -> Lunatic Python
Julia -> mehr als ein Jahr Alle veröffentlichten Updates werden von uns aufgelistet, da sie für Sie nützlich sein könnten. Es ist jedoch unwahrscheinlich, dass diese Bibliotheken Fehlerbehebungen erhalten, insbesondere keine zukünftigen Verbesserungen.
MDP2MlPy
PyBrain
Das obige ist der detaillierte Inhalt vonAnalysieren Sie häufig verwendete Bibliotheken für maschinelles Lernen in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!