Heim  >  Artikel  >  Backend-Entwicklung  >  Welche Mathematik müssen Sie für die Python-Datenanalyse lernen?

Welche Mathematik müssen Sie für die Python-Datenanalyse lernen?

(*-*)浩
(*-*)浩Original
2019-07-02 09:50:045187Durchsuche

Weil ich nicht weiß, was die mathematischen Kenntnisse, die ich gelernt habe, nützlich sind. F&E-Mitarbeiter in IT-Unternehmen haben immer das Gefühl, dass sie etwas Mathematik lernen müssen, bevor sie in Big-Data-bezogene Positionen einsteigen. Aber wo ist in der riesigen Welt der Mathematik das Ende der Datentechnologie?

Welche Mathematik müssen Sie für die Python-Datenanalyse lernen?

Wenn es um Datentechnologie geht, denken viele Menschen als Erstes an Mathematik, wahrscheinlich aufgrund der festen Stellung der Zahlen im mathematischen System, was natürlich ist. In diesem Artikel wird eine Diskussion über die mathematischen Grundlagen der Datentechnologie geführt. (Empfohlenes Lernen: Python-Video-Tutorial)

Wir kennen die drei Hauptzweige der Mathematik, nämlich Algebra, Geometrie und Analysis. Jeder Zweig erstreckt sich mit der Entwicklung der Forschung in viele kleine Zweige. In diesem mathematischen System umfassen die mathematischen Grundlagen, die eng mit der Big-Data-Technologie verbunden sind, hauptsächlich die folgenden Kategorien. (Informationen zur Anwendung dieser mathematischen Methoden in der Big-Data-Technologie finden Sie im Buch „Internet Big Data Processing Technology and Application“, 2017, Tsinghua University Press)

(1) Wahrscheinlichkeitstheorie und Mathematik Statistik

Dieser Teil steht in engem Zusammenhang mit der Entwicklung der Big-Data-Technologie, Grundkonzepten wie bedingter Wahrscheinlichkeit und Unabhängigkeit, Zufallsvariablen und ihrer Verteilung, mehrdimensionalen Zufallsvariablen und ihrer Verteilung, Varianzanalyse und Regressionsanalyse, Zufallsprozesse (insbesondere Markov), Parameterschätzung, Bayes-Theorie usw. sind bei der Big-Data-Modellierung und dem Big-Data-Mining sehr wichtig. Big Data weist von Natur aus hochdimensionale Eigenschaften auf. Der Entwurf und die Analyse von Datenmodellen im hochdimensionalen Raum erfordern eine gewisse Grundlage für mehrdimensionale Zufallsvariablen und deren Verteilung. Der Satz von Bayes ist eine der Grundlagen der Klassifikatorkonstruktion. Zusätzlich zu diesen Grundkenntnissen können bedingtes Zufallsfeld-CRF, latentes Markov-Modell, N-Gramm usw. zur Analyse von Vokabular und Text in der Big-Data-Analyse sowie zur Erstellung prädiktiver Klassifizierungsmodelle verwendet werden.

Natürlich spielt die auf der Wahrscheinlichkeitstheorie basierende Informationstheorie auch in der Big-Data-Analyse eine gewisse Rolle. Methoden zur Merkmalsanalyse wie Informationsgewinn und gegenseitige Information sind alles Konzepte der Informationstheorie.

(2) Lineare Algebra

Dieser Teil des mathematischen Wissens steht auch in engem Zusammenhang mit der Entwicklung der Datentechnologie, Matrizen, Transponierten, Rangblockmatrizen, Vektoren, Orthogonale Matrizen, Vektorräume, Eigenwerte und Eigenvektoren sind ebenfalls häufig verwendete technische Methoden bei der Modellierung und Analyse großer Datenmengen.

In Internet-Big Data können die Analyseobjekte vieler Anwendungsszenarien in Matrixdarstellungen abstrahiert werden, z. B. eine große Anzahl von Webseiten und ihre Beziehungen, Weibo-Benutzer und ihre Beziehungen sowie die Beziehung zwischen Texten und Vokabular in Textsätzen usw. usw. können durch Matrizen dargestellt werden. Wenn beispielsweise eine Webseite und ihre Beziehung durch eine Matrix dargestellt werden, stellt das Matrixelement die Beziehung zwischen Seite a und einer anderen Seite b dar. Diese Beziehung kann eine Zeigebeziehung sein, 1 bedeutet, dass zwischen a und b ein Hyperlink besteht, 0 bedeutet a, es gibt keine Hyperlinks zwischen b. Der berühmte PageRank-Algorithmus basiert auf dieser Matrix, um die Wichtigkeit von Seiten zu quantifizieren und deren Konvergenz zu beweisen.

Verschiedene auf Matrizen basierende Operationen, wie z. B. die Matrixzerlegung, sind Möglichkeiten, Merkmale von Analyseobjekten zu extrahieren. Da die Matrix eine bestimmte Transformation oder Zuordnung darstellt, stellt die nach der Zerlegung erhaltene Matrix die Analyse dar. Einige neue Merkmale des Objekts im neuen Raum. Daher werden die Einzelwertzerlegung SVD, PCA, NMF, MF usw. häufig in der Big-Data-Analyse verwendet.

(3) Optimierungsmethode

Modelllernen und -training ist für viele Analyse- und Mining-Modelle eine Möglichkeit, Parameter zu lösen : Give Definieren Sie eine Funktion f:A→R und finden Sie ein Element a0∈A, so dass für alle a in A gilt: f(a0)≤f(a) (minimieren); oder f(a0)≥f(a) (maximieren). ändern). Die Optimierungsmethode hängt von der Form der Funktion ab. Aus heutiger Sicht basiert die Optimierungsmethode normalerweise auf Differential- und Ableitungsmethoden wie Gradientenabstieg, Bergsteigermethode, Methode der kleinsten Quadrate, Methode der konjugierten Verteilung usw.

(4) Diskrete Mathematik

Die Bedeutung der diskreten Mathematik liegt auf der Hand. Sie ist die Grundlage aller Zweige der Informatik. Die Natur ist auch eine wichtige Grundlage für die Datentechnologie. Es wird hier nicht näher darauf eingegangen.

Abschließend muss erwähnt werden, dass viele Menschen denken, dass sie nicht gut in Mathematik sind und bei der Entwicklung und Anwendung von Datentechnologie nicht gut abschneiden können, aber das ist nicht der Fall. Überlegen Sie klar, welche Rolle Sie bei der Entwicklung und Anwendung von Big Data spielen. Beachten Sie die folgenden Einstiegspunkte für die Forschung und Anwendung der Big-Data-Technologie. Die oben genannten mathematischen Kenntnisse spiegeln sich hauptsächlich in der Daten-Mining- und Modellebene wider.

Natürlich ist die Verwendung dieser mathematischen Methoden auch auf anderen Ebenen sehr sinnvoll, um den Algorithmus zu verbessern. Auf der Datenerfassungsebene können Sie beispielsweise ein Wahrscheinlichkeitsmodell verwenden, um den Wert der Seite abzuschätzen vom Crawler gesammelt, um eine bessere Beurteilung zu ermöglichen. In der Big-Data-Computing- und Speicherschicht wird Matrixblock-Computing verwendet, um paralleles Computing zu erreichen.

Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr darüber zu erfahren!

Das obige ist der detaillierte Inhalt vonWelche Mathematik müssen Sie für die Python-Datenanalyse lernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn