Maison > Article > développement back-end > Quelles mathématiques devez-vous apprendre pour l'analyse de données Python ?
Parce que je ne sais pas à quoi servent les connaissances mathématiques que j’ai acquises. Les personnels de R&D des entreprises informatiques ont toujours le sentiment qu’ils doivent apprendre quelques mathématiques avant d’accéder à des postes liés au Big Data. Mais dans le vaste monde des mathématiques, où est la fin de la technologie des données ?
Quand on parle de technologie des données, la première chose à laquelle beaucoup de gens pensent sont les mathématiques, probablement en raison de la position solide des nombres dans le système mathématique, ce qui est naturel. Cet article mène une discussion sur le fondement mathématique de la technologie des données. (Apprentissage recommandé : Tutoriel vidéo Python)
Nous connaissons les trois grandes branches des mathématiques, à savoir l'algèbre, la géométrie et l'analyse. Chaque branche se prolonge en de nombreuses petites branches avec le développement de la recherche. Dans ce système mathématique, les fondements mathématiques étroitement liés à la technologie du Big Data comprennent principalement les catégories suivantes. (Pour l'application de ces méthodes mathématiques à la technologie du Big Data, veuillez vous référer au livre "Internet Big Data Processing Technology and Application", 2017, Tsinghua University Press)
(1) Théorie des probabilités et mathématiques statistiques
Cette partie est très étroitement liée au développement de la technologie du big data, aux concepts de base tels que la probabilité conditionnelle et l'indépendance, les variables aléatoires et leur distribution, les variables aléatoires multidimensionnelles et leur distribution, l'analyse de la variance et l'analyse de régression, les processus aléatoires (en particulier Markov), l'estimation des paramètres, la théorie de Bayes, etc. sont très importants dans la modélisation et l'exploitation du Big Data. Les mégadonnées présentent naturellement des caractéristiques de grande dimension. La conception et l’analyse de modèles de données dans un espace de grande dimension nécessitent une certaine base sur les variables aléatoires multidimensionnelles et leur distribution. Le théorème de Bayes est l'un des fondements de la construction des classificateurs. En plus de ces connaissances de base, le CRF à champ aléatoire conditionnel, le modèle de Markov latent, le n-gram, etc. peuvent être utilisés pour analyser le vocabulaire et le texte dans l'analyse du Big Data, et peuvent être utilisés pour créer des modèles de classification prédictifs.
Bien sûr, la théorie de l'information basée sur la théorie des probabilités joue également un certain rôle dans l'analyse du Big Data. Les méthodes d'analyse des caractéristiques telles que le gain d'informations et l'information mutuelle sont tous des concepts de la théorie de l'information.
(2) Algèbre linéaire
Cette partie des connaissances mathématiques est également étroitement liée au développement de la technologie des données, des matrices, des transposées, des matrices à blocage de rang, des vecteurs, Les matrices orthogonales, les espaces vectoriels, les valeurs propres et les vecteurs propres sont également des méthodes techniques couramment utilisées dans la modélisation et l'analyse du Big Data.
Dans le big data Internet, les objets d'analyse de nombreux scénarios d'application peuvent être résumés en représentations matricielles, comme un grand nombre de pages Web et leurs relations, les utilisateurs de Weibo et leurs relations, la relation entre les textes et le vocabulaire dans les ensembles de textes, etc., etc. peut être représenté par des matrices. Par exemple, lorsqu'une page Web et sa relation sont représentées par une matrice, l'élément matriciel représente la relation entre la page a et une autre page b. Cette relation peut être une relation de pointage, 1 signifie qu'il existe un lien hypertexte entre a et b, 0. signifie a, il n'y a pas d'hyperliens entre b. Le célèbre algorithme PageRank s'appuie sur cette matrice pour quantifier l'importance des pages et prouver sa convergence.
Diverses opérations basées sur des matrices, telles que la décomposition matricielle, sont des moyens d'extraire les caractéristiques des objets d'analyse. Parce que la matrice représente une certaine transformation ou cartographie, la matrice obtenue après décomposition représente l'analyse Quelques nouvelles caractéristiques. de l'objet dans le nouvel espace. Par conséquent, les décompositions en valeurs singulières SVD, PCA, NMF, MF, etc. sont largement utilisées dans l'analyse du Big Data.
(3) Méthode d'optimisation
L'apprentissage et la formation des modèles sont un moyen pour de nombreux modèles d'analyse et d'exploration de résoudre les paramètres. : donner Définir une fonction f:A→R et trouver un élément a0∈A tel que pour tout a dans A, f(a0)≤f(a) (minimiser ou f(a0)≥f(a) (maximiser) ; changement). La méthode d'optimisation dépend de la forme de la fonction. Du point de vue actuel, la méthode d'optimisation est généralement basée sur des méthodes différentielles et dérivées, telles que la descente de gradient, la méthode d'escalade, la méthode des moindres carrés, la méthode de distribution conjuguée, etc.
(4) Mathématiques discrètes
L'importance des mathématiques discrètes va de soi. C'est le fondement de toutes les branches de l'informatique. La nature constitue également un fondement important pour la technologie des données. Il ne sera pas développé ici.
Enfin, il faut mentionner que beaucoup de gens pensent qu'ils ne sont pas bons en mathématiques et qu'ils ne peuvent pas réussir dans le développement et l'application de la technologie des données, mais ce n'est pas le cas. Réfléchissez clairement au rôle que vous jouez dans le développement et les applications du Big Data. Reportez-vous aux points d'entrée suivants pour la recherche et l'application de la technologie Big Data. Les connaissances mathématiques ci-dessus se reflètent principalement dans la couche d'exploration de données et de modèle. Ces connaissances et méthodes mathématiques doivent être maîtrisées.
Bien sûr, l'utilisation de ces méthodes mathématiques à d'autres niveaux est également très utile pour améliorer les algorithmes. Par exemple, au niveau de la couche d'acquisition de données, vous pouvez utiliser des modèles de probabilité pour estimer la valeur des pages de collecte de robots. afin de porter un meilleur jugement. Dans la couche de calcul et de stockage du Big Data, le calcul par blocs matriciels est utilisé pour réaliser le calcul parallèle.
Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!