Maison  >  Article  >  Périphériques technologiques  >  Les projets open source fous des quatre générations post-2000 : l'ensemble d'Internet est converti en un grand corpus modèle, et le coût d'intégration de 100 millions de jetons n'est que de 1 $ US.

Les projets open source fous des quatre générations post-2000 : l'ensemble d'Internet est converti en un grand corpus modèle, et le coût d'intégration de 100 millions de jetons n'est que de 1 $ US.

WBOY
WBOYavant
2023-06-06 11:10:04968parcourir

Tous les papiers sur Arxiv convertis en jetons totalisent seulement 14,1 Go.

C'est un exploit accompli par le dernier projet open source en vogue Alexander.

En fait, ce n'est que la première étape.

Ils veulent à terme transformer l'ensemble d'Internet en Tokens, en d'autres termes, tout transformer dans la manière dont les grands modèles tels que ChatGPT comprennent le monde.

Une fois qu'un tel ensemble de données sera né, ne serait-il pas un nouvel outil puissant pour développer de grands modèles comme GPT-4, et il ne serait pas possible de comprendre l'astronomie d'en haut et la géographie d'en bas ? !

Dès que la nouvelle est sortie, elle a immédiatement attiré une grande attention.

Les projets open source fous des quatre générations post-2000 : lensemble dInternet est converti en un grand corpus modèle, et le coût dintégration de 100 millions de jetons nest que de 1 $ US.

Les internautes l'ont loué, Epic.

Les projets open source fous des quatre générations post-2000 : lensemble dInternet est converti en un grand corpus modèle, et le coût dintégration de 100 millions de jetons nest que de 1 $ US.


Les projets open source fous des quatre générations post-2000 : lensemble dInternet est converti en un grand corpus modèle, et le coût dintégration de 100 millions de jetons nest que de 1 $ US.

L'initiative derrière cela ne concerne que quatre adolescents d'un âge moyen de 20 ans. Actuellement, tous les ensembles de données papier Arxiv ont été publiés, et ils publieront ensuite la plateforme de recherche Embedding. semaine.

Partez de tous les articles sur Arxiv

Plus de 4 millions de projets, 600 millions de jetons et 3,07 milliards de dimensions vectorielles.

Ce projet open source appelé Alexander commence avec chaque article sur Arxiv.

La méthode choisie est l'intégration. En termes simples, elle incarne divers objets du monde réel dans des vecteurs que l'ordinateur peut comprendre.

Les projets open source fous des quatre générations post-2000 : lensemble dInternet est converti en un grand corpus modèle, et le coût dintégration de 100 millions de jetons nest que de 1 $ US.

L'exemple le plus classique consiste à représenter l'image originale sous forme de pixels en niveaux de gris.

Les projets open source fous des quatre générations post-2000 : lensemble dInternet est converti en un grand corpus modèle, et le coût dintégration de 100 millions de jetons nest que de 1 $ US.

La plus grande caractéristique de cette technologie est qu'elle peut exprimer la similitude sémantique perçue par les humains.

Par exemple, il est difficile de trouver des articles par mots-clés quand il y a 10 mots qui veulent dire la même chose. Mais l'intégration peut être effectuée, elle convient donc à la recherche, au regroupement, à la recommandation et à la classification.

Pour des raisons pratiques et d'efficacité, l'équipe de développement a choisi d'intégrer uniquement le titre et le résumé de l'article.

Après avoir testé différents modèles, nous avons finalement choisi d'utiliser le modèle d'intégration de texte InstructorXL, qui convient à une variété de tâches (telles que la classification, la récupération, le clustering, l'évaluation de texte, etc.) en fournissant simplement des instructions de tâches sans aucune amende. -tuning et Field (comme la science, la finance, la médecine, etc.)

La semaine prochaine, ils publieront la recherche Arxiv. Jusqu'à présent, le processus consiste à effectuer d'abord une recherche de similarité sur les 100 articles les plus proches, puis à calculer les intégrations de ceux-ci à la volée et à effectuer une deuxième recherche, plus complexe.

Le but ultime est un plan Internet intégré complet.

Le plan open source fou d'un garçon de 20 ans

Il y a deux raisons principales pour lesquelles nous voulons lancer un plan open source aussi fou.

D’une part, cela intègre une valeur énorme. De nombreux problèmes dans le monde ne concernent que la recherche, le regroupement, la recommandation ou la classification, et ce sont des choses pour lesquelles les intégrations sont très efficaces. Et comme mentionné précédemment, certaines énigmes complexes peuvent être résolues.

Par contre le coût est unique et très bon marché. Dans la plupart des cas, il n’est pas nécessaire d’effectuer un deuxième calcul sur le même fichier. Actuellement, cela ne coûte que 1 USD pour 100 millions de jetons.

Mais ils n’ont trouvé aucun ensemble de données intégré ouvert, c’est pourquoi des organisations comme celle-ci ont émergé.

Ils ouvriront également davantage d'ensembles de données à l'avenir, et ceux-ci seront sélectionnés par ces utilisateurs. En plus des ensembles de données publiques sur le site officiel, les autres projets open source ont ouvert des canaux de vote.

Les projets open source fous des quatre générations post-2000 : lensemble dInternet est converti en un grand corpus modèle, et le coût dintégration de 100 millions de jetons nest que de 1 $ US.

Il est à noter que derrière elle se cache une équipe d'adolescents d'une moyenne d'âge de seulement 20 ans.

Les projets open source fous des quatre générations post-2000 : lensemble dInternet est converti en un grand corpus modèle, et le coût dintégration de 100 millions de jetons nest que de 1 $ US.

Et le nom de leur équipe est également très dominateur, Macrocosm (Macro World) Alliance.

Tant que l'on zoome assez loin, les humains deviennent un organisme unique.

Selon l'introduction officielle, ils s'engagent à créer des plug-ins pour ChatGPT et d'autres produits similaires. Ils développent également des produits de base, des assistants de recherche personnels basés sur de grands modèles pour faciliter l'apprentissage. , l'enseignement et la recherche scientifique.

Les amis intéressés peuvent cliquer sur le lien ci-dessous pour en savoir plus~

https://alex.macrocosm.so/download#🎜🎜 #

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer