cari
RumahPeranti teknologiAIPelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Semua kertas mengenai Arxiv ditukar kepada token, dan jumlahnya hanya 14.1GB.

Ini adalah pencapaian yang dicapai oleh projek sumber terbuka hangat terkini Alexander .

Malah, ini hanyalah langkah pertama.

Akhirnya, mereka mahu menjadikan seluruh Internet menjadi Token, dengan kata lain, mengubah segala-galanya menjadi cara model besar seperti ChatGPT memahami dunia.

Sebaik sahaja set data seperti itu dilahirkan, bukankah ia akan menjadi alat berkuasa baharu untuk membangunkan model besar seperti GPT-4, dan mungkin untuk memahami astronomi dari atas dan geografi dari bawah? !

Sebaik sahaja berita itu keluar, ia segera menarik perhatian ramai.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Netizen memuji, Epik.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.


Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Dan di belakang ini hanya empat orang dengan purata umur berumur 20 tahun Dimulakan oleh seorang remaja, semua set data kertas Arxiv telah dikeluarkan, dan mereka akan mengeluarkan platform carian Embedding minggu depan.

Bermula daripada semua kertas kerja di Arxiv

Lebih daripada 4 juta projek, 600 juta token dan 3.07 bilion dimensi vektor.

Projek sumber terbuka yang dipanggil Alexander ini bermula dengan setiap kertas Arxiv.

Kaedah yang dipilih ialah benam, yang bermaksud membenamkan pelbagai objek di dunia nyata ke dalam vektor yang boleh difahami oleh komputer.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Contoh paling klasik ialah mewakili imej asal sebagai piksel skala kelabu.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Ciri terbesar teknologi ini ialah ia dapat menyatakan persamaan semantik yang dirasakan oleh manusia.

Sebagai contoh, sukar untuk mencari kertas mengikut kata kunci apabila terdapat 10 perkataan yang bermaksud perkara yang sama. Tetapi pembenaman boleh dilakukan, jadi ia sesuai untuk carian, pengelompokan, pengesyoran dan pengelasan.

Berdasarkan pertimbangan praktikal dan kecekapan, pasukan pembangunan hanya memilih untuk membenamkan tajuk dan abstrak kertas kerja.

Selepas menguji pelbagai model, akhirnya kami memilih untuk menggunakan model pembenaman teks InstructorXL, yang sesuai untuk pelbagai tugas (seperti pengelasan, pengambilan semula, pengelompokan, dll.) dengan hanya menyediakan arahan tugasan tanpa sebarang penalaan halus. Penilaian teks, dsb.) dan medan (seperti sains, kewangan, perubatan, dll.)

Minggu depan mereka akan mengeluarkan carian Arxiv. Proses setakat ini ialah melakukan carian persamaan terlebih dahulu pada 100 artikel terdekat, kemudian mengira benamnya dengan cepat dan menjalankan carian kedua yang lebih kompleks.

Matlamat utama ialah keseluruhan program terbenam Internet.

Pelan sumber terbuka gila seorang budak lelaki berusia 20 tahun

Terdapat dua sebab utama untuk melancarkan pelan sumber terbuka yang gila itu.

Di satu pihak, ia membenamkan nilai yang besar. Banyak masalah di dunia hanyalah carian, pengelompokan, pengesyoran atau pengelasan, dan ini adalah perkara yang sangat dikuasai oleh pembenaman. Dan seperti yang dinyatakan sebelum ini, beberapa teka-teki yang kompleks boleh diselesaikan.

Sebaliknya kosnya sekali dan sangat murah. Dalam kebanyakan kes, tidak perlu melakukan pengiraan kedua pada fail yang sama. Pada masa ini, setiap 100 juta Token hanya berharga 1 USD.

Tetapi mereka tidak menemui sebarang set data terbenam terbuka, jadi organisasi seperti ini muncul.

Mereka juga akan membuka lebih banyak set data pada masa hadapan, dan ini akan dipilih oleh pengguna ini. Sebagai tambahan kepada set data awam di tapak web rasmi, projek sumber terbuka yang selebihnya telah membuka saluran pengundian.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Adalah diingatkan bahawa di belakangnya terdapat sekumpulan remaja dengan purata umur hanya 20 tahun.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Dan nama pasukan mereka juga sangat mendominasi, Macrocosm (Macro World) Alliance.

Selagi anda mengezum masuk cukup jauh, manusia menjadi satu organisma.

Menurut pengenalan rasmi, mereka komited untuk membina pemalam untuk ChatGPT dan produk lain yang serupa. Mereka juga membangunkan produk teras, pembantu penyelidik peribadi berdasarkan model besar untuk membantu pembelajaran, pengajaran dan penyelidikan saintifik.

Rakan-rakan yang berminat boleh klik pada pautan di bawah untuk mengetahui lebih lanjut~

https://alex.macrocosm.so/download

Atas ialah kandungan terperinci Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Semua orang semakin baik menggunakan AI: pemikiran mengenai pengekodan getaranSemua orang semakin baik menggunakan AI: pemikiran mengenai pengekodan getaranApr 19, 2025 am 11:17 AM

Anda boleh melihat apa yang berlaku dalam persidangan dan di pameran perdagangan. Anda boleh meminta jurutera apa yang mereka lakukan, atau berunding dengan CEO. Di mana sahaja anda melihat, perkara berubah pada kelajuan pecah. Jurutera, dan bukan jurutera Apa perbezaannya

Simulasi dan analisis pelancaran roket menggunakan Rocketpy - Analytics VidhyaSimulasi dan analisis pelancaran roket menggunakan Rocketpy - Analytics VidhyaApr 19, 2025 am 11:12 AM

Simulasi Rocket dilancarkan dengan Rocketpy: Panduan Komprehensif Artikel ini membimbing anda melalui mensimulasikan pelancaran roket kuasa tinggi menggunakan Rocketpy, perpustakaan Python yang kuat. Kami akan merangkumi segala -galanya daripada menentukan komponen roket untuk menganalisis simula

5 Kursus Analisis Data Percuma - Analisis Vidhya5 Kursus Analisis Data Percuma - Analisis VidhyaApr 19, 2025 am 11:11 AM

Memulakan perjalanan kerjaya yang didorong oleh data tanpa melanggar bank! Artikel ini menyoroti lima kursus analisis data percuma yang luar biasa, sesuai untuk kedua -dua profesional berpengalaman yang ingin mengembangkan kemahiran mereka dan pendatang baru yang ingin tahu untuk meneroka t

Bagaimana Membina Ejen AI Autonomi Menggunakan Openagi? - Analytics VidhyaBagaimana Membina Ejen AI Autonomi Menggunakan Openagi? - Analytics VidhyaApr 19, 2025 am 11:10 AM

Memanfaatkan kuasa agen AI dengan Openagi: Panduan Komprehensif Bayangkan pembantu yang tidak kenal lelah, sentiasa tersedia untuk menyelaraskan tugas anda dan memberikan cadangan yang berwawasan. Itulah janji ejen AI, dan Openagi memberi anda kuasa untuk membina mereka

GPT-4O MINI: Bagaimana model terbaru Openai disusun?GPT-4O MINI: Bagaimana model terbaru Openai disusun?Apr 19, 2025 am 11:09 AM

Tawaran terbaru OpenAI, GPT-4O Mini, menandakan langkah penting ke arah AI maju yang berpatutan dan boleh diakses. Model bahasa kecil (SLM) ini secara langsung mencabar pesaing seperti Llama 3 dan Gemma 2, yang membanggakan latensi rendah, keberkesanan kos, dan a

Dari Innovator Tech ke Pioneer Penjagaan Kesihatan: Dr. Geetha Manjunath ' s AI StoryDari Innovator Tech ke Pioneer Penjagaan Kesihatan: Dr. Geetha Manjunath ' s AI StoryApr 19, 2025 am 11:02 AM

Episod ini "Memimpin dengan Data" menampilkan Dr. Geetha Manjunath, pengasas dan Ketua Pegawai Eksekutif Niramai Analytix. Dengan lebih dari 25 tahun pengalaman di AI dan penjagaan kesihatan, Dr. Manjunath, memegang PhD dari Institut Sains India dan MBA FRO

Memudahkan penggunaan LLM tempatan dengan Ollama - Analytics VidhyaMemudahkan penggunaan LLM tempatan dengan Ollama - Analytics VidhyaApr 19, 2025 am 11:01 AM

Memanfaatkan kekuatan sumber terbuka LLMS secara tempatan dengan Ollama: Panduan Komprehensif Menjalankan model bahasa yang besar (LLMs) secara tempatan menawarkan kawalan dan ketelusan yang tiada tandingannya, tetapi menubuhkan persekitaran boleh menakutkan. Ollama memudahkan proses ini

Cara menyempurnakan model bahasa yang besar dengan MonsterapiCara menyempurnakan model bahasa yang besar dengan MonsterapiApr 19, 2025 am 10:49 AM

Memanfaatkan kekuatan LLM yang disempurnakan dengan Monsterapi: Panduan Komprehensif Bayangkan pembantu maya dengan sempurna memahami dan menjangkakan keperluan anda. Ini menjadi realiti terima kasih kepada kemajuan dalam model bahasa besar (LLMS). Walau bagaimanapun, a

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Alat panas

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa