


Semua kertas mengenai Arxiv ditukar kepada token, dan jumlahnya hanya 14.1GB.
Ini adalah pencapaian yang dicapai oleh projek sumber terbuka hangat terkini Alexander .
Malah, ini hanyalah langkah pertama.
Akhirnya, mereka mahu menjadikan seluruh Internet menjadi Token, dengan kata lain, mengubah segala-galanya menjadi cara model besar seperti ChatGPT memahami dunia.
Sebaik sahaja set data seperti itu dilahirkan, bukankah ia akan menjadi alat berkuasa baharu untuk membangunkan model besar seperti GPT-4, dan mungkin untuk memahami astronomi dari atas dan geografi dari bawah? !
Sebaik sahaja berita itu keluar, ia segera menarik perhatian ramai.
Netizen memuji, Epik.
Dan di belakang ini hanya empat orang dengan purata umur berumur 20 tahun Dimulakan oleh seorang remaja, semua set data kertas Arxiv telah dikeluarkan, dan mereka akan mengeluarkan platform carian Embedding minggu depan.
Bermula daripada semua kertas kerja di Arxiv
Lebih daripada 4 juta projek, 600 juta token dan 3.07 bilion dimensi vektor.
Projek sumber terbuka yang dipanggil Alexander ini bermula dengan setiap kertas Arxiv.
Kaedah yang dipilih ialah benam, yang bermaksud membenamkan pelbagai objek di dunia nyata ke dalam vektor yang boleh difahami oleh komputer.
Contoh paling klasik ialah mewakili imej asal sebagai piksel skala kelabu.
Ciri terbesar teknologi ini ialah ia dapat menyatakan persamaan semantik yang dirasakan oleh manusia.
Sebagai contoh, sukar untuk mencari kertas mengikut kata kunci apabila terdapat 10 perkataan yang bermaksud perkara yang sama. Tetapi pembenaman boleh dilakukan, jadi ia sesuai untuk carian, pengelompokan, pengesyoran dan pengelasan.
Berdasarkan pertimbangan praktikal dan kecekapan, pasukan pembangunan hanya memilih untuk membenamkan tajuk dan abstrak kertas kerja.
Selepas menguji pelbagai model, akhirnya kami memilih untuk menggunakan model pembenaman teks InstructorXL, yang sesuai untuk pelbagai tugas (seperti pengelasan, pengambilan semula, pengelompokan, dll.) dengan hanya menyediakan arahan tugasan tanpa sebarang penalaan halus. Penilaian teks, dsb.) dan medan (seperti sains, kewangan, perubatan, dll.) 》
Minggu depan mereka akan mengeluarkan carian Arxiv. Proses setakat ini ialah melakukan carian persamaan terlebih dahulu pada 100 artikel terdekat, kemudian mengira benamnya dengan cepat dan menjalankan carian kedua yang lebih kompleks.
Matlamat utama ialah keseluruhan program terbenam Internet.
Pelan sumber terbuka gila seorang budak lelaki berusia 20 tahun
Terdapat dua sebab utama untuk melancarkan pelan sumber terbuka yang gila itu.
Di satu pihak, ia membenamkan nilai yang besar. Banyak masalah di dunia hanyalah carian, pengelompokan, pengesyoran atau pengelasan, dan ini adalah perkara yang sangat dikuasai oleh pembenaman. Dan seperti yang dinyatakan sebelum ini, beberapa teka-teki yang kompleks boleh diselesaikan.
Sebaliknya kosnya sekali dan sangat murah. Dalam kebanyakan kes, tidak perlu melakukan pengiraan kedua pada fail yang sama. Pada masa ini, setiap 100 juta Token hanya berharga 1 USD.
Tetapi mereka tidak menemui sebarang set data terbenam terbuka, jadi organisasi seperti ini muncul.
Mereka juga akan membuka lebih banyak set data pada masa hadapan, dan ini akan dipilih oleh pengguna ini. Sebagai tambahan kepada set data awam di tapak web rasmi, projek sumber terbuka yang selebihnya telah membuka saluran pengundian.
Adalah diingatkan bahawa di belakangnya terdapat sekumpulan remaja dengan purata umur hanya 20 tahun.
Dan nama pasukan mereka juga sangat mendominasi, Macrocosm (Macro World) Alliance.
Selagi anda mengezum masuk cukup jauh, manusia menjadi satu organisma.
Menurut pengenalan rasmi, mereka komited untuk membina pemalam untuk ChatGPT dan produk lain yang serupa. Mereka juga membangunkan produk teras, pembantu penyelidik peribadi berdasarkan model besar untuk membantu pembelajaran, pengajaran dan penyelidikan saintifik.
Rakan-rakan yang berminat boleh klik pada pautan di bawah untuk mengetahui lebih lanjut~
https://alex.macrocosm.so/download
Atas ialah kandungan terperinci Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Anda boleh melihat apa yang berlaku dalam persidangan dan di pameran perdagangan. Anda boleh meminta jurutera apa yang mereka lakukan, atau berunding dengan CEO. Di mana sahaja anda melihat, perkara berubah pada kelajuan pecah. Jurutera, dan bukan jurutera Apa perbezaannya

Simulasi Rocket dilancarkan dengan Rocketpy: Panduan Komprehensif Artikel ini membimbing anda melalui mensimulasikan pelancaran roket kuasa tinggi menggunakan Rocketpy, perpustakaan Python yang kuat. Kami akan merangkumi segala -galanya daripada menentukan komponen roket untuk menganalisis simula

Memulakan perjalanan kerjaya yang didorong oleh data tanpa melanggar bank! Artikel ini menyoroti lima kursus analisis data percuma yang luar biasa, sesuai untuk kedua -dua profesional berpengalaman yang ingin mengembangkan kemahiran mereka dan pendatang baru yang ingin tahu untuk meneroka t

Memanfaatkan kuasa agen AI dengan Openagi: Panduan Komprehensif Bayangkan pembantu yang tidak kenal lelah, sentiasa tersedia untuk menyelaraskan tugas anda dan memberikan cadangan yang berwawasan. Itulah janji ejen AI, dan Openagi memberi anda kuasa untuk membina mereka

Tawaran terbaru OpenAI, GPT-4O Mini, menandakan langkah penting ke arah AI maju yang berpatutan dan boleh diakses. Model bahasa kecil (SLM) ini secara langsung mencabar pesaing seperti Llama 3 dan Gemma 2, yang membanggakan latensi rendah, keberkesanan kos, dan a

Episod ini "Memimpin dengan Data" menampilkan Dr. Geetha Manjunath, pengasas dan Ketua Pegawai Eksekutif Niramai Analytix. Dengan lebih dari 25 tahun pengalaman di AI dan penjagaan kesihatan, Dr. Manjunath, memegang PhD dari Institut Sains India dan MBA FRO

Memanfaatkan kekuatan sumber terbuka LLMS secara tempatan dengan Ollama: Panduan Komprehensif Menjalankan model bahasa yang besar (LLMs) secara tempatan menawarkan kawalan dan ketelusan yang tiada tandingannya, tetapi menubuhkan persekitaran boleh menakutkan. Ollama memudahkan proses ini

Memanfaatkan kekuatan LLM yang disempurnakan dengan Monsterapi: Panduan Komprehensif Bayangkan pembantu maya dengan sempurna memahami dan menjangkakan keperluan anda. Ini menjadi realiti terima kasih kepada kemajuan dalam model bahasa besar (LLMS). Walau bagaimanapun, a


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

EditPlus versi Cina retak
Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa