Rumah  >  Artikel  >  Peranti teknologi  >  Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

WBOY
WBOYke hadapan
2023-06-06 11:10:04970semak imbas

Semua kertas mengenai Arxiv ditukar kepada token, dan jumlahnya hanya 14.1GB.

Ini adalah pencapaian yang dicapai oleh projek sumber terbuka hangat terkini Alexander .

Malah, ini hanyalah langkah pertama.

Akhirnya, mereka mahu menjadikan seluruh Internet menjadi Token, dengan kata lain, mengubah segala-galanya menjadi cara model besar seperti ChatGPT memahami dunia.

Sebaik sahaja set data seperti itu dilahirkan, bukankah ia akan menjadi alat berkuasa baharu untuk membangunkan model besar seperti GPT-4, dan mungkin untuk memahami astronomi dari atas dan geografi dari bawah? !

Sebaik sahaja berita itu keluar, ia segera menarik perhatian ramai.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Netizen memuji, Epik.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.


Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Dan di belakang ini hanya empat orang dengan purata umur berumur 20 tahun Dimulakan oleh seorang remaja, semua set data kertas Arxiv telah dikeluarkan, dan mereka akan mengeluarkan platform carian Embedding minggu depan.

Bermula daripada semua kertas kerja di Arxiv

Lebih daripada 4 juta projek, 600 juta token dan 3.07 bilion dimensi vektor.

Projek sumber terbuka yang dipanggil Alexander ini bermula dengan setiap kertas Arxiv.

Kaedah yang dipilih ialah benam, yang bermaksud membenamkan pelbagai objek di dunia nyata ke dalam vektor yang boleh difahami oleh komputer.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Contoh paling klasik ialah mewakili imej asal sebagai piksel skala kelabu.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Ciri terbesar teknologi ini ialah ia dapat menyatakan persamaan semantik yang dirasakan oleh manusia.

Sebagai contoh, sukar untuk mencari kertas mengikut kata kunci apabila terdapat 10 perkataan yang bermaksud perkara yang sama. Tetapi pembenaman boleh dilakukan, jadi ia sesuai untuk carian, pengelompokan, pengesyoran dan pengelasan.

Berdasarkan pertimbangan praktikal dan kecekapan, pasukan pembangunan hanya memilih untuk membenamkan tajuk dan abstrak kertas kerja.

Selepas menguji pelbagai model, akhirnya kami memilih untuk menggunakan model pembenaman teks InstructorXL, yang sesuai untuk pelbagai tugas (seperti pengelasan, pengambilan semula, pengelompokan, dll.) dengan hanya menyediakan arahan tugasan tanpa sebarang penalaan halus. Penilaian teks, dsb.) dan medan (seperti sains, kewangan, perubatan, dll.)

Minggu depan mereka akan mengeluarkan carian Arxiv. Proses setakat ini ialah melakukan carian persamaan terlebih dahulu pada 100 artikel terdekat, kemudian mengira benamnya dengan cepat dan menjalankan carian kedua yang lebih kompleks.

Matlamat utama ialah keseluruhan program terbenam Internet.

Pelan sumber terbuka gila seorang budak lelaki berusia 20 tahun

Terdapat dua sebab utama untuk melancarkan pelan sumber terbuka yang gila itu.

Di satu pihak, ia membenamkan nilai yang besar. Banyak masalah di dunia hanyalah carian, pengelompokan, pengesyoran atau pengelasan, dan ini adalah perkara yang sangat dikuasai oleh pembenaman. Dan seperti yang dinyatakan sebelum ini, beberapa teka-teki yang kompleks boleh diselesaikan.

Sebaliknya kosnya sekali dan sangat murah. Dalam kebanyakan kes, tidak perlu melakukan pengiraan kedua pada fail yang sama. Pada masa ini, setiap 100 juta Token hanya berharga 1 USD.

Tetapi mereka tidak menemui sebarang set data terbenam terbuka, jadi organisasi seperti ini muncul.

Mereka juga akan membuka lebih banyak set data pada masa hadapan, dan ini akan dipilih oleh pengguna ini. Sebagai tambahan kepada set data awam di tapak web rasmi, projek sumber terbuka yang selebihnya telah membuka saluran pengundian.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Adalah diingatkan bahawa di belakangnya terdapat sekumpulan remaja dengan purata umur hanya 20 tahun.

Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.

Dan nama pasukan mereka juga sangat mendominasi, Macrocosm (Macro World) Alliance.

Selagi anda mengezum masuk cukup jauh, manusia menjadi satu organisma.

Menurut pengenalan rasmi, mereka komited untuk membina pemalam untuk ChatGPT dan produk lain yang serupa. Mereka juga membangunkan produk teras, pembantu penyelidik peribadi berdasarkan model besar untuk membantu pembelajaran, pengajaran dan penyelidikan saintifik.

Rakan-rakan yang berminat boleh klik pada pautan di bawah untuk mengetahui lebih lanjut~

https://alex.macrocosm.so/download

Atas ialah kandungan terperinci Pelan sumber terbuka yang gila bagi empat generasi pasca-00-an: keseluruhan Internet ditukar menjadi korpus model besar, dan kos untuk membenamkan 100 juta token hanya AS$1.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam