Rumah  >  Artikel  >  Peranti teknologi  >  Pangkalan data vektor peta navigasi penuh 01Wang yang dibangunkan sendiri menyapu 6 tempat pertama dalam senarai berwibawa

Pangkalan data vektor peta navigasi penuh 01Wang yang dibangunkan sendiri menyapu 6 tempat pertama dalam senarai berwibawa

王林
王林ke hadapan
2024-03-11 16:01:021237semak imbas
Pada 11 Mac, Lingyiwu mengumumkan pelancaran pangkalan data vektor baharu "Descartes" berdasarkan graf navigasi penuh, yang telah memenangi tempat pertama dalam 6 penilaian set data senarai berwibawa ANN-Tanda Aras.

Pangkalan data vektor, juga dikenali sebagai teknologi pencarian maklumat dalam era AI, adalah salah satu teknologi teras Retrieval-Augmented Generation (RAG). Bagi pembangun aplikasi model besar, pangkalan data vektor adalah infrastruktur yang sangat penting, yang mempengaruhi prestasi model besar pada tahap tertentu.

Dalam ujian luar talian platform penilaian berwibawa antarabangsa ANN-Tanda Aras, pangkalan data vektor Zero One Descartes menduduki tempat pertama dalam kalangan 6 penilaian set data, yang lebih baik daripada tempat pertama dalam industri dalam senarai sebelumnya. Peningkatan prestasi yang ketara, peningkatan prestasi pada beberapa set data malah melebihi 2 kali ganda.

Zero One Everything bermakna pangkalan data vektor Cartesian akan digunakan dalam produk AI yang akan dilancarkan secara rasmi dalam masa terdekat, dan juga akan diberikan kepada pembangun dalam kombinasi dengan alatan pada masa hadapan.

Pangkalan data vektor menjadi infrastruktur AI 2.0
Memenangi pasaran modal

Dengan kemunculan model AI-2.0 yang besar. gambar, video dan bahasa semula jadi Jumlah data tidak berstruktur telah meningkat secara mendadak, yang berbeza daripada pangkalan data tradisional yang digunakan untuk memproses data berstruktur. Pangkalan data vektor digunakan khas untuk menyimpan, mengurus, menanya dan mendapatkan semula data tidak berstruktur yang divektorkan ia adalah seperti cakera memori luaran yang boleh dipanggil oleh model besar pada bila-bila masa untuk membentuk "memori jangka panjang", juga digelar memori model besar "; hippocampus".

Model besar secara semula jadi mempunyai empat kelemahan Pangkalan data vektor adalah seperti "ubat khas" yang dibuat khusus yang boleh menyelesaikan setiap titik kesakitan dengan tepat.

  • Maklumat masa nyata: Latihan model besar mengambil masa yang lama, kemas kini perlahan-lahan, tidak dapat mencerminkan maklumat terkini, dan pengetahuannya menghadapi cabaran "tarikh akhir". Pangkalan data vektor menggunakan mekanisme kemas kini ringan yang boleh menambah maklumat terkini dengan cepat.
  • Perlindungan privasi: Data selamat dan peribadi pengguna tidak boleh diberikan terus kepada latihan model besar, jika tidak, terdapat risiko kebocoran data vektor menyelesaikan kesukaran perlindungan privasi dengan bertindak sebagai pembawa perantaraan untuk penghantaran maklumat peringkat inferens.
  • Pembetulan Ilusi: Herotan inferens atau fenomena halusinasi yang sering dipamerkan oleh model besar boleh diperbetulkan dan dikurangkan dengan berkesan melalui rujukan pengetahuan yang kaya yang disediakan oleh pangkalan data vektor.
  • Kecekapan inferens: Kos inferens untuk model besar adalah tinggi. Pangkalan data vektor boleh digunakan sebagai mekanisme caching untuk mengelakkan keperluan untuk melaksanakan semula pengiraan inferens yang kompleks untuk setiap permintaan pertanyaan, dengan sangat menjimatkan sumber pengkomputeran.

Perubahan teknologi dan perubahan platform yang dimulakan oleh AI 2.0 telah mengukuhkan lagi peranan pangkalan data vektor. Produk berkaitan daripada pengeluar utama seperti Google, Microsoft dan Meta telah keluar satu demi satu, dan syarikat permulaan seperti Zilliz, Pinecone, Weaviate dan Qdrant juga muncul. Pada 2023, rakan kongsi pangkalan data vektor OpenAI Pinecone menyelesaikan pembiayaan Siri B sebanyak AS$138 juta, dan syarikat pemula domestik Fabarta ArcNeural turut melengkapkan pusingan Pra-A pembiayaan ratusan juta yuan.
Challenge Senarai yang berwibawa di tempat pertama dalam enam penilaian-benchmarks adalah alat ujian prestasi vektor yang paling berwibawa dalam industri. algoritma dalam situasi kehidupan sebenar yang berbeza pada set data.
6 set data penilaian berikut meliputi sarung tangan-25-sudut, sarung tangan-100-sudut, ayak-128-euclidean, nytimes-256-sudut, fashion-mnist-784-euclidean, gist-960-euclidean set data utama, abscissa mewakili penarikan semula, dan ordinat mewakili QPS (bilangan permintaan yang diproses sesaat). dalam 6 set data berada pada tahap tertinggi dalam penilaian.



Pangkalan data vektor peta navigasi penuh 01Wang yang dibangunkan sendiri menyapu 6 tempat pertama dalam senarai berwibawa

Pangkalan data vektor peta navigasi penuh 01Wang yang dibangunkan sendiri menyapu 6 tempat pertama dalam senarai berwibawa

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    "Throughput QPS" ialah ukuran perolehan maklumat Penunjuk penting keupayaan pemprosesan pertanyaan sistem (seperti enjin carian atau pangkalan data). Berdasarkan TOP1 senarai asal, Pangkalan Data Vektor Cartesian Zero-One Thousand Things telah mencapai peningkatan prestasi yang ketara mendahului TOP1 asal 286%.卡 0 juta pangkalan data vektor Sheccart dan senarai asal perbandingan prestasi TOP1 QPS

Rahsia teknikal Pangkalan data vektor peta navigasi penuh 01Wang yang dibangunkan sendiri menyapu 6 tempat pertama dalam senarai berwibawa

Bagaimana untuk mendedahkan bagaimana Descartes mencapai prestasi Cemerlang di atas?

Seperti yang kita semua tahu, RAG ialah teknologi yang menggabungkan perolehan dan penjanaan Ia meningkatkan keupayaan penjanaan model bahasa dengan mendapatkan maklumat yang ditanya daripada data besar-besaran. Sama seperti kaedah mendapatkan semula tradisional, pada dasarnya, pengambilan vektor RAG terutamanya menyelesaikan dua masalah utama:
1 Mengurangkan set calon untuk pemeriksaan pengambilan dengan mewujudkan struktur indeks tertentu
2 kerumitan.

Pangkalan Data Vektor Sifar Satu Ribu Cartesian mempunyai kelebihan perbandingan yang ketara berbanding industri dalam memproses pertanyaan kompleks, meningkatkan kecekapan mendapatkan semula dan mengoptimumkan storan data. Mengenai soalan pertama, pasukan Zero One World mempunyai dua pembunuh utama:

  • Mengetuai teknologi peta navigasi penuh. Situasi semasa dalam industri terutamanya melalui pencincangan, KD-Tree, VP-Tree dan kaedah lain Kesan navigasi tidak cukup tepat dan kekuatan pemangkasan tidak mencukupi Teknologi navigasi lakaran kecil berbilang lapisan yang dibangunkan oleh Zero One Wanwu dan navigasi sistem koordinat pada peta boleh kedua-duanya Ia memastikan ketepatan dan boleh memotong sejumlah besar vektor yang tidak berkaitan.
  • Strategi pemilihan jiran adaptif pertama untuk mengisi jurang dalam industri. Strategi pemilihan jiran adaptif yang dibangunkan sendiri 01Wuxing menerobos batasan hanya bergantung pada strategi pemilihan topk sebenar atau tepi tetap pada masa lalu Strategi baharu membolehkan setiap nod memilih tepi jiran terbaik secara dinamik berdasarkan ciri pengedaran dirinya dan jirannya, menumpu lebih dekat kepada vektor sasaran dengan lebih cepat, dengan itu meningkatkan prestasi perolehan vektor RAG sebanyak 15%-30%.

Untuk soalan kedua, Zero One Wish mengamalkan skim pengkuantitian dua peringkatRAG yang dipertingkatkan. Zero One Thousand menggunakan pengkuantitian dua peringkat untuk mengurangkan kerumitan pengiraan Pada masa yang sama, storan kolumnar menggunakan sepenuhnya keupayaan serentak SIMD untuk memanfaatkan lagi keupayaan perkakasan Berbanding dengan carian jadual PQ tradisional, prestasinya bertambah baik kepada 2-3 kali .

Selain itu, Zero One Everything juga mempunyai penyelesaian teknologi vektor tindanan penuh seperti pengoptimuman struktur indeks dan jaminan ketersambungan untuk meningkatkan prestasi pangkalan data vektor Cartesian.

Teknologi vektor tindanan penuh: ketepatan yang lebih tinggi dan prestasi yang lebih kukuh

Dengan berkat teknologi vektor tindanan penuh di atas, Pangkalan Data Vektor Zero One Thousand Cartesian yang berada di kedudukan pertama dalam senarai ANN yang berwibawa 6 ulasan penanda aras. Ia juga mempunyai kelebihan teras seperti ketepatan yang lebih tinggi dan prestasi yang lebih kukuh dalam senario aplikasi praktikal.

Sifar Satu Segalanya Pangkalan Data Vektor Cartesian kini memfokuskan pada pangkalan data vektor berprestasi tinggi. Pangkalan data vektor berprestasi tinggi biasanya merujuk kepada set data vektor dengan skala berpuluh juta atau kurang (seperti 20 juta vektor titik terapung 128 dimensi Secara umumnya, pangkalan data vektor berprestasi tinggi boleh mengendalikan 80 hingga 90 peratus setiap hari). senario. Contohnya, ia membantu pelanggan korporat membina pangkalan pengetahuan domain peribadi dan sistem perkhidmatan pelanggan pintar dalam bidang pemanduan autonomi, penggunaan pangkalan data vektor berprestasi tinggi boleh mempercepatkan latihan model pemanduan autonomi, dsb.

Sifar Satu Ribu Pangkalan Data Vektor Berprestasi Tinggi mempunyai kelebihan berikut:

  • Ketepatan ultra tinggi: Berdasarkan sistem navigasi dan koordinat antara lapisan dan pemetaan berbilang lapisan navigasi orientasi direalisasikan, serta Ketersambungan dijamin dan ketepatannya lebih daripada 99%. Di bawah prestasi yang sama, ketepatan adalah jauh mendahului tahap industri.
  • Prestasi super tinggi: Pemilihan tepi yang cekap dan teknologi pemangkasan, berpuluh juta tindak balas ms pangkalan data.

Ambil senario pengesyoran e-dagang sebagai contoh Bilangan produk di rak mungkin berpuluh-puluh juta, dan setiap produk boleh dinyatakan dengan vektor. Walaupun bilangan vektor dalam perpustakaan tidak begitu besar, jika pangkalan pengguna e-dagang adalah sangat besar dan bilangan permintaan pengguna sesaat pada masa puncak adalah sangat besar, ia mungkin mencecah ratusan ribu atau bahkan jutaan QPS . Penggunaan pangkalan data vektor berprestasi tinggi secara berkesan boleh meningkatkan kesan pengesyoran perkhidmatan carian dan pengiklanan dalam senario e-dagang, menjadikan semua orang tidak dapat membantu tetapi terus membeli.

Zero One Everything Representation, pangkalan data vektor Cartesian ialah percubaan awal pasukan berdasarkan RAG, dan akan digunakan dengan berkesan dalam produk produktiviti AI yang dikeluarkan dalam masa terdekat. Pada masa hadapan, selepas setiap model utama dioptimumkan pada tahap tertentu, keupayaan pangkalan data vektor boleh menentukan siling setiap model utama. Zero One Wish akan terus memberi tumpuan kepada R&D dan perkongsian pada masa hadapan untuk membawa teknologi dan pengalaman yang lebih baik kepada pengguna.

Atas ialah kandungan terperinci Pangkalan data vektor peta navigasi penuh 01Wang yang dibangunkan sendiri menyapu 6 tempat pertama dalam senarai berwibawa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam