Rumah  >  Artikel  >  Peranti teknologi  >  Era baharu carian bahasa semula jadi perusahaan telah tiba

Era baharu carian bahasa semula jadi perusahaan telah tiba

王林
王林ke hadapan
2023-05-16 18:29:33924semak imbas

Disebabkan oleh pelepasan OpenAI's ChatGPT dan perang enjin carian berikutnya antara Google dan Microsoft, model bahasa besar (LLM) dan aplikasinya tiba-tiba menjadi topik hangat. ChatGPT dan sistem yang serupa menyegarkan semula pengalaman dan konsep carian baharu kami. Kini pengguna boleh berinteraksi dengan enjin carian secara semula jadi menggunakan bahasa manusia, dan bukannya bergantung pada kata kunci tertentu atau sintaks pertanyaan carian yang kompleks.

Era baharu carian bahasa semula jadi perusahaan telah tiba

Sistem menjawab soalan (QA) ialah keupayaan pemprosesan bahasa semula jadi (NLP) dan satu set keupayaan bahasa yang boleh dicapai oleh LLM, tetapi Sistem QA tidak selalu menjadi kes penggunaan yang popular. Ryan Welsh, Ketua Pegawai Eksekutif syarikat carian NLP Kyndi, mengimbas kembali kesukaran yang dia alami menjelaskan pendekatan syarikatnya terhadap carian NLP: "Saya masih ingat mengumpul wang tiga tahun lalu dan semua orang seperti, 'Hei, hebat, anda NLP, tetapi carian ini adalah bukan kes aplikasi yang baik. . Perubahan lengkap: "Saya rasa ChatGPT mencapai satu dekad gembar-gembur dalam masa 90-120 hari

Berbilion dolar kini dilaburkan dalam teknologi carian generasi akan datang. Tiba-tiba, terdapat keperluan sebenar untuk sistem QA yang boleh menjawab soalan pihak berkepentingan atau pelanggan luar dengan cepat dan tepat yang melawati laman web atau portal pengetahuan syarikat, serta pekerja dalaman yang mencari dokumen syarikat.

Walau bagaimanapun, Welsh berkata bahawa teknologi chatbot semasa ini tidak memenuhi keperluan perusahaan, dan kebolehjelasan, yang merupakan kunci kepada kepercayaan pengguna akhir, selalunya kurang. Keperluan perusahaan untuk sistem model bahasa berskala besar ialah jawapan yang dijana adalah tepat dan boleh dipercayai, bukannya penuh dengan "kekacauan" data latihan daripada kandungan rangkaian Ini adalah masalah yang dihadapi oleh model arus perdana berskala besar seperti ChatGPT (bacaan lanjutan: ). Disebabkan sifat statistik teknologi asas mereka, chatbots boleh mencipta kekusutan maklumat salah kerana mereka sebenarnya tidak memahami bahasa dan hanya meramalkan perkataan terbaik seterusnya. Selalunya, data latihan adalah sangat luas sehingga hampir mustahil untuk menerangkan cara chatbot mencapai jawapan yang diberikannya.

Pendekatan "kotak hitam" kepada AI ini, yang tidak mempunyai kebolehjelasan, sememangnya tidak sesuai untuk kebanyakan perniagaan. Welsh memberi contoh syarikat farmaseutikal yang menyediakan jawapan kepada penyedia penjagaan kesihatan atau pesakit yang melawati tapak web ubatnya. Syarikat dikehendaki mengetahui dan menerangkan setiap hasil carian yang boleh diberikan kepada penyoal. Oleh itu, walaupun terdapat lonjakan permintaan untuk sistem seperti ChatGPT baru-baru ini, menurut Welsh, menyesuaikannya dengan keperluan perusahaan yang ketat ini bukanlah tugas yang mudah dan keperluan itu sering tidak dipenuhi.

Welsh berkata syarikatnya telah memberi tumpuan kepada keperluan perusahaan ini selama bertahun-tahun, belajar daripada pengalaman dan berinteraksi secara langsung dengan pelanggan. Kyndi diasaskan pada 2014 oleh pakar kecerdasan buatan Wales, Arun Majumbar dan saintis komputer John Sowa, pakar dalam graf pengetahuan yang memperkenalkan jenis khusus yang dipanggil peta konsep di IBM pada tahun 1976.

Aplikasi carian bahasa semula jadi Kyndi dibina berdasarkan penemuan dalam graf pengetahuan dan LLM, menggunakan kecerdasan buatan neuro-simbolik, pendekatan semantik yang melengkapkan teknik pembelajaran mesin statistik. Daripada hanya meramalkan perkataan yang paling berkemungkinan seterusnya dalam teks, sistem ini mencipta perwakilan simbolik bahasa, memanfaatkan vektor dan teknologi graf pengetahuan untuk memetakan hubungan antara data. Ini membolehkan sistem memahami niat sebenar di sebalik soalan pengguna akhir, membantu mencari jawapan khusus konteks sambil membezakan sinonim biasa, perkataan semantik setara, singkatan dan salah ejaan.

Teknologi ini hampir tidak memerlukan data latihan untuk berfungsi, yang boleh mengurangkan kesesakan yang disebabkan oleh kekurangan data berlabel dan kepakaran AI. Kos tinggi yang dikaitkan dengan pelabelan data menjadikan latihan dan penalaan halus LLM sangat mahal untuk banyak perusahaan. Kemudahan pelarasan ini merupakan satu lagi faktor pembezaan pendekatan neurosimbolik Kyndi. Welsh berkata ramai pelanggan perusahaan sudah pun mengalami penyebaran AI yang perlahan. Sebuah syarikat farmaseutikal besar menggunakan enam jurutera pembelajaran mesin dan saintis data untuk memperhalusi LLM selama lebih daripada enam bulan sebelum bekerjasama dengan Kyndi. Welsh berkata Kyndi hanya memerlukan bantuan penganalisis perniagaan untuk melatih dan menyesuaikan model mereka dalam sehari. Dalam beberapa kes lain, Kyndi dapat menyelesaikan projek AI dengan tunjuk cara, pengesahan kotak pasir dan penggunaan dalam masa dua minggu.

“Saya fikir pada satu ketika dalam 10 tahun akan datang, setiap bar carian dan setiap antara muka sembang dalam setiap perusahaan di dunia akan mempunyai enjin jawapan Ini akan menjadi apa yang kita lihat dalam perisian perusahaan "yang terbesar shift," kata Welsh, membandingkan detik ini dengan peralihan daripada prapemprosesan kepada awan. "Saya tidak fikir mana-mana vendor mendominasi pasaran ini sekarang." membawa produk ke pasaran syarikat. Walaupun persaingan kini semakin panas, beberapa syarikat baharu ini sudah ketinggalan. Dia menganggarkan mereka masih mempunyai kira-kira 2-3 tahun dan kerja pembinaan bernilai $30 juta untuk dilakukan sebelum berjaya.

Atas ialah kandungan terperinci Era baharu carian bahasa semula jadi perusahaan telah tiba. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam