cari
RumahPeranti teknologiAIBiarkan Siri tidak lagi terencat akal! Apple mentakrifkan model sisi peranti baharu, yang 'jauh lebih baik daripada GPT-4 Ia menyingkirkan teks dan mensimulasikan maklumat skrin secara visual Model parameter minimum masih 5% lebih baik daripada sistem garis dasar.

Ditulis oleh Noah

Dihasilkan | 51CTO Technology Stack (WeChat ID: blog51cto)

Siri, yang selalu dikritik pengguna kerana "agak terencat akal", diselamatkan!

Siri merupakan salah seorang wakil dalam bidang pembantu suara pintar sejak dilahirkan, namun sejak sekian lama, prestasinya kurang memuaskan. Bagaimanapun, hasil penyelidikan terkini yang dikeluarkan oleh pasukan kecerdasan buatan Apple dijangka akan mengubah status quo dengan ketara. Keputusan ini menarik dan meningkatkan jangkaan yang besar untuk masa depan bidang ini.

Dalam kertas penyelidikan berkaitan, pakar AI Apple menerangkan sistem di mana Siri bukan sahaja dapat mengenali kandungan dalam imej, tetapi juga melakukan lebih banyak lagi, menjadi lebih pintar dan lebih berguna. Model berfungsi ini dipanggil ReALM, yang berdasarkan standard GPT 4.0 dan mempunyai keupayaan penanda aras yang lebih baik daripada GPT 4.0. Pakar ini percaya bahawa model yang mereka bangunkan digunakan untuk melaksanakan fungsi yang mereka bangunkan, yang boleh menjadikan Siri lebih pintar, lebih praktikal dan lebih sesuai untuk pelbagai senario.

1. Motivasi: Menyelesaikan resolusi rujukan entiti yang berbeza

Menurut pasukan penyelidik Apple: “Adalah sangat penting untuk membolehkan pembantu perbualan memahami konteks, termasuk penunjuk kandungan yang berkaitan skrin berdasarkan perkara yang mereka lihat adalah langkah penting untuk memastikan pengalaman dikendalikan suara.”

Sebagai contoh, semasa interaksi manusia-komputer, pengguna sering menyebut elemen atau kandungan tertentu pada skrin semasa perbualan, seperti mengarahkan pembantu suara Hubungi nombor telefon, navigasi ke tempat tertentu pada peta, buka apl atau halaman web tertentu dan banyak lagi. Jika pembantu perbualan tidak dapat memahami rujukan entiti di sebalik arahan pengguna, ia tidak akan dapat melaksanakan arahan tersebut dengan tepat.

Selain itu, fenomena rujukan kabur adalah perkara biasa dalam perbualan manusia Untuk mencapai interaksi manusia-komputer semula jadi dan memahami konteks dengan tepat apabila pengguna membuat pertanyaan tentang kandungan skrin dengan pembantu suara, keupayaan untuk menyelesaikan rujukan adalah penting.

Kelebihan model yang dipanggil ReALM (Resolusi Rujukan Sebagai Pemodelan Bahasa) yang disebut oleh Apple dalam kertas itu ialah ia boleh mempertimbangkan kandungan pada skrin pengguna dan tugas yang sedang dijalankan pada masa yang sama, dan menggunakan model bahasa yang besar untuk menyelesaikan masalah yang berbeza. Masalah penyelesaian rujukan entiti jenis (termasuk entiti perbualan dan bukan entiti perbualan).

Walaupun modaliti teks tradisional menyusahkan untuk mengendalikan entiti yang dipaparkan pada skrin, sistem ReALM menukar penghuraian rujukan kepada masalah pemodelan bahasa dan berjaya menggunakan LLM untuk mengendalikan rujukan entiti bukan perbualan pada skrin, iaitu sangat cekap. Bumi memudahkan matlamat ini. Dengan cara ini, ia dijangka mencapai pengalaman pengguna yang sangat pintar dan lebih mendalam.

2. Pembinaan semula: Menembusi batasan modaliti teks tradisional

Modaliti teks tradisional tidak sesuai untuk memproses entiti yang dipaparkan pada skrin kerana entiti pada skrin biasanya mengandungi maklumat visual yang kaya dan struktur susun atur, seperti imej , ikon , butang dan hubungan kedudukan relatifnya, dsb. Maklumat ini sukar untuk dinyatakan sepenuhnya dalam perihalan teks tulen.

Untuk menangani cabaran ini, sistem ReALM secara kreatif mencadangkan untuk membina semula skrin dengan menghuraikan entiti pada skrin dan maklumat kedudukannya, dan menjana perwakilan teks tulen yang boleh mencerminkan kandungan skrin secara visual.

Bahagian entiti akan ditanda khas supaya model bahasa memahami tempat entiti muncul dan teks di sekelilingnya, supaya ia boleh mensimulasikan "melihat" maklumat pada skrin dan memahami serta menghuraikan arahan pada skrin Menyediakan maklumat kontekstual yang diperlukan. Pendekatan ini merupakan percubaan pertama untuk menggunakan model bahasa yang besar untuk mengekod konteks daripada kandungan skrin, mengatasi masalah entiti skrin yang sukar dikendalikan dengan modaliti teks tradisional.

Secara khusus, agar model bahasa besar "memahami" dan memproses entiti yang dipaparkan pada skrin, sistem ReALM menggunakan langkah berikut:

Pertama, entiti dalam teks skrin diekstrak dengan bantuan pengesan data lapisan atas, Entiti ini akan mempunyai jenis, kotak sempadan dan senarai elemen teks bukan entiti yang mengelilingi entiti. Ini bermakna bahawa untuk setiap entiti visual pada skrin, sistem menangkap maklumat asasnya dan konteks di mana ia wujud.

Kemudian, ReALM secara inovatif mencadangkan algoritma untuk mengisih titik tengah kotak sempadan entiti dan objek sekeliling dalam susunan menegak (atas ke bawah) dan mendatar (kiri ke kanan), dan menyusunnya secara stabil . Jika jarak antara entiti adalah dekat, mereka dianggap berada pada baris yang sama dan dipisahkan oleh tab jika jarak melebihi jidar yang ditetapkan, mereka diletakkan pada baris seterusnya. Dengan cara ini, dengan menggunakan kaedah di atas secara berterusan, kandungan skrin boleh dikodkan ke dalam format teks biasa dari kiri ke kanan dan atas ke bawah, dengan berkesan mengekalkan hubungan spatial relatif antara entiti.

Dengan cara ini, maklumat visual skrin yang sukar diproses secara langsung oleh LLM ditukar kepada bentuk teks yang sesuai untuk input model bahasa, membolehkan LLM mengambil kira sepenuhnya kedudukan dan lokasi spesifik entiti skrin semasa memproses tugasan urutan ke urutan untuk mencapai pengenalpastian yang betul dan resolusi rujukan entiti skrin.

Ini menjadikan sistem ReALM bukan sahaja berprestasi baik dalam menyelesaikan masalah rujukan entiti dialog, tetapi juga menunjukkan peningkatan prestasi yang ketara apabila berurusan dengan entiti bukan dialog - iaitu entiti pada skrin.

3. Butiran: Takrifan tugas dan set data

Ringkasnya, tugas yang dihadapi oleh sistem ReALM adalah untuk mencari entiti yang berkaitan dengan pertanyaan pengguna semasa dalam koleksi entiti yang diberikan berdasarkan tugasan yang pengguna mahu lakukan melaksanakan.

Tugas ini distrukturkan sebagai soalan aneka pilihan untuk model bahasa yang besar, dan ia dijangka memilih satu atau lebih pilihan sebagai jawapan daripada entiti yang dipaparkan pada skrin pengguna. Sudah tentu, dalam beberapa kes jawapannya mungkin "tidak".

Malah, kertas penyelidikan membahagikan entiti yang terlibat dalam tugasan kepada tiga kategori:

1 Entiti skrin: merujuk kepada entiti yang kelihatan pada antara muka pengguna.

2 Entiti dialog: entiti yang berkaitan dengan kandungan perbualan, yang mungkin datang daripada ucapan pengguna sebelumnya (contohnya, jika pengguna menyebut "panggil ibu", kemasukan "ibu" dalam senarai kenalan ialah entiti yang berkaitan) , atau mungkin dijana oleh Pembantu maya disediakan dalam perbualan (seperti senarai tempat untuk dipilih oleh pengguna).

3 Entiti latar belakang: entiti berkaitan yang berasal daripada proses latar belakang dan tidak semestinya ditunjukkan secara langsung dalam paparan skrin pengguna atau interaksi dengan pembantu maya, seperti jam penggera yang akan berbunyi secara lalai atau muzik dimainkan di latar belakang.

Bagi set data yang digunakan untuk melatih dan menguji ReALM, ia terdiri daripada data sintetik dan data beranotasi manual, yang juga boleh dibahagikan kepada tiga kategori:

Pertama, set data dialog: mengandungi interaksi antara pengguna dan ejen Titik data untuk entiti berkaitan. Data ini dikumpul dengan meminta penilai melihat tangkapan skrin yang mengandungi senarai entiti sintetik dan meminta mereka memberikan pertanyaan yang menunjuk secara eksplisit kepada mana-mana entiti yang dipilih dalam senarai.

Set data sintetik kedua: Gunakan kaedah penjanaan templat untuk mendapatkan data Kaedah ini amat berguna apabila pertanyaan pengguna dan jenis entiti mencukupi untuk menentukan rujukan tanpa bergantung pada penerangan terperinci. Set data sintetik juga boleh mengandungi berbilang entiti yang sepadan dengan pertanyaan yang sama.

Ketiga, set data skrin: Ia merangkumi terutamanya data entiti yang dipaparkan pada skrin pengguna pada masa ini Setiap bahagian data mengandungi pertanyaan pengguna, senarai entiti dan entiti yang betul (atau koleksi entiti) yang sepadan dengan pertanyaan. Maklumat tentang setiap entiti termasuk jenis entiti dan sifat lain seperti nama dan butiran teks lain yang dikaitkan dengan entiti (cth., label dan masa jam penggera).

Untuk titik data yang mengandungi konteks berkaitan skrin, maklumat konteks disediakan dalam bentuk kotak sempadan entiti dan senarai objek lain yang mengelilingi entiti, bersama-sama dengan maklumat atribut seperti jenis, kandungan teks dan lokasi objek sekeliling ini. Saiz keseluruhan set data dibahagikan kepada set latihan dan set ujian mengikut kategori, dan setiap satu mempunyai saiz tertentu.

4. Keputusan: Model terkecil juga mencapai peningkatan prestasi 5%

Dalam ujian penanda aras, Apple membandingkan sistemnya sendiri dengan GPT 3.5 dan GPT 4.0. Model ReALM menunjukkan daya saing yang sangat baik dalam menyelesaikan pelbagai jenis tugasan penghuraian rujukan.

Biarkan Siri tidak lagi terencat akal! Apple mentakrifkan model sisi peranti baharu, yang jauh lebih baik daripada GPT-4 Ia menyingkirkan teks dan mensimulasikan maklumat skrin secara visual Model parameter minimum masih 5% lebih baik daripada sistem garis dasar.Gambar

Menurut kertas kerja, walaupun versi dengan parameter paling sedikit dalam ReALM telah mencapai peningkatan prestasi lebih daripada 5% berbanding sistem garis dasar. Pada versi model yang lebih besar, ReALM jelas mengatasi GPT-4. Terutamanya apabila memproses entiti yang dipaparkan pada skrin, apabila saiz model meningkat, peningkatan prestasi ReALM pada set data skrin menjadi lebih ketara.

Selain itu, prestasi model ReALM agak hampir dengan GPT-4 dalam senario pembelajaran sifar pukulan dalam bidang baharu. Apabila memproses pertanyaan dalam medan tertentu, model ReALM berprestasi lebih tepat daripada GPT-4 kerana penalaan halus berdasarkan permintaan pengguna.

Sebagai contoh, untuk permintaan pengguna untuk melaraskan kecerahan, GPT-4 hanya mengaitkan permintaan dengan tetapan, mengabaikan bahawa peranti rumah pintar yang sedia ada di latar belakang juga merupakan entiti yang berkaitan, dan ReALM dilatih dengan khusus domain. data , boleh lebih memahami dan menyelesaikan masalah rujukan dengan lebih baik dalam bidang khusus tersebut.

“Kami menunjukkan bahawa RealLM mengatasi kaedah sebelumnya dan mencapai hasil yang setanding walaupun ketika berurusan dengan rujukan dalam skrin semata-mata berdasarkan medan teks, walaupun mempunyai parameter yang jauh lebih sedikit daripada LLM terkini, GPT-4 . Tahap prestasi yang agak tinggi Selain itu, RealLM berprestasi lebih baik daripada GPT-4 untuk sebutan pengguna dalam bidang tertentu Oleh itu, RealLM boleh dikatakan sesuai untuk membangunkan persekitaran aplikasi praktikal dan boleh dilaksanakan secara tempatan pada peranti sambil memastikan prestasi itu. tidak terjejas. Penyelesaian pilihan untuk pengendalian sistem resolusi rujukan yang cekap Selain itu, para penyelidik juga menyatakan bahawa dalam senario aplikasi praktikal dengan sumber terhad, tindak balas kependaman rendah, atau melibatkan integrasi berbilang peringkat seperti panggilan API, satu besar-. Model hujung ke hujung skala selalunya tidak berkenaan.

Dalam konteks ini, sistem ReALM yang direka bentuk secara modular mempunyai lebih banyak kelebihan, membolehkan modul resolusi rujukan asal diganti dan dinaik taraf dengan mudah tanpa menjejaskan seni bina keseluruhan, sambil memberikan potensi pengoptimuman dan Kebolehtafsiran yang lebih baik.

Menghadapi masa hadapan, hala tuju penyelidikan menunjukkan kaedah yang lebih kompleks, seperti membahagikan kawasan skrin kepada grid dan mengekodkan kedudukan ruang relatif dalam bentuk teks Walaupun ia agak mencabar, ini adalah jalan yang menjanjikan untuk diterokai.

5. Ditulis pada penghujungnya

Dalam bidang kecerdasan buatan, walaupun Apple sentiasa lebih berhati-hati, ia juga melabur secara senyap. Sama ada model besar multi-modal MM1, atau alat penjanaan animasi dipacu AI Keyframer, atau ReALM hari ini, pasukan penyelidik Apple terus mencapai kejayaan teknologi.

Penonton seperti Google, Microsoft, Amazon dan pesaing lain menambahkan AI pada carian, perkhidmatan awan dan perisian pejabat, melenturkan otot mereka satu demi satu. Apple jelas cuba untuk tidak ketinggalan. Memandangkan hasil pelaksanaan AI generatif terus muncul, Apple telah mempercepatkan langkah mengejarnya. Orang yang biasa dengan perkara itu telah lama mendedahkan bahawa Apple akan menumpukan pada bidang kecerdasan buatan pada Persidangan Pembangun Global pada bulan Jun, dan strategi kecerdasan buatan baharu mungkin akan menjadi kandungan teras peningkatan iOS 18. Pada masa itu, ia mungkin membawa anda kejutan.

Pautan rujukan:

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms -gpt-4

https://arxiv.org/pdf/2403.20329.pdf

Atas ialah kandungan terperinci Biarkan Siri tidak lagi terencat akal! Apple mentakrifkan model sisi peranti baharu, yang 'jauh lebih baik daripada GPT-4 Ia menyingkirkan teks dan mensimulasikan maklumat skrin secara visual Model parameter minimum masih 5% lebih baik daripada sistem garis dasar.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
AV Bytes: Pergeseran Industri AI dan Terobosan Teknologi - Analytics VidhyaAV Bytes: Pergeseran Industri AI dan Terobosan Teknologi - Analytics VidhyaApr 16, 2025 am 10:29 AM

Minggu ini di AI: Pengambilalihan Utama, Kemajuan Model, dan Pertimbangan Etika Edisi AV Bytes ini merangkumi kejayaan AI yang signifikan dari minggu lalu. Dari pengambilalihan strategik Google dari character.ai hingga pelancaran bitnet b1.58,

Meneroka Movinets: Pengiktirafan video mudah alih yang cekapMeneroka Movinets: Pengiktirafan video mudah alih yang cekapApr 16, 2025 am 10:25 AM

Pengenalan Marilah kita menyelam ke dunia pengiktirafan video mudah alih yang menarik dengan "Movinets Unleashed"! Blog ini membawa anda meneroka bagaimana movinet mengubah analisis video pada peranti mudah alih, CO

Pandas vs PolarPandas vs PolarApr 16, 2025 am 10:24 AM

Pengenalan Bayangkan anda lutut dalam projek data, bergelut dengan dataset besar dan memburu corak secepat mungkin. Anda mencapai alat manipulasi data anda, tetapi bagaimana jika pilihan yang lebih baik wujud? Masukkan polar, yang agak NE

Peranan Penganalisis Perniagaan ITPeranan Penganalisis Perniagaan ITApr 16, 2025 am 10:19 AM

Pengenalan Membayangkan firma IT yang dinamik di ambang melancarkan perisian inovatif. Walaupun keseronokan adalah tinggi, cabaran utama muncul: merapatkan jurang antara pemaju teknikal dan pihak berkepentingan perniagaan. Di sinilah penganalisis perniagaan IT

Program Faktorial di PythonProgram Faktorial di PythonApr 16, 2025 am 10:13 AM

Pengenalan Bayangkan menyediakan hidangan dengan profil rasa yang dikehendaki; Urutan langkah yang betul adalah penting. Begitu juga, dalam matematik dan pengaturcaraan, mengira faktorial nombor memerlukan urutan multiplicatio yang tepat

Alternatif aliran udara untuk orkestra data - analisis vidhyaAlternatif aliran udara untuk orkestra data - analisis vidhyaApr 16, 2025 am 09:55 AM

Pengenalan Aliran udara Apache adalah komponen penting dalam orkestra data dan dikenali untuk keupayaannya untuk mengendalikan aliran kerja yang rumit dan mengautomasikan saluran paip data. Banyak organisasi telah memilihnya kerana fleksibiliti dan s

Bagaimana anda boleh mendaftar untuk sidang kemuncak nvidia ai 2024?Bagaimana anda boleh mendaftar untuk sidang kemuncak nvidia ai 2024?Apr 16, 2025 am 09:49 AM

Sidang Kemuncak Nvidia AI 2024: Menyelam dalam Revolusi AI India Berikutan Sidang Kemuncak Datahack 2024, India bersiap untuk Sidang Kemuncak NVIDIA AI 2024, yang dijadualkan pada 23 Oktober ke-25 di Pusat Konvensyen Jio World di Mumbai. Prom acara penting ini

Apa itu SQLite?Apa itu SQLite?Apr 16, 2025 am 09:48 AM

Pengenalan Bayangkan enjin pangkalan data yang cepat dan mudah -tidak diperlukan konfigurasi -yang disatukan terus ke dalam aplikasi anda dan menawarkan sokongan SQL yang mantap tanpa pelayan. Itu sqlite, digunakan secara meluas dalam aplikasi dan pelayar web untuk kemudahan u

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),