Rumah  >  Artikel  >  Peranti teknologi  >  Tafsiran TaskMatrix.AI

Tafsiran TaskMatrix.AI

王林
王林ke hadapan
2023-04-28 15:37:061514semak imbas

ChatGPT menunjukkan dialog yang hebat, pembelajaran konteks dan keupayaan penjanaan kod pada pelbagai tugas domain terbuka, dan pengetahuan akal yang diperolehinya juga boleh menjana ringkasan penyelesaian peringkat tinggi untuk tugasan khusus domain. Walau bagaimanapun, sebagai tambahan kepada keupayaan pembelajaran, pemahaman dan penjanaan yang lebih berkuasa, apakah masalah lain yang perlu diselesaikan oleh ChatGPT?

Microsoft baru-baru ini mengeluarkan TaskMatrix.AI, yang mungkin merupakan satu lagi arah dalam ekosistem kecerdasan buatan, menghubungkan model asas dengan berjuta-juta API untuk menyelesaikan tugasan, gabungan Toolformer dan chatGPT, dan mungkin juga Satu lagi masa depan untuk LLM.

1. Masalah

ChatGPT atau GPT-4 masih menghadapi kesukaran dalam beberapa tugas profesional kerana mereka kekurangan data khusus domain yang mencukupi semasa pra-latihan atau mereka melakukan tugas yang memerlukan pelaksanaan yang tepat Ralat sering berlaku dalam pengiraan rangkaian saraf. Sebaliknya, terdapat banyak model dan sistem sedia ada (berasaskan simbolik atau berasaskan rangkaian saraf) yang boleh mencapai beberapa tugas khusus domain dengan baik. Walau bagaimanapun, mereka tidak serasi dengan model asas kerana pelaksanaan atau mekanisme kerja yang berbeza.

Tambahan pula, kes penggunaan untuk AI adalah tidak berkesudahan, bukan sahaja membantu dalam dunia digital tetapi juga dalam dunia fizikal untuk membantu dengan pelbagai tugas, daripada pemprosesan foto hingga mengawal peranti rumah pintar, ia boleh melakukan agak banyak Di luar imaginasi.

Oleh itu, mekanisme diperlukan yang boleh memanfaatkan model asas untuk mencadangkan garis besar penyelesaian tugas, dan kemudian secara automatik memadankan beberapa subtugas dalam garis besar dengan model siap sedia dan API sistem dengan keupayaan khas untuk menyelesaikannya . TaskMatrix.AI adalah mekanisme sedemikian.

2. Gambaran Keseluruhan TaskMatrix.AI

TaskMatrix.AI menyediakan pelbagai tugas dengan menggabungkan model asas dengan model dan API sedia ada. Berikut ialah tugas yang TaskMatrix.AI boleh lakukan:

  • Kecerdasan buatan boleh memahami pelbagai jenis input (seperti teks, imej, video, audio dan kod), melaksanakan tugas digital dengan menggunakan model asas sebagai sistem teras dan tugas fizikal, dan kemudian menjana kod untuk memanggil API untuk menyelesaikan tugas.
  • TaskMatrix.AI mempunyai platform API yang berfungsi sebagai repositori untuk tugasan dalam pelbagai domain. Semua API pada platform mempunyai format dokumentasi yang konsisten, menjadikannya mudah untuk menggunakan model asas dan memudahkan pembangun menambah API baharu.
  • TaskMatrix.AI mempunyai keupayaan pembelajaran sepanjang hayat yang kukuh kerana ia boleh mengembangkan kemahirannya untuk mengendalikan tugas baharu dengan menambahkan API baharu dengan fungsi khusus pada platform API.
  • Respons TaskMatrix.AI boleh ditafsir dengan lebih baik kerana kedua-dua logik penyelesaian tugas (iaitu kod operasi) dan hasil API boleh difahami.

3. TaskMatrix.AI de Architecture

Seni bina keseluruhan TaskMatrix.AI dan empat komponen utamanya:

  • Model Asas dialog pelbagai mod (MCFM ): Ia bertanggungjawab untuk berkomunikasi dengan pengguna, memahami matlamat dan konteks (multimodal) mereka, dan menjana kod boleh laku berdasarkan API untuk mencapai tugas tertentu.
  • Platform API: Menyediakan skema dokumentasi API bersatu untuk menyimpan berjuta-juta API dengan fungsi berbeza dan membenarkan pembangun atau pemilik API mendaftar, mengemas kini dan memadamkan API mereka.
  • Pemilih API: Syorkan API yang berkaitan berdasarkan pemahaman MCFM tentang arahan pengguna.
  • Pelaksana API: Laksanakan kod operasi yang dijana dengan memanggil API yang berkaitan dan kembalikan hasil perantaraan dan pelaksanaan akhir.

Tafsiran TaskMatrix.AI

4 subsistem ini berfungsi bersama untuk membolehkan TaskMatrix.AI memahami matlamat pengguna dan melaksanakan kod boleh laku berasaskan API untuk tugasan tertentu. Multimodal Conversation Foundation Model (MCFM) berfungsi sebagai antara muka utama untuk komunikasi pengguna dan boleh memahami konteks multimodal. Platform API menyediakan skema dokumentasi API bersatu dan tempat untuk menyimpan berjuta-juta API. Pemilih API menggunakan pemahaman MCFM tentang matlamat pengguna untuk mengesyorkan API yang berkaitan. Akhir sekali, pelaksana API melaksanakan kod tindakan yang dijana oleh API yang berkaitan dan mengembalikan hasilnya. Selain itu, pasukan itu juga menggunakan pembelajaran pengukuhan dengan teknologi maklum balas manusia (RLHF) untuk melatih model ganjaran yang boleh mengoptimumkan matriks tugas (taskMatrix). Kaedah ini boleh membantu pemilih MCFM dan API mencari strategi optimum dan meningkatkan prestasi tugas yang kompleks.

3.1 Multimodal Conversation Base Model (MCFM)

MCFM mempunyai empat input: parameter model asas, platform API, arahan pengguna dan konteks sesi. Menggunakan input ini, model menjana kod operasi untuk melengkapkan arahan pengguna. Tambahan pula, Model Rangka Kerja Perbualan Multimodal (MCFM) yang ideal harus mempunyai empat ciri utama berikut:

  • Dapatkan input berbilang modal dan hasilkan kod boleh laku berdasarkan API khusus tugas.
  • Ekstrak tugas khusus daripada arahan pengguna dan gariskan penyelesaian.
  • Ketahui cara menggunakan API daripada dokumentasi dan padankannya dengan tugas tertentu berdasarkan akal sehat dan sejarah penggunaan API.
  • Mengandungi mekanisme pengesahan kod yang jelas untuk mengesahkan kebolehpercayaan dan kebolehpercayaan.

ChatGPT dan GPT-4 ialah dua contoh model dengan keupayaan ini yang diperlukan untuk MCFM. Walau bagaimanapun, GPT-4 lebih sesuai kerana ia menyokong input berbilang modal.

3.2 Platform API

Platform API mempunyai dua fungsi utama: menyimpan API dan mengurus pembangun atau pemilik API. Platform API mempunyai templat dokumen API bersatu, termasuk lima aspek setiap dokumen API:

  • Nama API: Menyediakan gambaran keseluruhan API dan berfungsi sebagai titik masuk untuk pelaku operasi.
  • Senarai parameter: termasuk parameter input dan nilai pulangan Setiap parameter mempunyai nama, perihalan, jenis data dan nilai lalai.
  • Perihalan API: Mengandungi maklumat tentang kefungsian API, cara ia berfungsi, input dan output serta kemungkinan ralat atau pengecualian.
  • Contoh aplikasi (pilihan): Tunjukkan cara menggunakan API.
  • Panduan komposisi (pilihan): Menyediakan panduan tentang cara menggabungkan berbilang API untuk melengkapkan arahan pengguna yang kompleks.
  • Platform API mempunyai dua fungsi utama: penyimpanan API dan pengurusan API oleh pembangun atau pemilik.

Contoh Perihalan API: Buka fail

<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>

Pemilih API 3.3

Pemilih API direka bentuk untuk mengenal pasti dan memilih daripada platform API yang paling sesuai API keperluan tugas. Ia boleh mengurangkan kebanyakan API yang mungkin ada pada platform API dengan mendapatkan semula API yang berkaitan secara semantik. Pemilih API boleh menggunakan strategi modul untuk mencari API berkaitan dengan cepat.

Strategi modul merujuk kepada kaedah menyusun API ke dalam pakej atau modul tertentu berdasarkan domainnya. Setiap modul sepadan dengan kawasan tertentu, seperti model visual, matematik, perisian khusus atau peralatan fizikal. Dengan menggunakan strategi ini, pemilih API boleh mencari API yang berkaitan dengan pantas yang sesuai dengan keperluan misi dan garis penyelesaian seperti yang difahami oleh MCFM. Pendekatan ini membantu memudahkan proses pemilihan API dan memudahkan untuk mendapatkan semula API yang berkaitan secara semantik daripada platform API.

3.4 Pelaksana Tindakan

Pelaksana tindakan direka bentuk untuk melaksanakan kod tindakan. AI menggunakan pelaksana tindakan untuk menjalankan pelbagai API, daripada permintaan HTTP mudah kepada algoritma kompleks atau model AI yang memerlukan berbilang parameter input.

Pelaksana tindakan juga memerlukan mekanisme pengesahan untuk meningkatkan ketepatan dan kebolehpercayaan, dan untuk mengesahkan sama ada hasil kod yang dijana memenuhi tugas yang ditentukan oleh manusia.

3.5 Pembelajaran Pengukuhan Berpusatkan Manusia (RLHF)

TaskMatrix.AI akan memanfaatkan RLHF untuk meningkatkan pemilih MCFM dan API untuk memberikan prestasi yang lebih baik dalam tugas yang kompleks.

RLHF akan dikhususkan untuk mengoptimumkan pemilih API, menggunakan model ganjaran terlatih berdasarkan maklum balas API:

  • Maklum balas kepada pembangun API
  • Pembangun API akan menerima maklum balas sama ada API mereka menjalankan tugas itu.

Ini akan membolehkan dokumentasi API dibuat dengan cara yang paling optimum untuk menggunakan API tertentu.

4. Gunakan kes TaskMatrix

TaskMatrix apakah tugasan yang boleh diselesaikan oleh AI?

TaskMatrix digabungkan dengan pembangunan berterusan dalam model asas, perkhidmatan awan, robotik dan Internet of Things berpotensi untuk mencipta dunia masa depan dengan peningkatan produktiviti dan kreativiti.

4.1 Tugasan Visualisasi

Berdasarkan ciri berbilang modal MCFM, TaskMatrix.AI boleh melaksanakan tugas visualisasi dan boleh mengambil bahasa dan imej sebagai input. Beberapa tugas visual yang boleh dilakukannya, imej di bawah menunjukkan cara TaskMatrix.AI dibina di atas VisualChatGPT dan mampu mengendalikan tugas VQA dengan lebih baik.

Tafsiran TaskMatrix.AI

Penyuntingan imej, di mana objek dalam imej boleh dipadamkan atau diganti, juga melalui TaskMatrix.AI. Menggunakan teknik pemprosesan imej atau algoritma komputer Image-to-Sketch/Depth/Hed/Line, imej boleh ditukar kepada lakaran, kedalaman, pengesanan tepi bersarang keseluruhan atau garisan. Sketch/Depth/Hed/Line-to-Image adalah bertentangan dengan yang di atas, ia akan menghasilkan imej berdasarkan pilihan yang diberikan.

Imej di bawah menunjukkan contoh cara TaskMatrix.AI ditakrifkan dan dilaksanakan pada garis penyelesaian menggunakan tiga panggilan API (Soal Jawab Imej, Kapsyen Imej dan Gantikan Objek dalam Imej).

Tafsiran TaskMatrix.AI

4.2 Penjanaan kandungan panjang berbilang modal

Satu lagi kes penggunaan untuk TaskMatrix.AI ialah penciptaan kandungan berbilang modal (imej dan teks) yang besar untuk mengalih keluar had aksara model lain.

Dalam contoh di bawah, kita dapat melihat cara TaskMatrix.AI mengambil arahan peringkat tinggi daripada pengguna dan menjana respons yang munasabah.

Tafsiran TaskMatrix.AI

4.3 Automasi Pejabat

TaskMatrix.AI boleh mengurangkan beban kerja pejabat dengan mudah dengan memahami arahan pengguna yang diterima melalui suara dan mengautomasikan tugas. Selain itu, ia membolehkan penggunaan perisian yang kompleks tanpa latihan yang meluas, membolehkan pekerja memberi tumpuan kepada tugas yang lebih mendesak.

Contoh di bawah menunjukkan perbualan antara TaskMatrix.AI dan seseorang menggunakan API yang berbeza semasa membuat slaid PowerPoint.

Tafsiran TaskMatrix.AI

4.4 Penggunaan perkhidmatan awan

TaskMatrix.AI boleh berfungsi seperti automasi rumah pintar, dapat berkomunikasi dengan semua peranti di rumah dan bertindak sebagai pautan di antara mereka titik sambungan tengah. Imej di bawah menunjukkan perbualan antara seseorang dan TaskMatrix.AI, yang menggunakan perisian dan perkakasan robot dalaman untuk menyelesaikan tugas harian.

Tafsiran TaskMatrix.AI

Selain itu, TaskMatrix.AI boleh digunakan dalam banyak senario lain, satu-satunya keperluan ialah ia boleh memanfaatkan API seperti mengakses Metaverse atau Web3.

5. Cabaran TaskMatrix.AI

TaskMatrix.AI masih mempunyai beberapa kekurangan dan batasan yang perlu diselesaikan dan ditangani, contohnya:

  • pasangan perlu diwujudkan Model asas yang mampu mengendalikan pelbagai tugas dan pelbagai input, belajar daripada maklum balas manusia, dan menggunakan penaakulan akal untuk menyelesaikan tugasan pada kualiti tertinggi. Menentukan set modaliti minimum yang diperlukan untuk TaskMatrix.AI dan melatihnya tetap mencabar.
  • Mencipta dan menyelenggara platform yang mengehos berjuta-juta API memerlukan penyelesaian beberapa cabaran, penjanaan dokumentasi API, jaminan kualiti API dan pengesyoran penciptaan API Berdasarkan ini, platform API harus memberikan panduan lanjut kepada pembangun API, Cipta baharu API untuk menyelesaikan tugasan ini.
  • Memanfaatkan berjuta-juta API untuk melengkapkan arahan pengguna membawa cabaran baharu melangkaui penjanaan teks percuma, dan adalah penting untuk mengesyorkan API yang berkaitan kepada MCFM untuk menyelesaikan tugasan tertentu. Untuk tugas yang rumit, TaskMatrix.AI mungkin tidak dapat menghasilkan penyelesaian dengan segera. Sebaliknya, MCFM harus berinteraksi dengan pengguna dan mencuba pelbagai penyelesaian yang mungkin untuk mencari penyelesaian yang paling sesuai.
  • Keselamatan dan privasi boleh menjadi isu, yang memerlukan pengesahan bahawa model itu melengkapkan arahan pengguna dan tidak melakukan apa-apa di luar kehendak pengguna. Pemindahan data harus selamat dan membenarkan akses data yang dibenarkan apabila menyepadukan dengan pelbagai API daripada domain berbeza yang memerlukan akses kepada data sensitif.
  • TaskMatrix.AI memerlukan strategi pemperibadian untuk membantu pembangun individu membina antara muka AI diperibadikan mereka sendiri dan untuk membantu pengguna mempunyai pembantu peribadi mereka sendiri. Mengurangkan kos penskalaan dan menyelaraskan dengan bilangan kecil contoh pengguna adalah cabaran.

6 Ringkasan

Mengimbas kembali Undang-undang Moore, mungkin, "bilangan AI berganda setiap 18 bulan" akan menjadi undang-undang baharu.

TaskMatrix.AI menyepadukan model asas dengan berjuta-juta model sedia ada dan API sistem, menghasilkan "kecerdasan buatan super" yang mampu melaksanakan pelbagai tugas digital dan fizikal. Sebagai platform AI, ia membolehkan manusia menggunakan model besar dan API untuk melaksanakan sejumlah besar tugas yang pelbagai. Ia boleh mengendalikan setiap tugas biasa (contohnya, membuat slaid PPT atau menjalankan robot pembersihan untuk membersihkan rumah mengikut jadual), menjadikan kita lebih produktif dan kreatif.

[Rujukan]

TaskMatrix.AI: Menyelesaikan Tugas dengan Menghubungkan Model Asas dengan Jutaan API, https://arxiv.org/pdf/2303.16434.pdf


Atas ialah kandungan terperinci Tafsiran TaskMatrix.AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam