Rumah >Peranti teknologi >AI >Microsoft menang! Berbilion latihan pasangan imej teks, Florence berbilang modal memulakan percubaan percuma, tersedia di Azure
Pada November 2021, Microsoft mengeluarkan model asas penglihatan pelbagai mod Florence (Florence), yang menyapu lebih daripada 40 tugas penanda aras dan mudah digunakan untuk pengelasan, pengesanan sasaran, VQA, bercakap melalui gambar, pengambilan video dan pengecaman tindakan Tunggu. untuk pelbagai tugas.
Selepas setahun setengah, Florence telah melancarkan penggunaan komersialnya secara rasmi!
Baru-baru ini, Ketua Pegawai Teknologi Kecerdasan Buatan Global Microsoft Huang Xuedong secara rasmi mengumumkan versi pratonton awam model asas Florence Microsoft.
Model Florence telah dilatih dengan berbilion pasangan imej teks dan telah disepadukan ke dalam perkhidmatan penglihatan kognitif Azure Ia telah mencapai keperluan "persekitaran pengeluaran" dari segi "harga" dan "prestasi ". Pada masa ini dalam fasa percubaan percuma.
Perkhidmatan penglihatan yang dipertingkatkan membolehkan pembangun mencipta aplikasi penglihatan komputer yang canggih, sedia pasaran dan bertanggungjawab merentas pelbagai industri. Pelanggan boleh mendigitalkan, menganalisis dan menyambungkan data mereka dengan lancar ke dalam interaksi bahasa semula jadi untuk memperoleh maklumat yang lebih tepat daripada kandungan imej dan video, melindungi pengguna daripada kandungan berbahaya, meningkatkan keselamatan dan mempercepatkan tindak balas insiden.
Keupayaan sebenar Florence juga sangat berkuasa, dan pengguna boleh mengalaminya "di luar kotak" dalam Vision Studio.
URL Pengalaman: https://portal.vision.cognitive.azure.com/gallery/featured
Termasuk khusus:
Kapsyen Padat: Secara automatik memberikan penerangan yang kaya, cadangan reka bentuk, teks alternatif yang boleh diakses, pengoptimuman enjin carian, pengurusan foto pintar dan banyak lagi untuk menyokong kandungan digital.
Pendapatan Imej: Gunakan pertanyaan bahasa semula jadi untuk mengukur persamaan antara imej dan teks dengan lancar untuk memperbaik pengesyoran carian dan iklan.
Penyingkiran Latar Belakang: Orang dan objek boleh diasingkan dengan mudah daripada latar belakang asal dan digantikan dengan pemandangan latar belakang yang lain, sekali gus mengubah rupa dan rasa imej.
Penyesuaian Model: Kurangkan kos dan masa untuk menghantar model tersuai untuk memadankan keperluan perniagaan yang unik dengan lebih ketepatan, walaupun dengan sejumlah kecil imej yang tersedia.
Ringkasan Video: Cari dan berinteraksi dengan kandungan video, pemikiran dan penulisan dengan cara intuitif yang sama seperti yang dilakukan oleh manusia. Boleh membantu mencari kandungan yang berkaitan dan tidak memerlukan metadata tambahan.
Tiffany Ong, pengurus produk produk pengguna Reddit, berkata melalui teknologi Vision Microsoft, ia boleh memudahkan pengguna menemui dan memahami kandungan di Reddit.
Penerangan imej yang baru dicipta menjadikan Reddit lebih mudah untuk diakses, menggunakan perihalan imej untuk membantu memperbaik hasil carian untuk artikel, memberi pengguna Reddit lebih banyak peluang untuk meneroka imej di tapak, mengambil bahagian dalam perbualan dan akhirnya membina hubungan dan rasa masyarakat.
Florence mampu menjana sehingga 10,000 teg bagi setiap imej, memberikan Reddit lebih kawalan ke atas bilangan objek dalam imej dan membantu menjana penerangan imej yang lebih baik.
Microsoft 365
Selain pusat data Microsoft, Microsoft juga menambah baik aplikasi Microsoft 365 (termasuk Teams, PowerPoint, Outlook, Word, Designer, OneDrive) perkhidmatan Vision keupayaan.
Dengan bantuan keupayaan pembahagian imej, Teams memacu inovasi dalam ruang digital dan membawa pengalaman mesyuarat maya ke tahap yang lebih tinggi.
PowerPoint, Outlook dan Word meningkatkan kebolehaksesan dengan penerangan imej yang menggantikan teks secara automatik.
Microsoft Designer dan OneDrive sedang memudahkan kebolehtemuan dan pengeditan imej dengan perihalan imej yang dipertingkat, carian imej dan penjanaan latar belakang.
Pusat data Microsoft memanfaatkan Perkhidmatan Visi untuk meningkatkan keselamatan dan kebolehpercayaan infrastruktur.
Jennison Asuncon, ketua kejuruteraan kebolehcapaian LinkedIn, berkata bahawa lebih daripada 40% siaran di LinkedIn mengandungi sekurang-kurangnya satu imej, yang amat berguna untuk orang buta atau orang berpendapatan rendah Bagi pengguna yang rabun, perkhidmatan penglihatan memberikan semua pengguna akses yang sama kepada membaca dan membolehkan mereka mengambil bahagian dalam perbualan dalam talian.
Dengan Perkhidmatan Kognisi Visual Azure, LinkedIn boleh menyediakan penerangan imej automatik untuk mengedit dan menyokong teks alternatif, yang merupakan pengalaman baharu.
Bukan sahaja saya teruja tentang perkara ini, rakan sekerja saya baru sahaja berkongsi foto mereka menghadiri acara itu, dan Ketua Pegawai Eksekutif LinkedIn Ryan Roslansky berada dalam foto itu.
Berinovasi secara bertanggungjawab
Menyemak Prinsip Kecerdasan Buatan Bertanggungjawab, anda boleh mempelajari cara Microsoft komited untuk membangunkan sistem kecerdasan buatan untuk meningkatkan kebolehcapaian dunia .
Microsoft komited untuk membantu organisasi memanfaatkan sepenuhnya kecerdasan buatan dan melabur banyak dalam projek yang menyediakan teknologi, sumber dan kepakaran untuk memperkasakan mereka yang berusaha mewujudkan dunia yang lebih mampan dan lebih baik . Akses yang lebih selamat dan lebih mudah kepada dunia keupayaan manusia.
Banyak gergasi teknologi termasuk Microsoft dan Google secara mengejutkan konsisten dalam arah pembangunan kecerdasan buatan Mereka percaya bahawa "model pelbagai mod" adalah kunci untuk meningkatkan sistem kecerdasan buatan. Cara terbaik untuk mencapai keupayaan ialah model tunggal boleh memahami bahasa, imej, video dan audio, dsb. secara serentak dan boleh menyelesaikan tugasan yang tidak dapat diselesaikan oleh model mod tunggal, seperti menambah penerangan teks pada video.
Mengapa tidak menggabungkan beberapa model "modal tunggal" untuk mencapai tujuan yang sama, seperti menggunakan satu model untuk memahami imej dan model lain menggunakan Untuk memahami bahasa?
Sebab pertama ialah, dengan maklumat latar belakang yang disediakan oleh modaliti lain, model berbilang modal boleh berprestasi lebih baik daripada model mod tunggal pada tugas yang sama dalam beberapa situasi.
Sebagai contoh, pembantu AI yang memahami imej, data harga dan sejarah pembelian boleh memberikan pengesyoran produk diperibadikan yang lebih baik daripada AI yang "hanya memahami data harga".
Dan dari perspektif pengiraan, model berbilang modal selalunya lebih cekap, yang boleh meningkatkan kelajuan pemprosesan data dan mengurangkan kos bahagian belakang.
Tidak dinafikan bahawa semua syarikat perniagaan tidak sabar-sabar untuk mengurangkan kos dan meningkatkan kecekapan.
Florence boleh memahami imej, video dan bahasa dan hubungan antara modaliti ini, supaya ia boleh melakukan beberapa tugas yang tidak dapat diselesaikan dengan satu modaliti, seperti mengukur persamaan antara imej dan teks, membahagikan objek foto dan kemudian tampalkannya pada latar belakang yang lain.
Hampir semua latihan model AI menghadapi masalah hak cipta data John Montgomery, naib presiden korporat (CVP) Azure AI, tidak mendedahkan banyak maklumat semasa menjawab tentang "data latihan Florence". ialah sumber data yang "diperolehi secara bertanggungjawab", termasuk data daripada rakan kongsi sebagai tambahan, Montgomery berkata bahawa kandungan yang berpotensi bermasalah telah dialih keluar daripada data latihan, yang juga merupakan ciri biasa set data latihan awam.
Montgomery percaya bahawa apabila menggunakan model asas yang besar, perkara yang paling penting ialah memastikan kualiti set data latihan untuk mewujudkan asas bagi model penyesuaian bagi setiap penglihatan Microsoft menyasarkan Model yang ditala untuk setiap tugas visi diuji untuk kes-kes yang adil, bermusuhan dan mencabar, dan melaksanakan perkhidmatan penyederhanaan kandungan yang sama seperti Azure Open AI Service dan DALL-E.
Pada masa hadapan, pengguna boleh menggunakan Florence untuk melakukan lebih banyak lagi, seperti mengesan kecacatan dalam proses pembuatan dan membolehkan daftar keluar sendiri di kedai runcit.
Walau bagaimanapun, Montgomery menegaskan bahawa kes penggunaan ini sebenarnya tidak memerlukan model penglihatan pelbagai mod, tetapi beliau menegaskan bahawa pelbagai mod boleh menambah sesuatu yang berharga dalam proses itu.
Florence ialah model visual yang "difikirkan semula sepenuhnya" yang membuka dunia baharu kemungkinan yang tidak diketahui sebaik sahaja proses terjemahan mudah dan berkualiti tinggi dicapai antara imej dan teks.
Pelanggan boleh mengalami carian imej yang dipertingkatkan dengan ketara, melatih model imej dan penglihatan serta jenis model lain seperti bahasa dan pertuturan ke dalam jenis aplikasi yang sama sekali baharu dan dengan mudah meningkatkan kualiti model tersuai.
Atas ialah kandungan terperinci Microsoft menang! Berbilion latihan pasangan imej teks, Florence berbilang modal memulakan percubaan percuma, tersedia di Azure. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!