Rumah >Peranti teknologi >AI >Kerja baharu Musk! Keluaran mengejutkan model berbilang modal Grok-1.5V: penyepaduan sempurna dunia digital dan fizikal
Model multi-modal generasi pertama Musk Grok-1.5V akhirnya di sini!
Grok 1.5V, mendakwa boleh menghubungkan dunia digital dan dunia fizikal.
Selain fungsi teks, ia juga boleh mengendalikan pelbagai maklumat visual seperti dokumen, ikon, tangkapan skrin dan foto.
Tidak lama lagi, Grok 1.5V akan tersedia kepada semua penguji awal dan semua pengguna Grok.
Jim Fan, saintis kanan di NVIDIA, menemui "sorotan terbesar" Grok-1.5V: Pada pandangannya, perkara paling menarik tentang Grok-1.5V ialah potensinya untuk menyelesaikan kes-kes kelebihan pemanduan autonomi .
Dengan menggunakan "rantai pemikiran", ia boleh membantu kereta menyelesaikan senario yang rumit, menaakul dengan peraturan dan kontrafaktual, dan menerangkan keputusannya Grok-1.5V boleh meningkatkan persepsi kepada tahap piksel, sekali gus menggalakkan operasi pemetaan sebagai Pixel->Action.
Oleh itu, Tesla FSD V13 berkemungkinan memahami token bahasa!
Kelebihan Tesla ialah ia mempunyai barisan pengurusan data yang sangat matang, jadi tidak sukar untuk melabelkan sejumlah besar kes tepi dengan kesan tafsiran manusia yang berkualiti tinggi. Dalam penaakulan FSD berbilang modal, penalaan halus prestasi Grok mungkin jauh lebih baik daripada GPT-4V dan Gemini.
Anda mungkin berkata, bukankah LINGO-1 Wayve mempunyai idea yang serupa sebelum ini? Tetapi jangan lupa, apa yang Tesla sedang berputar adalah roda tenaga data yang tiada tandingan, jauh lebih besar daripada sebelumnya.
Musk juga muncul di kawasan mesej pada masa yang tepat, menjelaskan lagi -
Terdapat dua sumber data yang boleh dikembangkan tanpa had, data sintetik dan video dunia sebenar. Terdapat persoalan tentang keaslian dalam yang pertama, tetapi tidak dalam yang kedua.
Beberapa netizen berkata, kawan baik, ini seperti jalan yang paling sesuai untuk AGI! Model multimodal dengan penaakulan linguistik eksplisit untuk membuat kesimpulan model dunia secara konsisten.
Di laman web rasmi xAI, Grok-1.5V diperkenalkan seperti ini.
Ia boleh bersaing dengan model multi-modal teratas seperti GPT-4V, Claude 3 Sonnet, Claude 3 Opus, dll.
Sama ada penaakulan pelbagai disiplin, atau pemahaman dokumen, rajah saintifik, jadual, tangkapan skrin dan foto, dll., Grok-1.5V boleh bersaing dengan mereka.
Apa yang amat mengejutkan ialah kebolehannya yang luar biasa untuk memahami dunia fizikal.
Dalam ujian penanda aras RealWorldQA, tanpa gesaan rantaian pemikiran dan tetapan sampel sifar, Grok telah dinilai dengan set data berikut Dapat dilihat bahawa Grok berprestasi lebih baik daripada model serupa.
7 contoh wakil berikut menggambarkan prestasi baik Grok 1.5V dalam senario yang berbeza.
Rajah di bawah menunjukkan carta alir permainan meneka mudah.
Pengguna:
Bolehkah anda menterjemahkannya ke dalam kod Python?
Grok:
Sudah tentu! Carta alir ini menggambarkan permainan meneka mudah di mana komputer menjana nombor rawak dan pengguna perlu meneka apa itu. Berikut ialah kod Python yang mewakili logik dalam carta alir:
import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()
Kod ini akan menjalankan permainan meneka yang diterangkan dalam carta alir. Pengguna digesa memasukkan nombor yang diteka sehingga pengguna meneka nombor yang betul.
Mengikut senarai kandungan nutrisi makanan tersebut, Grok boleh tahu bahawa makanan tersebut adalah 3 keping setiap hidangan dan mengandungi 60 kalori daripada pengiraan ini makanan Jumlah kalori ialah 100.
Pengguna:
Berapa banyak kalori dalam 5 tablet?
Grok:
Jika satu hidangan mengandungi 3 keping dan jumlah kalori adalah 60 kalori, maka 5 keping mempunyai lebih kurang 100 kalori.
Pertama, tentukan kalori setiap keping: 60 kalori ÷ 3 keping = 20 kalori/keping.
Seterusnya, darabkan kalori setiap keping dengan bilangan keping: 20 kalori x 5 keping = 100 kalori.
Grok boleh bercerita pendek sebelum tidur berdasarkan kandungan lukisan.
Contohnya, coretan berikut:
Pengguna:
Ini yang anak saya lukiskan berdasarkan cerita sebelum tidur?
Grok:
Dahulu kala, di negeri yang penuh dengan pengembaraan dan keajaiban, hiduplah seorang budak kecil yang berani bernama Timmy. Dia tinggal di kabin yang hangat bersama keluarganya dan tidak lebih suka meneroka dunia di sekelilingnya.
Pada hari yang cerah, Timmy memutuskan untuk meneroka hutan berhampiran. Dia membungkus makanan ringan kegemarannya, kompas dan buku nota yang dipercayainya untuk merakam semua perkara menakjubkan yang akan dilihatnya.
Selepas masuk jauh ke dalam hutan, Timmy menemui sungai ajaib yang berkilauan di bawah sinar matahari. Pemandangan sungai yang menawan membuatkan dia membuat keputusan untuk membuat bot kertas kecil dan meletakkannya di atas air sebagai ucapan khas kepada roh hutan.
Timmy melipat bot kertas dengan berhati-hati dan melukis muka tersenyum di atasnya, menyatakan cinta dan restunya kepada bunian hutan. Kemudian dia meletakkan perlahan-lahan bot kertas itu di dalam sungai dan melihatnya hanyut bersama air.
Ketika matahari terbenam, Timmy tahu sudah tiba masanya untuk pulang. Dia teringat kembali zamannya di hutan, mengetahui bahawa kenangan indah ini akan kekal bersamanya selama-lamanya.
Setibanya di rumah, Timmy memberitahu keluarganya tentang pengembaraannya. Mereka sekeluarga sangat gembira selepas mendengarnya dan percaya bahawa dia akan mengalami lebih banyak pengembaraan yang menarik pada masa hadapan.
Jadi, dengan hati yang penuh cinta dan impian, Timmy perlahan-lahan tertidur, tidak sabar-sabar untuk menerokai pengembaraan baharu dalam dunia khayalannya.
Meme berikut menunjukkan syarikat permulaan di sebelah kiri dan sebuah syarikat besar di sebelah kanan.
Editor tidak memahaminya pada pandangan pertama. Selepas membaca penjelasan Grok, saya tiba-tiba tersedar.
Pengguna:
Saya kurang faham gambar ini, tolong jelaskan.
Grok:
这幅图幽默地展示了初创企业和大公司在工作方式上的差异。
在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。
而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。
这幅图的幽默之处在于夸大了两种组织形态的不同。
初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。
Grok可以将表格内容转换成CSV格式。
用户:
请将这个表转换为CSV格式。
Grok:
图像中的表格可以转换成CSV格式,如下所示:
medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September
请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。
地板上的木材腐烂了怎么办?
照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。
用户:
我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?
Grok:
这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。
为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。
如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。
编码问题,Grok-1.5V也是不在话下。
用户:
你能写出解决这个问题的Python代码吗?
Grok:
def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left
Membangunkan pembantu AI dunia sebenar yang berguna yang meningkatkan pemahaman model tentang dunia fizikal adalah penting.
Untuk mencapai matlamat ini, pasukan penyelidik turut melancarkan penanda aras baharu - RealWorldQA.
Tanda aras ini boleh digunakan untuk menilai keupayaan model berbilang modal untuk memahami ruang dunia sebenar asas.
Walaupun banyak contoh dalam penanda aras semasa agak mudah difahami manusia, ia masih mencabar untuk model canggih.
Keluaran awal RealWorldQA mengandungi lebih 700 imej, setiap satu dengan soalan dan jawapan yang mudah untuk disahkan.
Sebagai contoh, jika kita bertanya: Objek manakah yang lebih besar, pemotong pizza atau gunting dalam gambar?
Jawapan yang diberikan oleh Grok ialah: saiznya lebih kurang sama.
Di manakah saya boleh pergi dari lorong sekarang? A. Belok kiri B. Jalan lurus C. Belok kiri dan jalan lurus D. Belok kanan
Grok akan pilih A.
Jika dilihat dari kamera di hadapan kereta, adakah cukup ruang untuk mengelilingi kereta kelabu di hadapan?
Jawapan Grok ialah: ya.
Daripada gambar ini, dinosaur menghadap ke arah mana?
Grok menjawab: Timur.
Set data ini termasuk imej awanama yang diambil daripada kenderaan sebagai tambahan kepada imej dunia sebenar yang lain.
Pasukan penyelidik telah menjadikan set data ini sumber terbuka dan berharap dapat terus mengembangkannya apabila model berbilang modal bertambah baik.
Akhirnya, laman web rasmi xAI menyimpulkan bahawa dengan meningkatkan pemahaman pelbagai mod dan keupayaan penjanaan, mereka akan secara beransur-ansur menghampiri pembinaan AGI yang bermanfaat yang boleh memahami alam semesta.
Dalam beberapa bulan akan datang, dianggarkan kita juga akan melihat peningkatan besar dalam kedua-dua keupayaan ini dalam imej, audio, video dan mod berbilang modal yang lain.
Atas ialah kandungan terperinci Kerja baharu Musk! Keluaran mengejutkan model berbilang modal Grok-1.5V: penyepaduan sempurna dunia digital dan fizikal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!