「大震驚」一位CTO：GPT-4V自動駕駛五連測-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

「大震驚」一位CTO：GPT-4V自動駕駛五連測

王林

Oct 16, 2023 am 11:29 AM

科技自動駕駛

本文經AI新媒體量子位元（公眾號ID:QbitAI）授權轉載，轉載請聯絡來源。

萬眾矚目之下，今天GPT4終於推送了vision相關的功能。

今天下午抓緊和小夥伴一起測試了一下GPT對於影像感知的能力，雖有預期，但是還是大大震驚了我們。

核心觀點：

我認為自動駕駛中和語意相關的問題應該大模型都已經解決得很好了，但是大模型的可信性和空間感知能力方面仍不盡人意。

解決一些所謂和效率相關的corner case應該是綽綽有餘，但是想完全依賴大模型去獨立完成駕駛保證安全性仍然十分遙遠。

Example1: 路上出現了一些未知障礙物

「大震驚」一位CTO：GPT-4V自動駕駛五連測

#△GPT4的描述

#準確的部分：偵測到了3輛卡車，前車車牌號碼基本上正確（有漢字就忽略吧），天氣和環境正確，在沒有提示的情況下準確識別到了前方的未知障礙物。

不準確的部分：第三輛卡車的位置左右不分，第二輛卡車頭頂的文字瞎猜了一個（因為分辨率不足？）。

這還不夠，我們繼續給一點提示，去問這個物體是什麼，是不是可以壓過去。

「大震驚」一位CTO：GPT-4V自動駕駛五連測

Impressive！類似的場景測試了多個，對於未知障礙物的表現可以說非常驚人了。

Example2: 路面積水的理解

「大震驚」一位CTO：GPT-4V自動駕駛五連測

#沒有提示能自動辨識到標示這個應該是基操了，我們繼續給一些hint。

「大震驚」一位CTO：GPT-4V自動駕駛五連測

又被震驚了。。。能自動講出來卡車背後的霧氣，也主動提到了水坑，但是再一次把方向說成了左側。。。感覺這裡可能需要一些prompt engineering能更好的讓GPT輸出位置和方向。

Example3：有車輛掉頭時直接撞上了護欄

「大震驚」一位CTO：GPT-4V自動駕駛五連測

#第一幀輸入進去，因為沒有時序訊息，只是將右側的卡車當作是停靠的了。於是再來一格：

「大震驚」一位CTO：GPT-4V自動駕駛五連測

已經可以自動講出，這輛撞破了護欄，懸停在公路邊緣，太棒了。。。但是反而看上去更容易的道路標誌出現了錯誤。。。只能說，這很大模型了，它永遠能震驚你也永遠不知道什麼時候會蠢哭你。。。再來一格：

「大震驚」一位CTO：GPT-4V自動駕駛五連測

這次，直接講到了路面上的碎片，再次讚嘆。。。只不過有一次把路上的箭頭說錯了。。。整體而言，這個場景中需要特別注意的資訊都有覆蓋，道路標誌這種問題，瑕不掩瑜吧。

Example4: 來個搞笑的

「大震驚」一位CTO：GPT-4V自動駕駛五連測

只能說非常到位了，相較之下之前看上去無比困難的「有個人衝著你揮了揮手」這樣的case就像小兒科一樣，語義上的corner case可解。

Example5 來一個名場面。。。配送車誤入新修路

「大震驚」一位CTO：GPT-4V自動駕駛五連測

開始比較保守，沒有直接猜測原因，給了多種猜測，這個也倒是符合alignment的目標。

使用CoT之後問題發現問題在於並不了解這輛車是個自動駕駛車輛，故透過prompt給出這個資訊能給出比較準確的資訊。

最後經過一堆prompt，能夠輸出新鋪設瀝青，不適合駕駛這樣的結論。最後結果來說還是OK，但是過程比較曲折，需要比較多的prompt engineering，要好好設計。

這個原因可能也是因為不是第一視角的圖片，只能透過第三視角去推測。所以這個例子並不十分精確。

總結

快速的一些嘗試已經完全證明了GPT4V的強大與泛化性能，適當的prompt應當可以完全發揮出GPT4V的實力。

解決語意上的corner case應該非常可期，但幻覺的問題會仍然困擾著一些和安全相關場景中的應用。

非常exciting，個人認為合理使用這樣的大模型可以大大加快L4甚至L5自動駕駛的發展，然而是否LLM一定是要直接開車？尤其是端到端開車，仍然是一個值得商榷的問題。

以上是「大震驚」一位CTO：GPT-4V自動駕駛五連測的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles