在人工智慧、資料視覺化等領域,如何利用資訊顯示來輔助人類做出更好的決策,是重要的研究目標。然而,關於決策問題的定義以及如何評估人類決策表現的實驗設計,目前並沒有明確的共識。最近的一篇論文提出了一個基於統計決策理論和資訊經濟學的決策問題定義,並提供了一個評估人類決策表現損失的框架。本文將解讀這篇論文,探討其在推動決策研究的意義。
三位美國專家在《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》論文中提供了資訊介面,以幫助決策是以人為中心的人工智慧(HCAI)、視覺化和相關領域的研究取得共同目標。這些專家認為,視覺化研究人員強調輔助決策是資料視覺化的重要目標。同時,在以人為中心的人工智慧中,人類決策行為的實證研究也被廣泛認為是「評估人工智慧技術在輔助決策方面的有效性,並對人們如何與人工智慧互動以做出決策形成基本理解”的必要內容。這些研究的目標是為了提高決策的準確性和效率,確保人工智慧技術與人類決策者之間的良好互動,並為人們提供更好的決策支援。
他們認為,透過研究人類決策的資訊顯示,可以明確定義一組最小的理論承諾,從而為任務確定規範行為提供可能。幸運的是,現有的統計決策理論和期望效用理論可以應對這一挑戰,並為研究決策提供了嚴格推導和廣泛適用的框架。此外,資訊經濟學的發展也為決策問題的資訊結構形式化提供了解決方案,這可能涉及如何設計模型預測的可視化和解釋選擇。
他們綜合了統計決策理論和資訊經濟學中定義明確的決策問題的一個廣泛適用的定義,並從數據驅動的界面激發了這種方法在HCAI和相關決策研究中的價值。他們的第一個貢獻是建立和激勵決策問題必須定義的最小組成部分集,以識別最佳決策,從而識別人類決策中的偏差。使用理性貝葉斯代理的概念,他們展示了只有當研究參與者在理論上能夠從他們提供的資訊中識別出規範決策時,才能考慮到績效損失。他們發現在46項現有研究的樣本中,有35項研究透過預測顯示得出了關於人類決策缺陷的結論,但其中只有6項(17%)是明確的研究任務,因為參與者得到了足夠的信息,至少在原則上可以確定最佳決策。他們用例子來說明這些結論的知識論風險,並為實驗者提供建議,以提高其研究結果的可解釋性。
論文作者背景
這篇論文的題目是《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》,由Jessica Hullman, Alex Kale , Jason Hartline三位來自美國西北大學的電腦科學家合作撰寫,於2024年1月25日在arXiv上發表(論文地址:https://arxiv.org/abs/2401.15106)。這三位作者都是人工智慧、資料視覺化、人機互動等領域的知名學者,他們的研究成果發表在頂尖的學術會議和期刊上,如ACM CHI, ACM CSCW, IEEE VIS, ACM EC等。他們的研究興趣主要集中在如何利用人工智慧和資料視覺化來幫助人類理解和決策複雜的不確定性問題,如風險評估、預測、推薦等。
論文主要貢獻
給了一個一般決策問題的定義,包括行動空間、狀態空間、評分規則、先驗信念、資料產生模型和訊號策略等要素,並解釋如何利用這些要素來確定最佳行動和期望效用。
建議一個評估人類決策表現損失的框架,包括先驗損失、接收損失、更新損失和優化損失等四種潛在的損失來源,並探討如何透過實驗設計和結果來估計和分析這些損失。
近年來,研究人員對人工智慧輔助決策進行了編碼和評估,結果顯示只有一小部分研究(約17%)提供了足夠的信息,使參與者能夠確定規範的決策。相反,大多數研究(約83%)存在決策問題的不明確和不完整,這導致了對人類決策偏差和缺陷的結論不可靠。
理論基礎與方法
這篇論文的理論基礎主要來自於統計決策理論與資訊經濟學。統計決策理論研究在不確定條件下做出最佳選擇的方法,關注決策者的偏好、信念和行動之間的關係,以及如何利用數據和資訊更新信念和選擇行動。資訊經濟學研究資訊對經濟行為和結果的影響,關注資訊的生產、傳播和消費機制,以及資訊不對稱、不完全和不可靠對市場和社會的影響。這兩門學科為論文提供了重要的理論基礎,幫助我們深入理解決策和資訊在經濟中的作用和影響。
這篇論文的方法主要基於貝葉斯理論和期望效用理論。貝葉斯理論是一種機率理論,用於描述和推理不確定性,重點是根據先驗信念和觀察資料計算後驗信念,即在給定資料條件下某個假設或事件發生的機率。期望效用理論是一種評估風險決策的理論,關注如何根據效用函數和機率分佈計算期望效用,即在不同狀態下產生的效用的加權平均值。這種方法結合了貝葉斯推理和效用評估,能夠提供決策者在面對不確定性時的最佳決策。
決策問題的定義
他們定義了一個決策問題和對應的最佳行為標準,以確定相對於該標準的效能損失。他們的定義旨在對人類行為進行受控評估,也就是規範性決策研究。這種評估性研究要求能夠確定研究參與者被詢問的任何狀態的基本事實。行為數據(可以由人類或模擬產生)是在受控條件下收集的,目的是了解資訊提供引起的行為。這類研究經常用於描述某些情況下人類表現的品質(例如,人們在戰略環境中根據顯示器做出決策的程度),根據人類表現對不同的輔助元素進行排名(例如,不同的視覺化或人工智慧解釋策略),或測試關於人類如何做出決策或什麼將幫助他們做得更好的假設(例如,認知強迫功能將改善人工智慧輔助決策)。
最優行動和期望效用的計算
給給定如上定義的決策問題,他們透過假設代理人在結果不確定的情況下具有一致的偏好並在行動之間做出最佳決定意味著什麼,來計算規範(「最優」)決策。因此他們可以將實驗參與者的表現解釋為試圖達到這一標準,並確定表現中的錯誤(損失)來源。
為此,他們將首先假設代理的偏好可以透過評分規則來概括. 假設他將選擇最大化其預期效用(得分)的動作:
#圖片
描述了主體的信念分佈,即主體相信世界狀態的機率分佈。我們可以將最優行動定義為使代理人的預期效用最大化的行動:
#圖片
具體來說,為了計算決策任務的最優決策,他們首先定義代理人在從π: Pr(θ) 或p(θ) 正如我們上面所描述的。每當訊號策略未顯示時π(θ |u) 直接通過訊號,但確實通知θ, 我們假設,在看到訊號後,代理人根據他們對資料產生模型的了解,使用貝葉斯規則將他們對訊號和狀態的先前信念更新為後驗信念π:
圖片
#u是一個歸一化因子。注意方程式3中的定義意味著要計算q(θ)代理人知道。
圖片
給定這些後驗信念,我們使用方程式2來確定完全理性主體為了最大化其預期效用而選擇的行動S.
作者的計算框架為人類和人工智慧的決策協作提供了一個有用的工具,可以幫助分析和改善人類的決策行為和效果,以及提高人類的決策品質和滿意度。他們的計算框架也為決策理論和方法的擴展和深入提供了一個啟發和創新的空間,可以探索更多的決策因素和機制,以及更多的決策模式和策略。
人類決策表現損失的評估
使用上述框架的主要動機本質上是認識論的,它們涉及我們對實驗結果的了解。為了將人類決策實驗中對決策問題的反應解釋為錯誤決策過程的證據,實驗必須向參與者提供足夠的信息,原則上確定用於判斷其行為的規範決策。換言之,實驗是否為參與者提供了足夠的訊息,使他們對決策問題的理解與其規範解釋一致?
他們發現神經網路模型可以重現並超越現有的心理學研究,例如前景理論,基於環境的模型,混合模型等。神經網路模型可以根據不同的假設,自動地學習不同的風險認知函數,以及它們之間的權重。作者也發現,人類的風險認知函數是非線性的,而場景相關的,以及機率和收益之間存在著相互依賴的關係。這些發現說明了人類的風險決策是極為複雜的,不能歸因於簡單的假設。
作者使用了一個簡單的指標,來衡量人類決策表現損失的程度,即人類的選擇與最優選擇之間的差異的平均值。作者發現,人類的決策表現損失在不同的場景中有很大的變化,從0.01到0.5不等。作者也發現,人類的決策效能損失與神經網路模型的預測誤差呈正相關,即神經網路模型越難預測人類的選擇,人類的決策效能損失就越大。這說明了神經網路模型可以有效地捕捉人類的風險認知的特徵,以及人類的風險決策的不理性和不一致性。
作者的評估框架為人類和人工智慧的決策協作提供了一個有用的工具,可以幫助分析和改善人類的決策行為和效果,以及提高人類的決策品質和滿意度。作者的評估架構也為決策理論和方法的擴展和深入提供了一個啟發和創新的空間,可以探索更多的決策因素和機制,以及更多的決策模式和策略。
實證分析與結果
這篇論文的實證分析主要是對近年來人工智慧輔助決策的研究進行了編碼和評估,以檢驗這些研究是否符合決策理論的框架,是否對人類決策的缺陷或損失做出了合理的結論。作者從Lai et al.的文獻綜述中隨機抽取了46篇研究,這些研究都是在2018年至2021年期間發表在ACM或ACL的會議上的,涉及分類或回歸問題的人工智能輔助決策的實驗。
作者根據以下三個面向對這些研究進行了編碼。
決策理論架構的適用性:是否存在一個可以確定的真實狀態,以及是否存在一個與狀態相關的利益或損失。
人類決策的評估:是否對人類決策的表現或品質做出了評價或判斷,例如指出了過度依賴或不足依賴人工智慧的現象,或者推測了人類決策的原因或影響因素。
決策問題的明確性:是否向參與者提供了足夠的資訊來識別規範的決策,包括行動空間、狀態空間、評分規則、先驗信念、資料生成模型和訊號策略等。
作者的編碼結果顯示,有11篇研究(24%)的任務沒有一個可以確定的真實狀態,例如主觀的音樂或電影推薦或情感識別等,這些研究不適用於決策理論框架。剩下的35篇研究(76%)都對人類決策的表現或品質做出了評價或判斷,但是只有6篇研究(17%)向參與者提供了足夠的資訊來識別規範的決策,而其他的29篇研究(83%)都存在決策問題的不明確和不完整,導致人類決策的偏差和缺陷的結論是不可靠的。作者也對這些研究的具體問題和改進方法進行了詳細的分析和討論,例如缺乏先驗信念的傳達、缺乏後驗信念的計算、缺乏評分規則的動機和比較等。作者認為,這些問題都源自於研究者對決策問題的定義和傳達的不足,以及對實驗世界和實際世界的關係的不清楚。作者建議研究者在設計實驗時,要充分考慮決策理論的框架,要明確地向參與者和讀者傳達決策問題的所有必要組成部分,以便對人類決策行為進行有效的評估和改進。
未來工作
這篇論文的限制主要來自於期望效用理論和規範方法的挑戰和批評。期望效用理論是一種基於理性和最優化的決策理論,它假設決策者有完全的資訊和運算能力,以及一致和穩定的偏好。然而這些假設在實際世界中往往不成立,人類的決策行為可能受到認知、情緒、社會、道德等因素的影響,導致偏離期望效用理論的預測。規範方法是一種基於價值和目標的決策方法,它假設決策者有一個明確的價值目標,以及一種評估不同行動對價值目標的影響的方法。然而,這些假設在實際世界中也往往不成立,人類的價值觀可能是多元的、動態的、模糊的,而且可能與其他人或社會的價值觀有衝突或協調。因此,這篇論文的框架和方法可能不適用於一些主觀、複雜、多目標的決策問題,也可能忽略了一些人類決策的內在價值和意義。
未來工作主要是在以下四個方面進行拓展和深入。
探索其他的決策理論和方法,例如行為經濟學、多屬性效用理論、多準則決策分析等,以便更好地描述和評估人類的實際決策行為和偏好。
研究不同的訊息顯示和互動方式,例如自然語言、圖形、聲音、觸覺等,以更好地傳達和解釋決策問題的各個組成部分,以及提高人類的資訊接收和處理能力。
嘗試不同的激勵和回饋機制,例如獎勵、懲罰、信譽、聲譽、社會影響等,以更好地激發和維持人類的決策動機和參與度,以及提高人類的決策學習和改進能力。
展開不同的人工智慧和人類的協作模式,例如輔助、建議、代理、協商、協調等,以更好地平衡和利用人工智慧和人類的優勢和劣勢,以及提高人工智慧和人類的信任和滿意度。
意義與價值
這篇論文為人工智慧、資料視覺化、人機互動等領域的研究者提供了一個清晰和有條理的決策問題的定義和評估的框架,以便更好地設計和分析人類和人工智慧的決策協作的實驗。
為人工智慧、資料視覺化、人機互動等領域的研究者提供了一個客觀和嚴謹的決策效能損失的評估和分析的方法,以便更好地識別和改善人類和人工智慧的決策協作的效果和品質。他們提供了一個批判和反思的決策問題的傳達和解釋的角度,以便更好地理解和溝通人類和人工智慧的決策協作的問題和挑戰。他們還提供了一個啟發和創新的決策問題的拓展和深入的方向,以便更好地探索和發現人類和人工智慧的決策協作的可能性和潛力。
總結和展望
在論文中提出了一個基於統計決策理論和資訊經濟學的決策問題的定義,以及一個評估人類決策表現損失的框架。他們的目的是為人工智慧、數據視覺化、人機互動等領域的研究者提供一個清晰和有條理的指導和參考,以便更好地設計和分析人類和人工智慧的決策協作的實驗。他們對近年來的相關研究進行了編碼和評估,發現只有很少一部分的研究向參與者提供了足夠的資訊來識別規範的決策,而大多數的研究都存在決策問題的不明確和不完整,導致對人類決策的偏差和缺陷的結論是不可靠的。我們建議研究者在設計實驗時,要充分考慮決策理論的框架,要明確地向參與者和讀者傳達決策問題的所有必要組成部分,以便對人類決策行為進行有效的評估和改進。
作者也意識到框架和方法的限制和未來需要進行的工作。他們的框架和方法是基於期望效用理論和規範方法,這些理論和方法也存在一些挑戰和批評,例如不符合人類的實際決策行為和偏好,以及忽略了人類決策的內在價值和意義。他們的框架和方法也可能不適用於一些主觀、複雜、多目標的決策問題,也可能無法涵蓋人類和人工智慧的決策協作的所有可能性和潛力。因此我們的未來工作主要是在以下幾個方面進行拓展和深入:探索其他的決策理論和方法,研究不同的資訊顯示和互動方式,研究不同的激勵和回饋機制,研究不同的人工智慧和人類的協作模式。 (END)
參考資料:https://arxiv.org/abs/2401.15106
以上是人類和AI的決策協作:決策問題的表達、解釋和評價的詳細內容。更多資訊請關注PHP中文網其他相關文章!

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

Dreamweaver CS6
視覺化網頁開發工具