聊天機器人正在消化互聯網，而互聯網希望拿到回報-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

聊天機器人正在消化互聯網，而互聯網希望拿到回報

王林

May 16, 2023 pm 04:31 PM

人工智慧語言模型

聊天機器人正在消化互聯網，而互聯網希望拿到回報

人工智慧公司正在利用無數人在網路上創作的內容，但沒有徵得他們的同意，也沒有給予任何報酬。如今，越來越多的科技和媒體公司開始要求支付費用，希望從聊天機器人的熱潮中分一杯羹。

以下是翻譯內容：

如果你曾在部落格上發表文章、在Reddit上發布過帖子，或在開放網路上分享過任何內容，那麼你就有可能為最新一代人工智慧的誕生做出了貢獻。

Google的Bard、OpenAI的ChatGPT、微軟的新版必應以及其他新創公司提供的類似工具，都整合了人工智慧語言模型。但如果沒有網路上免費取得的大量文本，這些聰明的機器人作家將無法問世。

如今，網頁內容再次成為爭奪的焦點。這種情況自早期搜尋引擎之爭以來就沒有出現過。科技巨頭試圖將這個不可取代的、富含全新價值的資訊來源劃分為自己的領地。

原本不知情的科技和媒體公司正在意識到，這些數據對於培養新一代基於語言的人工智慧至關重要。 Reddit是OpenAI寶貴的培訓資源之一，但最近前者宣布會向人工智慧公司收取資料存取的費用。 OpenAI拒絕就此發表評論。

最近，推特也開始對資料存取服務收費，這項變更影響了推特業務的許多方面，包括人工智慧公司對資料的使用。代表出版商的新聞媒體聯盟本月在一篇論文中宣布，當公司利用其成員製作的作品對人工智慧進行培訓時，它們應該支付許可費。

程式設計師問答網站Stack Overflow的執行長普拉尚思·錢德拉塞卡(Prashanth Chandrasekar)表示：「對我們來說，真正重要的是資訊的歸屬。」對於大型人工智慧公司造訪網站上的用戶創作內容，這家公司計劃開始收取費用，「Stack Overflow社群在過去15年中花了那麼多精力回答問題，我們真的想確保努力得到回報。」

以前曾出現許多人工智慧服務，如OpenAI的Dall-E 2，它們可以透過學習來產生圖像，但卻被指控大規模竊取智慧財產權。創建這些系統的公司目前正捲入針對這些指控的訴訟。而人工智慧生成的文本之爭可能會更大，不僅涉及補償和信用問題，還涉及隱私問題。

但華盛頓大學計算語言學家艾米麗·本德爾（Emily M. Bender）認為，根據現行法律，人工智慧機構不必對其行為負責。

這場爭端的起因在於人工智慧聊天機器人的開發方式。這些機器人的核心演算法被稱為“大型語言模型演算法”，需要透過吸收和處理大量現有的語言文字數據，以模仿人類說話的內容和方式。這類數據與我們在網路上所習慣的服務不同，例如Facebook母公司Meta Platforms等用於導向廣告的行為和個人資訊。

這些數據是由人類用戶使用各種服務所創造的，例如Reddit用戶發布的數億條貼文。只有在網路上，你才能找到足夠大的人工生成詞庫。如果沒有它，今天所有基於聊天方式的人工智慧和相關技術都不會成功。

非營利組織艾倫人工智慧研究所的研究科學家傑西·道奇(Jesse Dodge)在2021年發表的一篇論文中發現，維基百科和無數來自大大小小媒體機構、受版權保護的新聞文章，都存在於最常用的網路爬蟲資料庫中。 Google和Facebook都使用這個資料集來訓練大型語言模型，OpenAI也使用了類似的資料庫。

OpenAI不再公開其資料來源，但根據該公司2020年發表的一篇論文，其大型語言模型使用從Reddit抓取的貼文來過濾和改進用於訓練其人工智慧的資料。

Reddit的發言人 Tim Rathschmidt表示，目前還不確定向存取其資料的公司收取費用會帶來多少收入，但相信他們所擁有的資料可以幫助改進當今最先進的大型語言模型。

報道稱，出版業高層一直在調查：他們的內容在多大程度上被用來培訓ChatGPT和其他人工智慧工具？他們認為應該如何獲得補償？以及他們可以用哪些法律來捍衛自己的權利？不過，該組織的總法律顧問丹妮爾·科菲(Danielle Coffey)表示，到目前為止，還沒有與任何大型人工智慧聊天引擎的所有者（如Google、OpenAI、微軟等）達成任何協議，讓他們為抓取自新聞媒體聯盟成員的部分訓練資料付費。

推特沒有回覆置評請求。微軟拒絕置評。谷歌的發言人表示：「長期以來，我們一直在幫助創作者和出版商將其內容貨幣化，並加強與受眾的關係。按照我們的人工智慧原則，我們將繼續以負責任的、合乎道德的方式進行創新。」發言人還說，“現在仍處於早期階段”，對於如何構建有利於開放網路的人工智慧，谷歌正在徵求有關意見。

法律與道德泥潭

在某些情況下，複製開放網路上可用的資料（也被稱為抓取）是合法的，儘管公司仍在就如何以及在何時被允許這麼做的細節上爭論不休。

大多數公司和組織願意將他們的資料放在網路上，是因為他們希望這些資料被搜尋引擎發現並編制索引，這樣便於人們找到這些內容。然而，複製這些數據來訓練人工智慧，以取代尋找原始來源的需要，這是完全不同的。

計算語言學家本德爾表示，那些從網路上收集資訊來培訓人工智慧的科技公司的運作原則是：「我們可以接受它，因此它是我們的」。將文本（包括書籍、雜誌文章、個人部落格上的隨筆、專利、科學論文以及維基百科內容）轉化為聊天機器人的答案會去除材料的來源連結。這也會讓用戶更難核實機器人告訴他們的內容。對於經常說謊的系統來說，這是一個大問題。

這些大規模資訊抓取也會竊取我們的個人資訊。 Common Crawl是一個非營利組織，十多年來一直在抓取開放網路上的大量內容，並將其資料庫免費提供給研究人員。 Common Crawl的資料庫也被用作希望培訓人工智慧的公司的起點，包括Google、Meta、OpenAI和其他公司。

塞巴斯蒂安·內格爾（Sebastian Nagel）是Common Crawl的資料科學家和工程師，他表示，你幾年前寫的一篇部落格文章，雖然後來被刪除，但可能仍然存在於OpenAI使用的訓練資料中，該公司使用多年前的網路內容來訓練其人工智慧。

本德爾表示，與Google和微軟擁有的搜尋索引不同，從訓練有素的人工智慧中刪除個人資訊需要對整個模型進行重新培訓。道奇也稱，由於重新訓練一個大型語言模型的成本可能非常高，即使用戶能夠證明個人資料被用來訓練人工智慧，公司也不太可能這樣做。由於所需的巨大運算能力，這類模型的訓練成本高達數千萬美元。

但道奇補充說，在大多數情況下，也很難讓接受過包括個人資訊資料集訓練的人工智慧反芻這些資訊。 OpenAI表示，它已經調整了基於聊天的系統，以拒絕提供個人資訊的請求。歐盟和美國政府正在考慮監管這類人工智慧的新法律法規。

問責制和利潤分享

有些人工智慧的支持者認為，人工智慧應該獲得他們的工程師可以獲得的所有數據，因為這是人類學習的方式。從邏輯上講，為什麼機器不應該這樣做呢？

本德爾表示，拋開人工智慧目前和人類還不一樣這一點，上述觀點存在一個問題，即根據現行法律，人工智慧不能為自己的行為負責。抄襲他人作品的人，或試圖將錯誤訊息重新包裝為真相的人，可能會面臨嚴重後果，但機器和它的創造者則不承擔同樣的責任。

無數人寫的那些個人隨筆，以及在默默無聞的論壇和已經消失的社交網絡上發布的帖子，還有其他各種各樣的東西，真的能讓現今的聊天機器人變得寫作能力一樣好嗎？這些內容的創造者能從中獲得的唯一好處，也許只是他們在使用語言方面為培養聊天機器人做出了一些貢獻。

以上是聊天機器人正在消化互聯網，而互聯網希望拿到回報的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

2023年机器学习的十大概念和技术Apr 04, 2023 pm 12:30 PM

机器学习是一个不断发展的学科，一直在创造新的想法和技术。本文罗列了2023年机器学习的十大概念和技术。本文罗列了2023年机器学习的十大概念和技术。2023年机器学习的十大概念和技术是一个教计算机从数据中学习的过程，无需明确的编程。机器学习是一个不断发展的学科，一直在创造新的想法和技术。为了保持领先，数据科学家应该关注其中一些网站，以跟上最新的发展。这将有助于了解机器学习中的技术如何在实践中使用，并为自己的业务或工作领域中的可能应用提供想法。2023年机器学习的十大概念和技术：1. 深度神经网

人工智能自动获取知识和技能，实现自我完善的过程是什么Aug 24, 2022 am 11:57 AM

实现自我完善的过程是“机器学习”。机器学习是人工智能核心，是使计算机具有智能的根本途径；它使计算机能模拟人的学习行为，自动地通过学习来获取知识和技能，不断改善性能，实现自我完善。机器学习主要研究三方面问题：1、学习机理，人类获取知识、技能和抽象概念的天赋能力；2、学习方法，对生物学习机理进行简化的基础上，用计算的方法进行再现；3、学习系统，能够在一定程度上实现机器学习的系统。

得益于OpenAI技术，微软必应的搜索流量超过谷歌Mar 31, 2023 pm 10:38 PM

截至3月20日的数据显示，自微软2月7日推出其人工智能版本以来，必应搜索引擎的页面访问量增加了15.8%，而Alphabet旗下的谷歌搜索引擎则下降了近1%。 3月23日消息，外媒报道称，分析公司Similarweb的数据显示，在整合了OpenAI的技术后，微软旗下的必应在页面访问量方面实现了更多的增长。截至3月20日的数据显示，自微软2月7日推出其人工智能版本以来，必应搜索引擎的页面访问量增加了15.8%，而Alphabet旗下的谷歌搜索引擎则下降了近1%。这些数据是微软在与谷歌争夺生

超参数优化比较之网格搜索、随机搜索和贝叶斯优化Apr 04, 2023 pm 12:05 PM

本文将详细介绍用来提高机器学习效果的最常见的超参数优化方法。译者 | 朱先忠审校 | 孙淑娟简介通常，在尝试改进机器学习模型时，人们首先想到的解决方案是添加更多的训练数据。额外的数据通常是有帮助（在某些情况下除外）的，但生成高质量的数据可能非常昂贵。通过使用现有数据获得最佳模型性能，超参数优化可以节省我们的时间和资源。顾名思义，超参数优化是为机器学习模型确定最佳超参数组合以满足优化函数（即，给定研究中的数据集，最大化模型的性能）的过程。换句话说，每个模型都会提供多个有关选项的调整“按钮

荣耀的人工智能助手叫什么名字Sep 06, 2022 pm 03:31 PM

荣耀的人工智能助手叫“YOYO”，也即悠悠；YOYO除了能够实现语音操控等基本功能之外，还拥有智慧视觉、智慧识屏、情景智能、智慧搜索等功能，可以在系统设置页面中的智慧助手里进行相关的设置。

人工智能在教育领域的应用主要有哪些Dec 14, 2020 pm 05:08 PM

人工智能在教育领域的应用主要有个性化学习、虚拟导师、教育机器人和场景式教育。人工智能在教育领域的应用目前还处于早期探索阶段，但是潜力却是巨大的。

30行Python代码就可以调用ChatGPT API总结论文的主要内容Apr 04, 2023 pm 12:05 PM

阅读论文可以说是我们的日常工作之一，论文的数量太多，我们如何快速阅读归纳呢？自从ChatGPT出现以后，有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单，我们只用30行python代码就可以在本地搭建一个自己的应用。阅读论文可以说是我们的日常工作之一，论文的数量太多，我们如何快速阅读归纳呢？自从ChatGPT出现以后，有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单，我们只用30行python代码就可以在本地搭建一个自己的应用。使用 Python 和 C

人工智能在生活中的应用有哪些Jul 20, 2022 pm 04:47 PM

人工智能在生活中的应用有：1、虚拟个人助理，使用者可通过声控、文字输入的方式，来完成一些日常生活的小事；2、语音评测，利用云计算技术，将自动口语评测服务放在云端，并开放API接口供客户远程使用；3、无人汽车，主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶的目标；4、天气预测，通过手机GPRS系统，定位到用户所处的位置，在利用算法，对覆盖全国的雷达图进行数据分析并预测。

See all articles