4月19日訊息,微軟、Google和OpenAI一直在利用Reddit論壇上的用戶聊天資料來開發新的人工智慧系統。現在,Reddit打算向這些公司收取使用費。
Reddit一直是網路上熱門話題的討論集中地,每天有大約5700萬人造訪這個網站討論各種話題,包括化妝技巧、電子遊戲到自動洗車機等等。
近年來,Reddit論壇上的聊天內容已成為Google、OpenAI和微軟等公司的免費訓練工具,用於開發人工智慧系統。現在,許多業內人士認為,這些人工智慧系統將成為科技業的下一個大事件。
因此,Reddit打算向開發人工智慧技術的公司收費。許多公司都透過應用程式介面(API)下載並處理論壇上的聊天內容。週二,Reddit表示計劃開始向使用API的公司收費。
Reddit創辦人兼執行長史蒂夫霍夫曼(Steve Huffman)在接受採訪時表示:「Reddit的資料庫確實很有價值,我們沒有必要免費提供這些價值給世界上最大的公司。」
Reddit此舉是社交網路首次明確向OpenAI等收取費用開放存取權,用於開發像ChatGPT這樣的人工智慧系統。 ChatGPT等新人工智慧系統有一天可能會成為大企業,但對Reddit等公司的幫助不大。相反,這些人工智慧系統還可以自動產生聊天內容,成為Reddit的競爭對手。
Reddit正在為今年可能上市做準備,該公司成立於2005年,目前主要依賴平台廣告和電商交易進行獲利。 Reddit方面表示,正在敲定API介面的收費細節,並將在未來幾週內公佈價格。
如今,大型語言模型已成為開發人工智慧新技術的重要組成部分,Reddit論壇上的使用者聊天內容也變成了有價值的商品。
Google人工智慧聊天機器人Bard的底層演算法之一就是用Reddit聊天資料訓練的。同時,OpenAI的ChatGPT也將Reddit的資料作為訓練大型語言模型的資訊之一。
除此之外,其他公司也開始意識到平台上所儲存的聊天內容和圖片的價值。圖片託管服務Shutterstock已經把圖像資料賣給OpenAI,幫助開發了能夠根據簡單文字提示就能產生圖像的人工智慧系統DALL-E。
目前,有數千家公司和大小開發者都在使用API追蹤推特平台上的數百萬個聊天內容。上個月,個人社群媒體平台推特所有者 Elon Musk表示,他正在改變使用推特API的現行方式,要為使用API收取幾萬到幾十萬不等的費用。不過馬斯克並沒有提到大型語言模型是促使他做出改變的原因。
為了不斷改進模型,人工智慧企業需要兩個重要因素:強大的運算能力和大量可用的數據。一些大型人工智慧開發企業通常擁有足夠的算力,但仍會在網路上尋找改進演算法所需的數據。其中包括維基百科、各種數位化書籍、學術文章和Reddit論壇上的聊天內容等資源。
Google、OpenAI和微軟等公司目前尚未對Reddit計畫收費的事宜作出回應。
很長一段時間以來,Reddit與Google和必應等搜尋引擎一直是相互依存的關係。它們會自動取得Reddit網頁信息,進行索引,然後將相關資訊顯示在搜尋結果頁面中。雖然這種自動抓取方式不見得受到所有網站的歡迎,但是Reddit卻能因此在搜尋結果中排名靠前。
而大型語言模型則完全不同,它需要盡可能多地獲取數據,這樣才能創建新的人工智慧系統。
Reddit認為,它的論壇數據特別有價值,因為它不斷更新。霍夫曼表示,這種新鮮度和相關性正是大型語言模型演算法產生最佳結果所需要的。
「Reddit比網路上任何其他地方都更適合聊天,」霍夫曼說。 「網站上有很多內容是你只會私下說的,或者壓根就不會說的東西。」
霍夫曼也強調,對於想要開發幫助人們使用Reddit的應用程式開發者來說,API仍然是免費的。例如開發者可以免費使用API等工具來開發機器人,自動追蹤使用者評論是否遵守了內容發布規則。出於學術研究或非商業目的來研究Reddit數據的人也能繼續免費存取這些數據。
Reddit也希望將更多機器學習融入論壇運營,例如,Reddit可以用機器學習來識別平台上人工智慧生成文字的使用情況,並為其添加標籤,告知用戶哪些評論是來自機器人。 Reddit也承諾改進供論壇版主使用的軟體工具,幫助他們監控論壇上的第三方機器人。
但對於人工智慧製造商來說,Reddit認為是時候付費了。
「透過抓取Reddit的資料來創造價值,卻不向我們的用戶返利,這是我們自己的問題,」霍夫曼說。 「現在是我們加強管理的好時機。」(辰辰)
以上是Reddit要向OpenAI等公司付費,以避免不當使用用戶聊天內容的詳細內容。更多資訊請關注PHP中文網其他相關文章!