首頁  >  文章  >  科技週邊  >  盤點20多個強大且免費的資料來源,任何人都能以此來建構AI

盤點20多個強大且免費的資料來源,任何人都能以此來建構AI

WBOY
WBOY轉載
2023-06-05 14:29:59857瀏覽

當我們談論現今商業和社會中的人工智慧時,實際上我們指的是機器學習。機器學習是一種應用,透過使用演算法(一組指令)變得越來越擅長執行某項特定任務,因為它接觸了越來越多與這項任務相關的資料。

這些任務可以是任何任務,從回答問題、創建文字或圖像(如ChatGPT或Dall-E等應用所能做的)到識別圖像(電腦視覺)或把自動駕駛汽車從A地導航到B地。

企業想要訓練自己的機器學習演算法以自動化完成日常任務,都需要資料來源來支援這些任務。

盤點20多個強大且免費的資料來源,任何人都能以此來建構AI

有哪些類型的資料?

企業資料通常分為兩類-內部資料和外部資料。

  • 內部數據是企業組織自己從營運過程中收集的數據,這通常包括財務數據、客戶回饋數據、人力資源數據、營運數據、和其他更多來源的數據。某個組織在監控其自身營運過程中收集的數據被稱為專有數據,這種數據很有價值,因為它提供了有關特定業務的資訊。
  • 外部資料是來自組織外部來源的數據,通常是從如下所列的第三方資料來源收集而來。如果資料可供任何人免費使用,則稱為開放資料。

除此之外,資料還可以分為結構化、非結構化或半結構化資料。

  • 結構化資料是可以很好地、整齊地放入表格中的資訊-例如,顯示企業銷售的產品、時間、地點、價格的銷售資料就是內部結構化資料。或者,企業會選擇分析歷史市場數據和經濟指標來預測他們面向市場的未來趨勢(結構化的外部數據)。
  • 非結構化資料則是其他一切,例如圖片、影片、文字和社群媒體內容,當然也可以包含有價值的洞察,但更難於分析。不過,AI已被證明對於從非結構化資料中提取意義特別有用。例如,影像辨識演算法可以透過分析店內閉路電視影像(內部非結構化資料)來告訴企業有關客戶行為的有用信息,還可以透過分析社群媒體上發布的與業務相關的影像(非結構化外部資料)來找到有價值的洞察。

所幸的是,資料無所不在。政府、研究機構、私人公司、非政府組織都免費提供資料用於研究甚至商業目的。因此,這裡羅列了一些2023年可用的免費線上資料最佳來源。

資料搜尋引擎和儲存庫

  • Google Dataset Search——這實際上是Google編目的資料集的搜尋引擎;使用這個搜尋引擎可以找到你可能需要的幾乎所有內容的數據。
  • AWS Open Data Search-另一個資料集搜尋引擎,由亞馬遜的AWS提供。
  • Microsoft Research Open Data-由Microsoft收集的免費、開放的資料集,主要以科學為重點。
  • UCI Machine Learning Repository-由加州大學歐文分校策劃和維護的600多個開放資料集的儲存庫,可用於訓練機器學習演算法。
  • Kaggle Datasets——線上資料科學平台Kaggle還提供了精選的資料集目錄,涵蓋從大學排名到Google搜尋趨勢、零售銷售、線上電影評論和犯罪統計數據的所有內容。
  • Reddit R/Datasets——由線上社群網站Reddit的使用者提交的龐大資料集,涵蓋了數百個主題。

政府和政府間組織的資料集

  • Data.Gov—美國政府提供的開放資料門戶,託管了政府機構發布的一百萬個數據集中的近四分之一數據。
  • Data.Census.Gov-如果你專門尋找美國的人口統計數據,這是一個很好的起點!
  • Data.EU-歐盟的開放資料門戶,包含了來自歐盟組織的資料和成員國政府的資料。
  • Data.gov.uk——英國政府機構發布的開放資料集。
  • World Health Organization Data-與全球健康與福祉相關的資料集。
  • World Bank Open Data-與經濟發展、國際金融市場、社會指標和環境問題相關的資料集。

圖像資料

  • Google Open Images——數以百萬計的圖像以各種方式分類和標記,用於訓練許多不同類型的電腦視覺演算法。
  • ImageNet Open Dataset-另一個由標記影像組成的資料集,可免費用於非商業機器學習應用。
  • COCO Dataset-Common Objects in Context (COCO)資​​料集中包含了超過200000張影像,這些影像被選用於訓練物件偵測和字幕演算法。

聲音資料

  • Mozilla Common Voice-一個開放的錄音資料集,可用於訓練任何涉及語音的AI應用。
  • Audioset-另一個由Google策劃的資料集,這個資料集專注於聲音,包含數十萬個10秒樣本,這些樣本被分解為樂器、車輛和人聲等類別。
  • Million Song Dataset——來自一百萬個當代流行音樂曲目的樣本和元數據。

文字資料

  • Wikidata-多種不同格式的維基百科文章的資料庫下載。
  • Common Crawl——一個從萬維網上抓取的開放資料儲存庫,最知名的用途就是對ChatGPT和其他聊天機器人的GPU大型語言模型進行訓練。

其他和雜項資料集

  • Amazon Reviews-包含約3,500萬條亞馬遜產品評論的資料庫,包括產品資訊和評級。
  • Waymo Open Dataset-Alphabet自動駕駛子公司Waymo公開了透過自動駕駛車輛收集的大量數據,包括來自攝影機和LiDAR感測器數據。
  • Apolloscape Dataset-更多的自動駕駛數據,是由百度開源Apollo平台提供的。

以上是盤點20多個強大且免費的資料來源,任何人都能以此來建構AI的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除