盤點20多個強大且免費的資料來源，任何人都能以此來建構AI-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

盤點20多個強大且免費的資料來源，任何人都能以此來建構AI

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 05, 2023 pm 02:29 PM

資料來源機器學習

當我們談論現今商業和社會中的人工智慧時，實際上我們指的是機器學習。機器學習是一種應用，透過使用演算法（一組指令）變得越來越擅長執行某項特定任務，因為它接觸了越來越多與這項任務相關的資料。

這些任務可以是任何任務，從回答問題、創建文字或圖像（如ChatGPT或Dall-E等應用所能做的）到識別圖像（電腦視覺）或把自動駕駛汽車從A地導航到B地。

企業想要訓練自己的機器學習演算法以自動化完成日常任務，都需要資料來源來支援這些任務。

盤點20多個強大且免費的資料來源，任何人都能以此來建構AI

有哪些類型的資料？

企業資料通常分為兩類－內部資料和外部資料。

內部數據是企業組織自己從營運過程中收集的數據，這通常包括財務數據、客戶回饋數據、人力資源數據、營運數據、和其他更多來源的數據。某個組織在監控其自身營運過程中收集的數據被稱為專有數據，這種數據很有價值，因為它提供了有關特定業務的資訊。
外部資料是來自組織外部來源的數據，通常是從如下所列的第三方資料來源收集而來。如果資料可供任何人免費使用，則稱為開放資料。

除此之外，資料還可以分為結構化、非結構化或半結構化資料。

結構化資料是可以很好地、整齊地放入表格中的資訊－例如，顯示企業銷售的產品、時間、地點、價格的銷售資料就是內部結構化資料。或者，企業會選擇分析歷史市場數據和經濟指標來預測他們面向市場的未來趨勢（結構化的外部數據）。
非結構化資料則是其他一切，例如圖片、影片、文字和社群媒體內容，當然也可以包含有價值的洞察，但更難於分析。不過，AI已被證明對於從非結構化資料中提取意義特別有用。例如，影像辨識演算法可以透過分析店內閉路電視影像（內部非結構化資料）來告訴企業有關客戶行為的有用信息，還可以透過分析社群媒體上發布的與業務相關的影像（非結構化外部資料）來找到有價值的洞察。

所幸的是，資料無所不在。政府、研究機構、私人公司、非政府組織都免費提供資料用於研究甚至商業目的。因此，這裡羅列了一些2023年可用的免費線上資料最佳來源。

資料搜尋引擎和儲存庫

Google Dataset Search——這實際上是Google編目的資料集的搜尋引擎；使用這個搜尋引擎可以找到你可能需要的幾乎所有內容的數據。
AWS Open Data Search－另一個資料集搜尋引擎，由亞馬遜的AWS提供。
Microsoft Research Open Data－由Microsoft收集的免費、開放的資料集，主要以科學為重點。
UCI Machine Learning Repository－由加州大學歐文分校策劃和維護的600多個開放資料集的儲存庫，可用於訓練機器學習演算法。
Kaggle Datasets——線上資料科學平台Kaggle還提供了精選的資料集目錄，涵蓋從大學排名到Google搜尋趨勢、零售銷售、線上電影評論和犯罪統計數據的所有內容。
Reddit R/Datasets——由線上社群網站Reddit的使用者提交的龐大資料集，涵蓋了數百個主題。

政府和政府間組織的資料集

Data.Gov—美國政府提供的開放資料門戶，託管了政府機構發布的一百萬個數據集中的近四分之一數據。
Data.Census.Gov－如果你專門尋找美國的人口統計數據，這是一個很好的起點！
Data.EU－歐盟的開放資料門戶，包含了來自歐盟組織的資料和成員國政府的資料。
Data.gov.uk——英國政府機構發布的開放資料集。
World Health Organization Data－與全球健康與福祉相關的資料集。
World Bank Open Data－與經濟發展、國際金融市場、社會指標和環境問題相關的資料集。

圖像資料

Google Open Images——數以百萬計的圖像以各種方式分類和標記，用於訓練許多不同類型的電腦視覺演算法。
ImageNet Open Dataset－另一個由標記影像組成的資料集，可免費用於非商業機器學習應用。
COCO Dataset－Common Objects in Context (COCO)資料集中包含了超過200000張影像，這些影像被選用於訓練物件偵測和字幕演算法。

聲音資料

Mozilla Common Voice－一個開放的錄音資料集，可用於訓練任何涉及語音的AI應用。
Audioset－另一個由Google策劃的資料集，這個資料集專注於聲音，包含數十萬個10秒樣本，這些樣本被分解為樂器、車輛和人聲等類別。
Million Song Dataset——來自一百萬個當代流行音樂曲目的樣本和元數據。

文字資料

Wikidata－多種不同格式的維基百科文章的資料庫下載。
Common Crawl——一個從萬維網上抓取的開放資料儲存庫，最知名的用途就是對ChatGPT和其他聊天機器人的GPU大型語言模型進行訓練。

其他和雜項資料集

Amazon Reviews－包含約3,500萬條亞馬遜產品評論的資料庫，包括產品資訊和評級。
Waymo Open Dataset－Alphabet自動駕駛子公司Waymo公開了透過自動駕駛車輛收集的大量數據，包括來自攝影機和LiDAR感測器數據。
Apolloscape Dataset－更多的自動駕駛數據，是由百度開源Apollo平台提供的。

以上是盤點20多個強大且免費的資料來源，任何人都能以此來建構AI的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例