Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Machen Sie eine Bestandsaufnahme von mehr als 20 leistungsstarken und kostenlosen Datenquellen, die jeder zum Aufbau von KI nutzen kann

Machen Sie eine Bestandsaufnahme von mehr als 20 leistungsstarken und kostenlosen Datenquellen, die jeder zum Aufbau von KI nutzen kann

WBOY
WBOYnach vorne
2023-06-05 14:29:59896Durchsuche

Wenn wir heute über künstliche Intelligenz in Wirtschaft und Gesellschaft sprechen, meinen wir eigentlich maschinelles Lernen. Maschinelles Lernen ist eine Anwendung, die einen Algorithmus (eine Reihe von Anweisungen) verwendet, um eine bestimmte Aufgabe immer besser auszuführen, da sie immer mehr für diese Aufgabe relevanten Daten ausgesetzt wird.

Diese Aufgaben können von der Beantwortung von Fragen über das Erstellen von Texten oder Bildern (wie Apps wie ChatGPT oder Dall-E dies können) bis hin zum Erkennen von Bildern (Computer Vision) oder dem Navigieren eines selbstfahrenden Autos von Punkt A nach Punkt B reichen.

Unternehmen, die ihre eigenen Algorithmen für maschinelles Lernen trainieren möchten, um tägliche Aufgaben zu automatisieren, benötigen Datenquellen zur Unterstützung dieser Aufgaben.

Machen Sie eine Bestandsaufnahme von mehr als 20 leistungsstarken und kostenlosen Datenquellen, die jeder zum Aufbau von KI nutzen kann

Welche Arten von Daten gibt es?

Unternehmensdaten werden normalerweise in zwei Kategorien unterteilt – interne Daten und externe Daten.

  • Interne Daten sind die Daten, die von der Unternehmensorganisation selbst aus dem Betriebsprozess erfasst werden. Dazu gehören in der Regel Finanzdaten, Kundenfeedbackdaten, Personaldaten, Betriebsdaten und andere Daten aus mehreren Quellen. Daten, die eine Organisation im Zuge der Überwachung ihrer eigenen Geschäftstätigkeit sammelt, werden als proprietäre Daten bezeichnet und sind wertvoll, weil sie Informationen über ein bestimmtes Unternehmen liefern.
  • Externe Daten sind Daten, die aus Quellen außerhalb der Organisation stammen und in der Regel von den unten aufgeführten Datenquellen Dritter erfasst werden. Sind die Daten für jedermann frei verfügbar, spricht man von offenen Daten.

Darüber hinaus können Daten auch in strukturierte, unstrukturierte oder halbstrukturierte Daten klassifiziert werden.

  • Strukturierte Daten sind Informationen, die gut und ordentlich in eine Tabelle passen – zum Beispiel Verkaufsdaten, die zeigen, welche Produkte ein Unternehmen wann, wo und zu welchem ​​Preis verkauft, sind intern strukturierte Daten. Alternativ können Unternehmen historische Marktdaten und Wirtschaftsindikatoren analysieren, um zukünftige Trends in ihren Märkten vorherzusagen (strukturierte externe Daten).
  • Unstrukturierte Daten sind alles andere, wie Bilder, Videos, Texte und Social-Media-Inhalte, die zwar wertvolle Erkenntnisse enthalten können, aber schwieriger zu analysieren sind. Allerdings hat sich KI als besonders nützlich erwiesen, um aus unstrukturierten Daten Bedeutung zu extrahieren. Beispielsweise können Bilderkennungsalgorithmen Unternehmen nützliche Informationen über das Kundenverhalten liefern, indem sie CCTV-Bilder im Geschäft (interne unstrukturierte Daten) analysieren und auch geschäftsbezogene Bilder analysieren, die in sozialen Medien gepostet werden (unstrukturierte externe Daten), um wertvolle Erkenntnisse zu gewinnen.

Zum Glück sind Daten überall. Regierungen, Forschungseinrichtungen, private Unternehmen und NGOs stellen Daten kostenlos für Forschungszwecke und sogar für kommerzielle Zwecke zur Verfügung. Hier sind einige der besten Quellen für kostenlose Online-Daten, die im Jahr 2023 verfügbar sind.

Datensuchmaschine und Repository

  • Google Dataset Search – Dies ist eigentlich eine Suchmaschine für die katalogisierten Datensätze von Google; verwenden Sie diese Suchmaschine, um die Daten zu finden, die Sie für fast alles benötigen .
  • AWS Open Data Search – Eine weitere Datensatzsuchmaschine, die von Amazons AWS bereitgestellt wird.
  • Microsoft Research Open Data – Ein kostenloser, offener Datensatz, der von Microsoft mit einem primären Fokus auf Wissenschaft gesammelt wurde.
  • UCI Machine Learning Repository – Ein Repository mit mehr als 600 offenen Datensätzen, die von der University of California, Irvine kuratiert und verwaltet werden und zum Trainieren von Algorithmen für maschinelles Lernen verwendet werden können.
  • Kaggle-Datensätze – Die Online-Data-Science-Plattform Kaggle bietet außerdem einen kuratierten Katalog mit Datensätzen, die alles von Universitätsrankings bis hin zu Google-Suchtrends, Einzelhandelsumsätzen, Online-Filmkritiken und Kriminalstatistiken abdecken.
  • Reddit R/Datensätze – Riesige Datensätze, die von Benutzern der Online-Community-Site Reddit eingereicht wurden und Hunderte von Themen abdecken.

Datensätze von Regierungs- und zwischenstaatlichen Organisationen

  • Data.Gov – ein offenes Datenportal der US-Regierung, das die von Regierungsbehörden veröffentlichten Daten hostet Fast eine Viertelmillion Datensätze.
  • Data.Census.Gov – Wenn Sie speziell nach demografischen Daten für die USA suchen, ist dies ein guter Ausgangspunkt!
  • Data.EU – das offene Datenportal der Europäischen Union, das Daten von EU-Organisationen und Daten von Regierungen der Mitgliedsstaaten enthält.
  • Data.gov.uk – ein offener Datensatz, der von britischen Regierungsbehörden veröffentlicht wird.
  • Daten der Weltgesundheitsorganisation – Eine Sammlung von Daten im Zusammenhang mit globaler Gesundheit und Wohlbefinden.
  • World Bank Open Data – eine Sammlung von Daten im Zusammenhang mit der wirtschaftlichen Entwicklung, internationalen Finanzmärkten, sozialen Indikatoren und Umweltthemen.

Bilddaten

  • Google Open Images – Millionen von Bildern auf verschiedene Weise klassifiziert und beschriftet, die zum Trainieren vieler verschiedener Arten von Computer-Vision-Algorithmen verwendet werden .
  • ImageNet Open Dataset – Ein weiterer Datensatz, der aus beschrifteten Bildern besteht und für die Verwendung in nichtkommerziellen Anwendungen des maschinellen Lernens kostenlos ist.
  • COCO-Datensatz – Der COCO-Datensatz (Common Objects in Context) enthält mehr als 200.000 Bilder, die zum Trainieren von Objekterkennungs- und Beschriftungsalgorithmen ausgewählt wurden.

Sprachdaten

  • Mozilla Common Voice – ein offener Aufzeichnungsdatensatz, der zum Trainieren jeder KI-Anwendung mit Sprache verwendet werden kann.
  • Audioset – Ein weiterer von Google kuratierter Datensatz, der sich auf Klang konzentriert und Hunderttausende 10-Sekunden-Samples enthält, die in Kategorien wie Instrumente, Fahrzeuge und Gesang unterteilt sind.
  • Million Song Dataset – Samples und Metadaten von einer Million zeitgenössischer Popmusiktitel.

Textdaten

  • Wikidata – Datenbank-Download von Wikipedia-Artikeln in vielen verschiedenen Formaten.
  • Common Crawl – Ein offenes Datenrepository aus dem World Wide Web, das vor allem für das Training großer GPU-Sprachmodelle für ChatGPT und andere Chatbots bekannt ist.

Andere und sonstige Datensätze

  • Amazon-Bewertungen – Eine Datenbank mit etwa 35 Millionen Amazon-Produktbewertungen, einschließlich Produktinformationen und Bewertungen.
  • Waymo Open Dataset – Alphabets selbstfahrende Tochtergesellschaft Waymo hat eine große Menge an Daten offengelegt, die von selbstfahrenden Fahrzeugen gesammelt wurden, darunter Daten von Kameras und LiDAR-Sensoren.
  • Apolloscape-Datensatz – Weitere autonome Fahrdaten werden von Baidus Open-Source-Apollo-Plattform bereitgestellt.

Das obige ist der detaillierte Inhalt vonMachen Sie eine Bestandsaufnahme von mehr als 20 leistungsstarken und kostenlosen Datenquellen, die jeder zum Aufbau von KI nutzen kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen