오늘날 비즈니스와 사회에서 인공지능을 이야기할 때 실제로는 머신러닝을 말하는 것입니다. 기계 학습은 해당 작업과 관련된 점점 더 많은 데이터에 노출되면서 특정 작업을 더 잘 수행하기 위해 알고리즘(명령 집합)을 사용하는 애플리케이션입니다.
이러한 작업은 질문에 답하기, 텍스트나 이미지 생성(ChatGPT 또는 Dall-E와 같은 앱에서 가능), 이미지 인식(컴퓨터 비전), A 지점에서 B 지점으로 자율 주행 자동차를 탐색하는 것 등 무엇이든 될 수 있습니다.
일상 작업을 자동화하기 위해 자체 기계 학습 알고리즘을 교육하려는 기업에는 이러한 작업을 지원하는 데이터 소스가 필요합니다.
어떤 유형의 데이터가 있나요?
기업 데이터는 일반적으로 내부 데이터와 외부 데이터라는 두 가지 범주로 나뉩니다.
- 내부 데이터는 기업 조직 자체가 운영 프로세스에서 수집한 데이터로, 일반적으로 재무 데이터, 고객 피드백 데이터, 인사 데이터, 운영 데이터 및 기타 다양한 소스의 데이터가 포함됩니다. 조직이 자체 운영을 모니터링하는 과정에서 수집한 데이터를 독점 데이터라고 하며 특정 비즈니스에 대한 정보를 제공한다는 점에서 가치가 있습니다.
- 외부 데이터는 조직 외부 소스에서 제공되는 데이터로, 일반적으로 아래 나열된 타사 데이터 소스에서 수집됩니다. 누구나 자유롭게 이용할 수 있는 데이터를 오픈데이터라고 합니다.
또한 데이터는 정형, 비정형, 반정형 데이터로 분류할 수도 있습니다.
- 구조화된 데이터는 테이블에 깔끔하고 깔끔하게 정리된 정보입니다. 예를 들어 기업이 판매하는 제품, 시기, 장소, 가격을 보여주는 판매 데이터는 내부적으로 구조화된 데이터입니다. 또는 기업은 과거 시장 데이터와 경제 지표를 분석하여 시장의 미래 동향(구조화된 외부 데이터)을 예측할 수도 있습니다.
- 비정형 데이터는 이미지, 동영상, 텍스트, 소셜 미디어 콘텐츠 등 귀중한 통찰력을 담고 있지만 분석하기가 더 어려운 모든 것입니다. 그러나 AI는 구조화되지 않은 데이터에서 의미를 추출하는 데 특히 유용한 것으로 입증되었습니다. 예를 들어, 이미지 인식 알고리즘은 매장 내 CCTV 이미지(내부 비정형 데이터)를 분석하고, 소셜 미디어에 게시된 비즈니스 관련 이미지(비정형 외부 데이터)를 분석하여 귀중한 통찰력을 찾아냄으로써 고객 행동에 대한 유용한 정보를 비즈니스에 전달할 수 있습니다.
다행히 데이터는 어디에나 있습니다. 정부, 연구 기관, 민간 기업, NGO는 모두 연구 및 상업적 목적으로 무료로 데이터를 제공합니다. 2023년에 사용할 수 있는 최고의 무료 온라인 데이터 소스는 다음과 같습니다.
데이터 검색 엔진 및 저장소
- Google 데이터 세트 검색 - 이는 본질적으로 Google의 카탈로그 데이터 세트에 대한 검색 엔진입니다. 이 검색 엔진을 사용하면 필요한 거의 모든 데이터를 찾을 수 있습니다.
- AWS 개방형 데이터 검색 - Amazon의 AWS에서 제공하는 또 다른 데이터 세트 검색 엔진입니다.
- Microsoft Research 개방형 데이터 - 주로 과학에 중점을 두고 Microsoft가 수집한 무료 개방형 데이터 세트입니다.
- UCI 기계 학습 저장소 - 캘리포니아 대학교 어바인에서 큐레이팅하고 유지 관리하는 600개 이상의 공개 데이터 세트 저장소로, 기계 학습 알고리즘을 훈련하는 데 사용할 수 있습니다.
- Kaggle 데이터 세트 – 온라인 데이터 과학 플랫폼인 Kaggle은 대학 순위부터 Google 검색 트렌드, 소매 판매, 온라인 영화 리뷰 및 범죄 통계에 이르기까지 모든 것을 포괄하는 엄선된 데이터 세트 카탈로그도 제공합니다.
- Reddit R/Datasets - 온라인 커뮤니티 사이트 Reddit 사용자가 제출한 수백 가지 주제를 다루는 거대한 데이터 세트입니다.
정부 및 정부 간 조직 데이터 세트
- Data.Gov - 정부 기관에서 게시한 100만 개의 데이터 세트 중 거의 4분의 1을 호스팅하는 미국 정부에서 제공하는 개방형 데이터 포털입니다.
- Data.Census.Gov – 미국 인구 통계 데이터를 구체적으로 찾고 있다면 여기가 시작하기에 좋은 곳입니다!
- Data.EU - EU 조직의 데이터와 회원국 정부의 데이터가 포함된 유럽 연합의 개방형 데이터 포털입니다.
- Data.gov.uk – 영국 정부 기관에서 게시한 공개 데이터 세트입니다.
- 세계보건기구 데이터 - 글로벌 건강 및 웰빙과 관련된 데이터 세트입니다.
- World Bank 공개 데이터 - 경제 발전, 국제 금융 시장, 사회 지표 및 환경 문제와 관련된 데이터 세트입니다.
이미지 데이터
- Google 오픈 이미지 - 다양한 방식으로 분류되고 레이블이 지정된 수백만 개의 이미지는 다양한 유형의 컴퓨터 비전 알고리즘을 훈련하는 데 사용됩니다.
- ImageNet 공개 데이터 세트 - 비상업적 기계 학습 애플리케이션에 무료로 제공되는 레이블이 지정된 이미지로 구성된 또 다른 데이터 세트입니다.
- COCO 데이터 세트 - COCO(Common Objects in Context) 데이터 세트에는 객체 감지 및 캡션 알고리즘 훈련을 위해 선택된 200,000개 이상의 이미지가 포함되어 있습니다.
Voice Data
- Mozilla Common Voice - 음성과 관련된 모든 AI 애플리케이션을 훈련하는 데 사용할 수 있는 공개 녹음 데이터세트입니다.
- Audioset - Google이 엄선한 또 다른 데이터세트로, 소리에 중점을 두고 악기, 차량, 보컬과 같은 카테고리로 분류된 수십만 개의 10초 샘플을 포함합니다.
- Million Song 데이터 세트 - 백만 개의 현대 팝 음악 트랙의 샘플 및 메타데이터입니다.
텍스트 데이터
- Wikidata - 다양한 형식의 Wikipedia 기사 데이터베이스 다운로드.
- Common Crawl - World Wide Web에서 스크랩한 개방형 데이터 저장소로, ChatGPT 및 기타 챗봇용 GPU 대규모 언어 모델 훈련으로 가장 잘 알려져 있습니다.
기타 및 기타 데이터 세트
- Amazon 리뷰 - 제품 정보 및 평점을 포함하여 약 3,500만 개의 Amazon 제품 리뷰가 포함된 데이터베이스입니다.
- Waymo Open Dataset - Alphabet의 자율주행 자회사 Waymo는 카메라 및 LiDAR 센서의 데이터를 포함하여 자율주행차를 통해 수집된 대량의 데이터를 공개했습니다.
- Apolloscape 데이터 세트 - Baidu의 오픈 소스 Apollo 플랫폼에서 더 많은 자율 주행 데이터가 제공됩니다.
위 내용은 누구나 AI 구축에 사용할 수 있는 20개 이상의 강력하고 무료 데이터 소스를 확보하세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!