합성 데이터가 AI/ML 훈련의 미래를 주도할 것인가?-일체 포함-php.cn

집

기술 주변기기

일체 포함

합성 데이터가 AI/ML 훈련의 미래를 주도할 것인가?

王林

Apr 14, 2023 am 09:52 AM

ai합성 데이터ml

合成数据会推动 AI/ML 训练的未来吗？

인공 지능이나 기계 학습(AI/ML) 훈련을 위해 실제 데이터를 수집하는 데 시간과 비용이 많이 든다는 것은 의심의 여지가 없습니다. 그리고 많은 경우 위험이 따르지만 더 일반적인 문제는 데이터가 너무 적거나 편향된 데이터가 조직을 잘못된 길로 이끌 수 있다는 것입니다. 하지만 소위 합성 데이터라고 불리는 새로운 데이터를 생성할 수 있다면 어떨까요?

가능성이 희박해 보이지만 이것이 바로 Synesis AI가 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital 및 Kubera Venture Capital Series A를 포함한 벤처 캐피탈 회사로부터 1,700만 달러를 모금할 계획인 것입니다. 자금조달.

이것은 매우 신뢰할만한 증거입니다. 회사는 이번 자금을 실제 데이터와 합성 데이터를 혼합하는 분야의 연구개발을 확대하는 데 사용할 계획이다.

Synesis AI의 CEO인 Yashar Behzadi는 성명을 통해 다음과 같이 말했습니다. "합성 데이터는 채택의 변곡점에 있으며, 우리의 목표는 기술을 더욱 발전시키고 컴퓨터 비전 시스템 구축 방식의 패러다임 전환을 주도하는 것입니다. 업계 곧 가상 세계에서 컴퓨터 비전 모델의 포괄적인 설계 및 교육을 통해 더욱 진보되고 윤리적인 인공 지능을 가능하게 할 것입니다.”

그런데 합성 데이터란 무엇입니까?

합성 데이터는 현실 세계에서 수집되는 것이 아니라 인간이 생성합니다. 현재 많은 애플리케이션은 컴퓨터 비전 시스템에서 수집된 데이터와 같은 시각적 데이터에 중점을 두고 있습니다. 그럼에도 불구하고 애플리케이션 테스트나 사기 탐지 알고리즘 개선과 같은 다른 사용 사례에 대해 합성 데이터를 생성할 수 없는 실질적인 이유는 없습니다. 이는 물리적 기록의 고도로 구조화된 디지털 트윈과 다소 유사합니다.

대규모의 실제 데이터 세트를 제공함으로써 데이터 과학자와 분석가는 이론적으로 데이터 수집 프로세스를 건너뛰고 바로 테스트 또는 교육에 들어갈 수 있습니다.

실제 데이터 세트를 만드는 데 드는 비용의 대부분은 단순히 원시 데이터를 수집하는 데 드는 비용이 아니기 때문입니다. 컴퓨터 비전과 자율주행차를 예로 들면, 자동차 제조사와 연구원들은 다양한 카메라, 레이더, 라이더 센서를 차량에 부착해 수집할 수 있지만, 원시 데이터는 AI/ML 알고리즘에 아무런 의미가 없습니다. 마찬가지로 어려운 과제는 시스템이 더 나은 결정을 내리는 데 도움이 되도록 상황에 맞는 정보로 데이터에 수동으로 태그를 지정 하는 것입니다.

이 챌린지의 맥락을 살펴보겠습니다. 모든 정지 신호, 교차로, 주차된 차량, 보행자 등이 있는 짧은 운전을 정기적으로 운전한다고 상상해 보십시오. 그런 다음 잠재적인 라벨링 위험을 각각 제공하는 것이 어려운 작업이라고 상상해 보십시오.

합성 데이터의 핵심 장점은 이론적으로 AI/ML 애플리케이션을 적절하게 훈련할 수 있을 만큼 큰 완벽하게 레이블이 지정된 데이터 세트를 생성할 수 있다는 것입니다. 즉, 데이터 과학자가 실제로 구현하기 전에 갑자기 수많은 새로운 장소에서 알고리즘을 테스트할 수 있습니다. 세계 데이터 또는 얻기 어려운 상황에서. 자율주행 자동차의 예를 계속해서 살펴보면, 데이터 과학자는 수동으로 데이터를 수집하기 위해 운전자를 북쪽이나 산으로 보낼 필요 없이 눈 덮인 도로와 같은 혹독한 조건에서 운전하도록 자동차를 훈련시키기 위한 합성 데이터를 생성할 수 있습니다.

합성 데이터의 핵심 장점은 이론적으로 AI/ML 애플리케이션을 적절하게 교육하는 데 필요한 규모로 완벽하게 레이블이 지정된 데이터 세트를 생성할 수 있다는 것입니다. 즉, 데이터 과학자는 실제 데이터를 사용할 수 있기 전에 또는 데이터를 사용하기 어려울 때 데이터를 생성할 수 있습니다. 그들은 갑자기 알고리즘을 여러 새로운 장소에서 테스트하고 있었습니다. 여전히 자율주행 자동차의 예를 통해 데이터 과학자는 운전자가 수동으로 데이터를 수집하기 위해 북쪽으로 가거나 산으로 갈 필요 없이 눈 덮인 도로와 같은 불리한 조건에서 운전하도록 자동차를 훈련시키는 합성 데이터를 생성할 수 있습니다.

그러나 합성 데이터에는 닭과 달걀의 문제가 있습니다. 왜냐하면 더 많은 데이터와 더 많은 AI/ML 알고리즘을 통해서만 생성할 수 있기 때문입니다. "시드" 데이터 세트로 시작한 다음 이를 합성 창작물의 기준으로 사용하세요. 즉, 시작하는 데이터만큼만 좋은 결과를 얻을 수 있습니다.

(무형) 이점

데이터 생성기의 끝이 보이지 않는 공급으로부터 이익을 얻지 못할 데이터 과학자나 연구원이 어디 있겠습니까? 실제 데이터의 수동 수집을 피할 수 있는 능력이라는 핵심 이점은 단순히 합성 데이터에 의해 가속화됩니다. AI/ML 적용 방식.

분석가와 데이터 과학자는 시드 데이터를 엄격하게 통제하고 다양성을 통합하기 위해 추가 노력을 기울이거나 외부 컨설턴트와 협력하여 편견을 발견하고 해독할 수 있기 때문에 더 높은 기준을 유지할 수 있습니다. 예를 들어, 합성 AI는 운전자 상태를 모니터링하고 컴퓨터 생성 합성 데이터 세트에 다양한 얼굴을 주의 깊게 포함시켜 실제 애플리케이션이 모든 사람에게 작동하도록 보장하는 시스템을 개발하고 있습니다.

개인 정보 보호는 또 다른 잠재적인 승리입니다. 회사가 자율주행차에 대한 실제 데이터를 수집하는 데 수백만 마일을 소비한다면 많은 사람들이 개인적이라고 생각하는 많은 데이터, 특히 얼굴을 수집하게 됩니다. Google 및 Apple과 같은 대기업은 매핑 소프트웨어에서 이러한 유형의 문제를 방지하는 방법을 찾았지만 알고리즘을 테스트하려는 소규모 AI/ML 팀에게는 이러한 경로가 적합하지 않습니다.

"기업들은 또한 인간 중심 제품의 모델 편견 및 소비자 개인 정보 보호와 관련된 윤리적 문제와 씨름하고 있습니다. 차세대 컴퓨터 비전을 구축하려면 새로운 패러다임이 필요하다는 것은 분명합니다."라고 Behzadi 회사의 CEO이자 설립자인 Yashar 말 언론에 말했습니다.

합성 데이터는 시작하기 위해 시드에 의존하지만 실제 생활에서 포착하기 어렵거나 위험한 극단적인 사례에서 AI/ML 애플리케이션을 훈련하는 데 도움이 되도록 조정하고 수정할 수 있습니다. 자율주행차를 개발하는 회사들은 트럭 뒤에 숨겨진 정지 신호나 도로를 질주하는 두 대의 자동차 사이에 서 있는 보행자 등 부분적으로만 보이는 물체나 사람을 잘 식별할 수 있기를 바라고 있습니다.

이러한 성공을 감안할 때, 그리고 편향을 합성 데이터로 인코딩하는 닭과 달걀 문제에 대한 일부 우려에도 불구하고 Gartner는 2024년까지 데이터의 60%가 합성으로 생성될 것으로 예측합니다. 그들은 기반이 되는 과거 데이터가 관련성을 잃거나 과거 경험에 기반한 가정이 무너지면 새로운 데이터의 대부분이 예측 모델을 수정하는 데 중점을 둘 것이라고 예측합니다.

하지만 항상 수집해야 할 일부실제 데이터가 있기 때문에 보편적이고 편견 없는 자아의 아바타에 의해 우리가 완전히 쓸모없게 되려면 아직 갈 길이 멀습니다.

위 내용은 합성 데이터가 AI/ML 훈련의 미래를 주도할 것인가?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 치료사가 여기 있습니다 : 14 획기적인 정신 건강 도구가 알아야 할 획기적인 정신 건강 도구Apr 30, 2025 am 11:17 AM

훈련 된 치료사의 인간 관계와 직관을 제공 할 수는 없지만 연구에 따르면 많은 사람들이 비교적 얼굴이없고 익명의 AI 봇과의 걱정과 우려를 편안하게 공유하는 것으로 나타났습니다. 이것이 항상 좋은지 i

식료품 통로에 AI를 호출합니다Apr 30, 2025 am 11:16 AM

수십 년 동안의 기술 인 인공 지능 (AI)은 식품 소매 산업에 혁명을 일으키고 있습니다. AI의 영향은 다양한 비즈니스 기능에 걸쳐 대규모 효율성 상승 및 비용 절감에서 간소화 된 프로세스에 이르기까지 AI의 영향은 불공정입니다.

당신의 정신을 높이기 위해 생성 AI에서 Pep 대화를받는 것Apr 30, 2025 am 11:15 AM

그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 다양한 영향력 AI 복잡성을 식별하고 설명하는 것을 포함하여 AI의 최신 AI에 대한 진행중인 Forbes 열 커버리지의 일부입니다 (여기 링크 참조). 또한, 내 comp

AI 구동과 개인화가 모든 비즈니스에 필수품 인 이유Apr 30, 2025 am 11:14 AM

전문 이미지를 유지하려면 가끔 옷장 업데이트가 필요합니다. 온라인 쇼핑은 편리하지만 직접 시도한 트립 온의 확실성이 부족합니다. 내 해결책? AI 기반 개인화. 나는 AI 조수 큐레이팅 의류 selecti를 구상합니다

Duolingo는 잊어 버리십시오 : Google Translate의 새로운 AI 기능은 언어를 가르칩니다Apr 30, 2025 am 11:13 AM

Google Translate는 언어 학습 기능을 추가합니다 Android Authority에 따르면 APP Expert AssembledeBug는 최신 버전의 Google Translate 앱에는 사용자가 개인화 된 활동을 통해 언어 기술을 향상시킬 수 있도록 설계된 새로운 "연습"테스트 코드가 포함되어 있음을 발견했습니다. 이 기능은 현재 사용자에게는 보이지 않지만 AsschBLEDEBUG는 부분적으로이를 활성화하고 새로운 사용자 인터페이스 요소 중 일부를 볼 수 있습니다. 활성화되면이 기능은 "Beta"배지가 표시된 화면 하단에 새로운 졸업식 캡 아이콘을 추가하여 "연습"기능이 실험 형태로 처음 릴리스 될 것임을 나타내는 새로운 졸업식 캡 아이콘을 추가합니다. 관련 팝업 프롬프트는 "당신을 위해 맞춤화 된 활동을 연습하십시오!"를 보여줍니다. 이는 Google이 사용자 정의를 생성한다는 것을 의미합니다.

그들은 AI를 위해 TCP/IP를 만들고 있으며 Nanda라고합니다Apr 30, 2025 am 11:12 AM

MIT 연구원들은 AI 에이전트를 위해 설계된 획기적인 웹 프로토콜 인 Nanda를 개발하고 있습니다. 네트워크 에이전트 및 분산 된 AI의 경우 Nanda는 인터넷 기능을 추가하여 AI Agen을 활성화하여 Anthropic의 MCP (Model Context Protocol)를 기반으로합니다.

프롬프트 : Deepfake Detection은 급성장하는 비즈니스입니다Apr 30, 2025 am 11:11 AM

Meta의 최신 벤처 : Chatgpt와 경쟁하는 AI 앱 Facebook, Instagram, WhatsApp 및 Threads의 모회사 인 Meta는 새로운 AI 기반 응용 프로그램을 시작하고 있습니다. 이 독립형 앱인 Meta AI는 OpenAi의 chatgpt와 직접 경쟁하는 것을 목표로합니다. 지렛대

비즈니스 리더를위한 AI 사이버 보안에서 향후 2 년Apr 30, 2025 am 11:10 AM

AI 사이버 공격의 상승 조수를 탐색합니다 최근에 Ciso의 인류의 Ciso 인 Jason Clinton은 인간이 아닌 정체성과 관련된 새로운 위험을 강조했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.