OpenAI는 생성 인공지능의 '심각한 넌센스'에 대한 해결책을 찾은 것 같습니다.
5월 31일, OpenAI는 공식 웹사이트를 통해 생성 AI의 일반적인 "환상"과 기타 일반적인 문제를 제거하는 데 도움이 될 수 있는 모델을 훈련했다고 발표했습니다.
OpenAI는 환각을 감지하도록 보상 모델을 훈련할 수 있으며, 보상 모델은 결과 감독(최종 결과에 따른 피드백 제공) 모델과 프로세스 감독(사고 체인의 각 단계에 대한 피드백 제공) 모델로 구분된다고 밝혔습니다.
즉, 프로세스 감독은 추론의 각 올바른 단계에 대해 보상하는 반면, 결과 감독은 단순히 정답에 대해 보상합니다.
OpenAI는 대조적으로 프로세스 감독에는 중요한 이점이 있다고 말합니다. 모델을 직접 훈련하여 인간이 승인한 사고 사슬을 생성합니다. :
프로세스 감독은 결과 감독에 비해 몇 가지 일관성 이점이 있습니다. 각 단계는 정밀하게 감독되므로 일관된 사고 모델을 따르는 행동에 보상을 줍니다.
프로세스 감독은 모델이 인간이 승인한 프로세스를 따르도록 장려하기 때문에 설명 가능한 추론을 생성할 가능성도 더 높습니다
결과 모니터링은 일관되지 않은 프로세스를 보상할 수 있으며 검토하기가 더 어려운 경우가 많습니다.
OpenAI는 수학적 데이터세트에서 두 모델을 모두 테스트한 결과, 프로세스 감독 접근 방식이 "상당히 더 나은 성능"을 가져온다는 사실을 발견했습니다.
그러나 지금까지 프로세스 감독 접근 방식은 수학적 영역에서만 테스트되었으며 더 일반적으로 수행되는 방식을 확인하려면 더 많은 작업이 필요하다는 점에 유의하는 것이 중요합니다.
또한 OpenAI에서는 아직 연구 단계인 ChatGPT에 본 연구가 적용되기까지 시간이 얼마나 걸릴지 명시하지 않았습니다.
초기 결과는 좋지만 OpenAI는 더 안전한 접근 방식으로 인해 정렬 세금이라는 성능 저하가 발생한다고 언급합니다.
현재 결과에 따르면 프로세스 감독은 수학 문제를 처리할 때 정렬 세금을 생성하지 않는 것으로 나타났습니다. 그러나 일반 정보의 상황은 아직 알 수 없습니다.
생성 AI의 “환상”
제너레이티브 AI가 등장한 이후 허위 정보 조작, '환각 생성'이라는 비난은 사라지지 않았습니다. 이는 현재 생성 AI 모델의 가장 큰 문제 중 하나이기도 합니다.
올해 2월, 구글은 마이크로소프트가 자금을 지원한 ChatGPT에 대응하여 급하게 챗봇인 Bard를 출시했지만, 시연에서 상식적인 오류가 발생한 것으로 밝혀져 구글의 주가가 폭락했습니다.
AI에서 환각을 일으키는 데에는 여러 가지 이유가 있습니다. 그 중 하나는 AI 프로그램이 오분류하도록 속이기 위해 데이터를 입력하는 것입니다.
예를 들어 개발자는 데이터(예: 이미지, 텍스트 또는 기타 유형)를 사용하여 인공 지능 시스템을 교육합니다. 데이터가 변경되거나 왜곡되면 애플리케이션은 입력을 다르게 해석하여 잘못된 결과를 생성합니다.
ChatGPT와 같은 대규모 언어 기반 모델에서는 잘못된 변환기 디코딩으로 인해 환상이 발생할 수 있으며, 이로 인해 언어 모델이 잠재적으로 비논리적이거나 모호하지 않은 스토리나 내러티브를 생성하게 됩니다.
위 내용은 AI 구현의 가장 큰 장애물을 해결하기 위해 OpenAI는 방법을 찾았습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!