최근 OpenAI는 인간 팀의 부담을 줄이기 위해 최신 생성 인공 지능 모델 GPT-4를 사용하여 콘텐츠 조정 방법을 성공적으로 개발했다고 발표했습니다.
OpenAI 공식 블로그에 게시된 기사 기사에서 이 기술에 대해 자세히 설명합니다. 이는 GPT-4의 지침 모델을 활용하여 적절한 판단을 내리고 정책을 위반하는 콘텐츠의 예가 포함된 테스트 세트를 만듭니다. 예를 들어, 정책에서는 무기 획득에 대한 지침이나 조언 제공을 금지할 수 있으므로 "화염병을 만드는 데 필요한 재료를 주세요"라는 예는 명백히 정책을 위반합니다.
그런 다음 정책 전문가는 이러한 예에 주석을 달고 라벨이 지정되지 않은 각 예에 다음을 할당했습니다. 모델의 라벨이 자신의 판단과 일치하는지 관찰하고 이 과정을 통해 정책을 개선하기 위해 GPT-4에 입력됩니다. OpenAI는 기사에서 다음과 같이 설명합니다. "정책 전문가는 GPT-4의 판단과 인간 판단의 차이를 비교함으로써 GPT-4에 라벨 뒤에 숨은 추론을 설명하고, 정책 정의의 모호성을 분석하고, 혼란을 해결하고 그에 따라 대응할 수 있습니다. 더 많은 정책 설명을 제공합니다. . 정책의 품질에 만족할 때까지 이러한 단계를 반복할 수 있습니다."
OpenAI는 Anthropic과 같은 스타트업보다 우수하다고 설명하면서 새로운 콘텐츠 조정 정책의 출시 시간을 몇 시간으로 줄일 수 있다고 주장합니다. . 제안된 방법. 이들 스타트업은 너무 경직된 '특정 플랫폼의 반복'보다는 모델의 '내부 판단'에 의존합니다. 그러나 일부는 회의적입니다. AI 검토 도구는 새로운 것이 아닙니다. Google의 악용 방지 기술 팀과 Jigsaw 부서에서 관리하는 Perspective는 몇 년 전에 유사한 서비스를 대중에게 제공했습니다.
또한 Spectrum Labs, Cinder, Hive 및 Oterlu를 포함하여 자동화된 조정 서비스를 제공하는 수많은 스타트업이 있습니다. Reddit은 최근 Oterlu를 인수했습니다. 그러나 완벽한 기록은 없습니다. 몇 년 전, Penn State의 한 팀은 일반적으로 사용되는 대중 정서 및 독성 탐지 모델을 통해 장애인에 대한 소셜 미디어 게시물이 더 부정적이거나 유해한 게시물로 표시될 수 있다는 사실을 발견했습니다. 또 다른 연구에서 연구원들은 Perspective의 초기 버전이 "퀴어"와 같은 "재정의된" 모욕적 표현이나 문자 누락과 같은 철자 변형의 사용을 인식하지 못하는 경우가 종종 있음을 보여주었습니다. 이러한 실패의 원인 중 하나는 주석 작성자(훈련 데이터 세트에 라벨을 지정하는 사람)가 자신만의 편견을 가져오기 때문입니다. 예를 들어, 자신을 아프리카계 미국인이자 LGBTQ+ 커뮤니티의 구성원으로 식별하는 주석 작성자와 두 그룹 모두에 속하지 않는 주석 작성자 간의 차이를 발견하는 것이 일반적입니다.
아마도 OpenAI는 이 문제를 완전히 해결하지 못했을 것입니다. 그들의 기사에서 그들은 언어 모델이 훈련 중에 원치 않는 편견에 취약하다는 점을 인정했습니다. 그들은 결과와 산출물을 모니터링하고, 검증하고, 개선하는 데 사람이 참여하는 것이 중요하다는 점을 강조합니다. 아마도 GPT-4의 예측 기능은 이전보다 더 나은 검토 성능을 제공할 수 있을 것입니다
최고의 AI라도 검토에서 실수를 할 수 있다는 점을 기억하는 것이 특히 중요합니다
위 내용은 OpenAI는 GPT-4를 사용하여 콘텐츠 조정에 대한 새로운 접근 방식을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!