ChatGPT의 핵심 방법을 AI 페인팅에 사용할 수 있으며 효과가 47% 치솟습니다. 교신저자: OpenAI로 전환했습니다.
ChatGPT에는 "RLHF(Reinforcement Learning with Human Feedback)"라는 핵심 훈련 방법이 있습니다.
모델을 더 안전하게 만들고 출력 결과를 인간의 의도와 더 일관되게 만들 수 있습니다.
이제 Google Research와 UC Berkeley 연구진은 이 방법을 AI 페인팅에 적용하면 이미지가 입력과 정확히 일치하지 않는 상황을 "치료"할 수 있으며 효과가 놀라울 정도로 좋다는 사실을 발견했습니다. -
최대 47까지 달성 가능 % 개선하다.
Δ 왼쪽이 Stable Diffusion, 오른쪽이 향상된 효과
이제 AIGC 분야의 인기 모델 두 사람은 일종의 '공명'을 찾은 것 같습니다.
AI 페인팅에 RLHF를 어떻게 사용하나요?
RLHF(전체 이름은 "인간 피드백을 통한 강화 학습")는 2017년 OpenAI와 DeepMind가 공동 개발한 강화 학습 기술입니다.
이름에서 알 수 있듯이 RLHF는 모델 출력 결과에 대한 인간의 평가(즉, 피드백)를 사용하여 모델을 직접 최적화합니다. LLM에서는 "모델 값"이 인간의 가치와 더욱 일치하도록 만들 수 있습니다.
AI 이미지 생성 모델에서는 생성된 이미지를 텍스트 프롬프트와 완전히 정렬할 수 있습니다.
구체적으로는 먼저 인간의 피드백 데이터를 수집하세요.
여기에서 연구원들은 총 27,000개 이상의 "텍스트-이미지 쌍"을 생성한 다음 일부 인간에게 점수를 매기도록 요청했습니다.
간결함을 위해 텍스트 프롬프트에는 수량, 색상, 배경 및 혼합 옵션과 관련된 다음 4가지 범주만 포함됩니다. 인간의 피드백은 "좋음", "나쁨" 및 "모름(건너뛰기)으로만 구분됩니다. ".
둘째, 보상 기능을 배워보세요.
이 단계는 방금 얻은 인간 평가로 구성된 데이터 세트를 사용하여 보상 함수를 훈련한 다음 이 함수를 사용하여 모델 출력(공식의 빨간색 부분)에 대한 인간 만족도를 예측하는 것입니다.
이러한 방식으로 모델은 결과가 텍스트와 얼마나 일치하는지 알 수 있습니다.
저자는 보상 기능 외에도 보조 작업(공식의 파란색 부분)도 제안합니다.
즉, 이미지 생성이 완료된 후 모델은 여러 텍스트를 제공하지만 그 중 하나만 원본 텍스트이고 보상 모델이 이미지가 텍스트와 일치하는지 "스스로 확인"하도록 합니다.
이 역연산은 "이중 보험" 효과를 만들 수 있습니다(아래 그림의 2단계에 대한 이해를 도울 수 있음).
마지막으로 미세 조정이 중요합니다.
즉, 텍스트-이미지 생성 모델은 보상 가중치 우도 최대화(아래 공식의 첫 번째 항목)를 통해 업데이트됩니다.
과적합을 피하기 위해 저자는 사전 훈련 데이터 세트에서 NLL 값(공식의 두 번째 항)을 최소화했습니다. 이 접근 방식은 InstructionGPT(ChatGPT의 "직접 전신")와 유사합니다.
효과는 47% 증가했지만 투명도는 5% 감소했습니다.
다음 일련의 효과에서 볼 수 있듯이 원래 Stable Diffusion에 비해 RLHF로 미세 조정된 모델은 다음과 같습니다.
(1) Get the 텍스트의 ""가 더 정확합니다.
(2) 배경으로 "바다" 요구 사항을 무시하지 않습니다.
(3) 붉은 호랑이를 원한다면, "더 붉은색" 결과를 얻을 수 있습니다.
구체적인 데이터에 따르면 미세 조정된 모델의 인간 만족도는 50%로, 이는 원래 모델(3%)에 비해 47% 향상된 수치입니다.
단, 그 대가는 영상 선명도 5% 손실입니다.
아래 그림에서도 오른쪽의 늑대가 왼쪽의 늑대보다 확실히 더 흐릿하다는 것을 확실히 알 수 있습니다.
이와 관련하여 저자는 더 큰 인간 평가 데이터 세트를 사용하여 더 나은 최적화(RL) 방법을 사용하면 이러한 상황을 개선할 수 있습니다.
저자 소개
이 글의 저자는 총 9명입니다.
한국과학기술연구원(KIST) 구글 AI 연구과학자 이기민 박사로 UC 버클리에서 박사후 연구를 진행했다.
세 명의 중국 작가가 있습니다:
Liu Hao는 UC Berkeley의 박사 과정 학생으로 피드백 신경망에 주요 연구 관심이 있습니다.
Du Yuqing은 UC Berkeley의 박사 과정 학생입니다. 그의 주요 연구 방향은 비지도 강화 학습 방법입니다.
교신저자인 Shixiang Shane Gu(구시샹)은 3대 거인 중 하나인 Hinton 밑에서 학사 학위를 취득하고, 케임브리지 대학교에서 박사 학위를 취득했습니다.
Δ Gu Shixiang
이 글을 작성할 당시 그는 여전히 Google 직원이었지만 이제는 OpenAI로 전환하여 ChatGPT 담당자에게 직접 보고한다는 점을 언급할 가치가 있습니다.
논문 주소:
https://arxiv.org/abs/2302.12192
참조 링크: [1]https://www.php.cn/link/4d42d2f5010c1c13f23492a35645d6a7
[2 ] https://openai.com/blog/instruction-following/
위 내용은 ChatGPT의 핵심 방법을 AI 페인팅에 사용할 수 있으며 효과가 47% 치솟습니다. 교신저자: OpenAI로 전환했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

자율 AI 잠금 해제 : 7 자체 훈련 LLM을위한 7 가지 방법 AI 시스템이 복잡한 개념을 독립적으로 마스터하는 어린이들과 마찬가지로 AI 시스템이 인간의 개입없이 배우고 진화하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. 그것은 자기의 약속입니다

AI 기반 재무보고 : 자연어 생성을 통한 통찰력 혁명 오늘날의 역동적 인 비즈니스 환경에서, 정확하고시기 적절한 재무 분석은 전략적 의사 결정에 가장 중요합니다. 전통적인 재무보고

Google Deepmind의 탁구 로봇 : 스포츠 및 로봇 공학의 새로운 시대 파리 2024 올림픽은 끝났을 지 모르지만 Google Deepmind 덕분에 스포츠와 로봇 공학의 새로운 시대가 시작되었습니다. 그들의 획기적인 연구 ( "인간 수준의 경쟁 달성

Gemini Flash의 효율성 및 확장 성 잠금 해제 1.5 : Flask Food Vision WebApp 빠르게 진화하는 AI 환경에서 효율성과 확장 성이 가장 중요합니다. 개발자는 비용과 대기 시간을 최소화하는 고성능 모델을 점점 더 많이 찾습니다.

Llamaindex로 AI 에이전트의 힘을 활용하십시오 : 단계별 가이드 빠른 계산이든 최신 시장 뉴스를 검색하든, 귀하의 요청을 이해하고 완벽하게 실행하는 개인 비서를 상상해보십시오. 이 기사는 탐구합니다

Jupyter Notebook (.ipynb) 파일은 데이터 분석, 과학 컴퓨팅 및 대화식 인코딩에 널리 사용됩니다. 이 노트북은 다른 데이터 과학자와 코드를 개발하고 공유하는 데 적합하지만 때로는 PDF와 같은보다 일반적으로 읽을 수있는 형식으로 변환해야합니다. 이 안내서는 .ipynb 파일을 PDF로 변환하는 다양한 방법과 팁, 모범 사례 및 문제 해결 제안을 안내합니다. 목차 .ipynb를 pdf로 변환하는 이유는 무엇입니까? .ipynb 파일을 PDF로 변환하는 방법 Jupyter Notebook UI 사용 nbconve 사용

소개 대형 언어 모델 (LLM)은 자연어 처리에 혁명을 일으키고 있지만 엄청난 규모와 계산 요구는 제한 배포를 제한합니다. 모델을 축소하고 계산 비용을 낮추는 기술인 양자화는 중요한 솔루입니다.

소개 이 안내서는 웹 자동화 및 테스트를위한 셀레늄과 파이썬의 강력한 조합을 탐구합니다. Selenium은 브라우저 상호 작용을 자동화하여 대규모 웹 애플리케이션의 테스트 효율성을 크게 향상시킵니다. 이 튜토리얼은 o


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

드림위버 CS6
시각적 웹 개발 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는
