>기술 주변기기 >일체 포함 >ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

WBOY
WBOY앞으로
2023-04-12 21:04:011805검색

최근 심층 생성 모델은 LAION과 같은 대규모 웹 데이터 세트에 대한 심층 생성 모델의 확장으로 인해 텍스트 프롬프트에서 고품질 이미지를 생성하는 데 놀라운 성공을 거두었습니다. 그러나 대규모 텍스트-이미지 모델이 텍스트 프롬프트와 완벽하게 일치하는 이미지를 생성하지 못하는 몇 가지 중요한 과제가 남아 있습니다. 예를 들어, 현재의 텍스트-이미지 모델은 신뢰할 수 있는 시각적 텍스트를 생성하지 못하고 결합된 이미지 생성에 어려움을 겪는 경우가 많습니다.

언어 모델링 분야에서 인간의 피드백을 통해 학습하는 것은 "모델 동작을 인간의 의도에 맞추는" 강력한 솔루션이 되었습니다. 이러한 유형의 방법은 먼저 모델 출력에 대한 인간의 피드백을 통해 인간이 작업에 관심을 갖는 것을 반영하도록 설계된 보상 함수를 학습한 다음 강화 학습 알고리즘(예: 근위 정책 최적화 PPO)을 통해 학습된 보상 함수를 사용하여 언어를 최적화합니다. 모델. 인간 피드백 프레임워크(RLHF)를 사용한 이 강화 학습은 대규모 언어 모델(예: GPT-3)과 정교한 인간 품질 평가를 성공적으로 결합했습니다.

최근 언어 분야에서 RLHF의 성공에 영감을 받아 Google Research와 캘리포니아 버클리의 연구원들은 인간의 피드백을 사용하여 텍스트를 이미지 모델에 정렬하는 미세 조정 방법을 제안했습니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

논문주소 : https://arxiv.org/pdf/2302.12192v1.pdf

본 글의 방법은 아래 그림 1과 같으며 크게 3가지로 나누어진다. 단계.

1단계: 먼저 "이미지 모델 출력에 대한 텍스트 정렬을 테스트하도록 설계된" 텍스트 프롬프트 세트에서 다양한 이미지를 생성합니다. 특히 사전 훈련된 모델에서 오류가 발생하기 쉬운 프롬프트를 검사합니다. 즉, 특정 색상, 숫자, 배경을 가진 객체를 생성한 다음 모델의 출력을 평가하는 데 사용되는 이진 인간 피드백을 수집합니다.

2단계: 사람이 라벨을 붙인 데이터세트를 사용하여 이미지와 텍스트 프롬프트에 따라 사람의 피드백을 예측하는 보상 함수를 훈련합니다. 우리는 보상 학습을 위해 인간의 피드백을 보다 효과적으로 사용하기 위해 교란된 텍스트 프롬프트 세트 중에서 원본 텍스트 프롬프트를 식별하는 보조 작업을 제안합니다. 이 기술은 보이지 않는 이미지와 텍스트 프롬프트에 대한 보상 기능의 일반화를 향상시킵니다.

3단계: 보상 가중 가능성 최대화를 통해 텍스트-이미지 모델을 업데이트하여 인간 피드백에 더 잘 맞도록 합니다. 최적화를 위해 강화 학습을 사용한 이전 작업과 달리, 연구원들은 준지도 학습을 사용하여 모델을 업데이트하여 학습된 보상 함수인 모델 출력의 품질을 측정했습니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

연구원들은 Stable Diffusion 모델을 미세 조정하기 위해 인간의 피드백과 함께 27,000개의 이미지-텍스트 쌍을 사용했습니다. 결과는 미세 조정된 모델이 특정 색상, 수량, 그리고 배경. 이미지 충실도가 약간 손실되면서 이미지-텍스트 정렬이 최대 47% 향상되었습니다.

또한, 보이지 않는 색상, 수량 및 배경 프롬프트의 조합을 통해 보이지 않는 개체를 더 잘 생성할 수 있도록 결합 생성 결과가 개선되었습니다. 그들은 또한 학습된 보상 기능이 테스트 텍스트 프롬프트의 CLIP 점수보다 인간의 정렬 평가와 더 잘 일치한다는 것을 관찰했습니다.

하지만 논문의 제1저자인 이기민씨 역시 이번 논문의 결과가 기존 T2-이미지 모델의 실패 모델을 모두 해결한 것은 아니며, 여전히 과제가 많다고 말했습니다. 그들은 이 작업이 Vincent 그래프 모델 정렬에 있어 인간 피드백을 통한 학습의 잠재력을 강조할 수 있기를 바랍니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

방법 소개

생성된 이미지를 텍스트 프롬프트와 정렬하기 위해 본 연구에서는 사전 훈련된 모델에 대해 일련의 미세 조정을 수행했으며 그 과정은 위의 그림 1에 나와 있습니다. 먼저, Vincentian 그래프 모델의 다양한 성능을 테스트하기 위해 설계된 프로세스인 일련의 텍스트 프롬프트에서 해당 이미지가 생성되었습니다. 그런 다음 인간 평가자가 생성된 이미지에 대해 이진 피드백을 제공했습니다. 다음으로 연구는 인간 피드백을 예측하기 위해 보상 모델을 훈련했습니다. 텍스트 프롬프트와 이미지를 입력으로 사용하고 마지막으로 연구에서는 보상 가중치 로그 가능성을 사용하여 Vincent 그래프 모델을 미세 조정하여 텍스트-이미지 정렬을 개선합니다.

인간 데이터 수집

Vincentian 그래프 모델의 기능을 테스트하기 위해 연구에서는 지정된 개수, 색상 및 배경이라는 세 가지 유형의 텍스트 프롬프트를 고려했습니다. 각 카테고리에 대해 연구에서는 녹색(색상)과 개(수량)와 같이 개체를 설명하는 각 단어나 문구를 쌍으로 연결하여 프롬프트를 생성했습니다. 또한 이 연구에서는 세 가지 범주의 조합(예: 도시에서 녹색으로 염색된 두 마리의 개)을 고려했습니다. 아래 표 1은 데이터 세트 분류를 더 잘 보여줍니다. 각 프롬프트는 60개의 이미지를 생성하는 데 사용되며 모델은 주로 Stable Diffusion v1.5입니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

인간 피드백

다음은 생성된 이미지에 대한 인간 피드백입니다. 동일한 프롬프트에 의해 생성된 3개의 이미지가 라벨러에게 제시되고, 생성된 각 이미지가 프롬프트와 일치하는지 여부와 평가 기준이 좋은지 나쁜지 평가하도록 요청받습니다. 이 작업은 상대적으로 간단하므로 이진 피드백으로 충분합니다.

보상 학습

이미지-텍스트 정렬을 더 잘 평가하기 위해 이 연구에서는 보상 함수 ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?를 사용하여 이를 측정합니다. 이를 통해 이미지 x와 텍스트 프롬프트 z의 CLIP 임베딩을 표준에 매핑할 수 있습니다. 크기. 그런 다음 인간 피드백 k_y ∈ {0, 1}(1 = 좋음, 0 = 나쁨)을 예측하는 데 사용됩니다.

공식적으로 인간 피드백 데이터 세트 D^human = {(x, z, y)}가 주어지면 보상 함수 ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?는 평균 제곱 오차(MSE)를 최소화하여 훈련됩니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

이전 연구에서는 데이터 증대 방법이 데이터 효율성과 모델 학습 성능을 크게 향상시킬 수 있음을 보여주었습니다. 피드백 데이터 세트를 효과적으로 활용하기 위해 본 연구에서는 간단한 데이터 증대 방식과 보상 학습 보조 손실을 설계했습니다. 본 연구에서는 보조 작업에 향상된 프롬프트를 사용합니다. 즉, 원래 프롬프트에 따라 분류 보상 학습이 수행됩니다. Prompt 분류기는 다음과 같은 보상 함수를 사용합니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

보조 손실은 다음과 같습니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

마지막으로 Vincent 그래프 모델이 업데이트됩니다. 모델이 생성하는 데이터 세트의 다양성은 제한되어 있으므로 과적합이 발생할 수 있습니다. 이를 완화하기 위해 연구에서는 다음과 같이 사전 훈련 손실도 최소화했습니다.

실험 결과

실험 부분은 모델 미세 조정에 참여하는 인간 피드백의 효과를 테스트하도록 설계되었습니다. 실험에 사용된 모델은 Stable Diffusion v1.5입니다. 데이터 세트 정보는 표 1(위 참조) 및 표 2에 표시되어 있습니다. 표 2는 여러 인간 라벨러가 제공하는 피드백의 분포를 보여줍니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

텍스트-이미지 정렬에 대한 인간 평가(평가 지표는 색상, 개체 수). 그림 4에서 볼 수 있듯이, 우리의 방법은 이미지-텍스트 정렬을 크게 향상시켰습니다. 특히, 모델에 의해 생성된 샘플의 50%가 최소 2/3의 찬성 투표를 받았습니다(투표 수는 7표 이상이었습니다). . 투표) 그러나 미세 조정은 이미지 충실도를 약간 감소시킵니다(15% 대 10%).

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

그림 2는 본 논문의 원본 모델과 미세 조정된 대응 모델의 이미지 예를 보여줍니다. 원본 모델은 세부 사항(색상, 배경, 개수 등)이 부족한 이미지를 생성했으며(그림 2(a)), 우리 모델에서 생성된 이미지는 프롬프트에서 지정한 색상, 개수, 배경과 일치함을 알 수 있습니다. . 우리 모델이 보이지 않는 텍스트 프롬프트 이미지를 매우 높은 품질로 생성할 수도 있다는 점은 주목할 가치가 있습니다(그림 2 (b)).

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

학습 결과를 보상해 드립니다. 그림 3(a)는 표시된 텍스트 프롬프트와 보이지 않는 텍스트 프롬프트의 모델 점수를 보여줍니다. 보상(녹색)을 갖는 것이 CLIP 점수(빨간색)보다 일반적인 인간 의도와 더 일치합니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

위 내용은 ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제