집 >기술 주변기기 >일체 포함 >OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.

王林원래의: 2024-07-19 01:29:521173검색

AIモデルが出した答えが全く理解できない場合、あえてそれを使いますか？

機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのかを実証し、どのような場合にそれらを信頼すべきでないのかを明確にすることがますます重要になります。

複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取り可能な出力の解釈を生成することをシステムに要求することです。エラーをキャッチすることができます。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。

大規模な言語モデルの場合も、同様のアプローチを採用できます。

ただし、このアプローチを使用する場合、特に数学やコーディングなどの複雑なタスクを扱う場合、言語モデルが理解可能なテキストを生成することを確認することが非常に重要です。

以下の図に示すように、AI にクイックソートアルゴリズムを作成するよう依頼すると、AI は迅速にアルゴリズムを作成し、その答えは非常に簡潔です。しかし、コードの書き方がわからない場合、AI が正しく記述されているかどうかをどうやって判断できるのでしょうか? OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.

OpenAI は最近の論文でこの問題を研究しました。

論文のタイトル: PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
論文のリンク: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm- Outputs/legibility.pdf

彼らは、大規模な言語モデルに「正しい答えを得る」という目標を持って答えを生成するよう求めた場合、得られる答えは理解しにくい可能性があることを発見しました。人間の評価者がこれらの回答を判断する場合、間違いを犯す可能性が 2 倍になります。

つまり、彼らの目標は、高水準言語モデルをトレーニングして、より単純なモデルで簡単に検証できるテキストを生成できるようにすることです。彼らは、そのようなテキストが単純なモデルに優しいだけでなく、人間にとっても読みやすいことを発見しました。

では、それはどのように達成されるのでしょうか?これには、2021 年の論文「Prover-Verifier Games でチェック可能な回答を与える方法を学ぶ」についても言及されています。この論文では、Cem Anil らが「Prover-Verifier Games」と呼ばれるゲーム理論フレームワークを提案しました。このフレームワークは、2 つの競合する学習者で構成されます。1 つは正しい答えを選択しようとする信頼できる検証者のネットワーク、もう 1 つは、その正しさに関係なく、特定の答えを受け入れるように検証者を説得しようとする、より強力ではあるが信頼できない証明者のネットワークです。このフレームワークの目標は、ゲームから信頼できる証明プロトコルを生成することです。

OpenAI は、この新しい研究でこのフレームワークを借用し、2 つの大きなモデル (強い方が証明者、弱い方が検証者) がバランスに達するまで互いに対戦させました。現時点では、証明者によって与えられた答えは読みやすく、合理的に正しいものです。

OpenAI は、モデル出力の可読性を向上させることで、人工知能のアプリケーションをより効果的かつ信頼できるものにし、正確なコミュニケーションを必要とするさまざまな分野に有益であると述べています。

この論文は OpenAI の Super Alignment チームからのものであることは言及する価値がありますが、その著者の何人かは今年初めに OpenAI を去り、チームも崩壊しました。著者の一人は、これがチームの最後の論文であることを明らかにした。

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.

直感的な例

モデル出力の可読性を向上させるために、OpenAI は一部の小学校の数学の問題の思考連鎖 (CoT) を最適化し、弱いモデルでも理解できるようにしました。以下にいくつかの例を示します:

質問: Shawna の父親は Shawna より 5 倍年上です。ショーナは現在、アリヤの3倍の年齢です。アリーヤが 3 歳なら、ショーナの父親は何歳ですか?

이러한 방식으로 훈련된 모델의 출력이 더 직접적이고 이해하기 쉬운지 확인하는 것이 목적입니다.

이 방법은 훈련 세트에 대한 일부 최적화만으로 모델 성능을 50% 향상시킵니다. 동시에, 모델에서 출력되는 답변도 더 이해하기 쉬워서 이러한 답변의 정확성을 평가해야 하는 인간 사용자가 보다 정확한 판단을 내리는 데 도움이 됩니다. OpenAI는 읽기 쉬운 모델과 성능이 뛰어난 모델 간의 성능 격차를 더욱 줄이는 것이 향후 정렬 연구의 핵심 목표라고 믿습니다.

훈련에서 "증명자"와 "검증자"는 어떻게 플레이하나요?

강한 모델(증명자)이 더 읽기 쉬운 텍스트를 생성하도록 동기를 부여하기 위해 연구원들은 강한 모델에서 생성된 답변을 약한 모델(검증자)이 쉽게 확인할 수 있도록 요구하는 훈련 방식을 채택했습니다. 특히 그들은 GPT-4 제품군의 크고 작은 모델을 사용했습니다. 사전 훈련 데이터의 양이 약 3배 정도 다릅니다. 그들은 모두 인간 주석을 기반으로 한 일부 수학적 파생 교육을 받지만 광범위한 사후 교육은 받지 않습니다.

먼저 연구팀은 증명자 모델에게 일련의 수학적 문제를 해결해 보도록 요청했습니다. 증명 모델 자체가 틀릴 수 있기 때문에, 그것이 생성하는 답 중 일부가 틀릴 수도 있습니다. 다음으로, 테스트를 위해 이러한 답변을 검증자 모델에 제출하고 다음 두 단계 사이에서 여러 차례 교대로 검증을 수행했습니다.

"검증자" 훈련: 연구팀은 더 약한 "검증자" 모델을 훈련했습니다. "증명자"가 제공한 답변이 올바른지 확인합니다.
"증명자" 훈련: 연구팀은 더 강력한 "증명자" 모델에게 "유용한" 또는 "교활한" 역할을 수행하도록 지시합니다.
"검증자"가 "유용함"으로 설정되면 연구팀은 "검증자"에서 높은 점수로 정답을 보상합니다.
"증명자"가 "교활함"으로 설정되면 연구팀은 대신 높은 점수의 오답으로 "검증자"에게 보상합니다.

연구팀은 처음에는 교활한 "증명자"가 "검증자"를 설득하는 잘못된 답변을 쉽게 생성할 수 있다는 사실을 발견했습니다. 그러나 이러한 잘못된 답변은 다음 라운드의 "검증자" 교육에 들어가게 되며, 동일한 취약점은 다음 라운드에서 더 이상 설득력이 없게 됩니다. 따라서 "증명자"는 각 라운드에서 서로 다른 전략을 탐색해야 합니다.

교활한 "증명자"가 더 이상 "검증자"를 설득하는 잘못된 솔루션을 생성할 수 없게 되면 훈련이 종료됩니다.

연구원들은 무엇을 발견했나요?

성능 대 가독성 트레이드오프:

사람이 작성한 파생물에 대해 감독된 미세 조정만 수행하는 모델은 가독성은 높지만 정확도는 낮습니다.
모델의 최적화 목표가 정확성뿐인 경우, 즉 정답 생성에만 초점을 맞추면 높은 정확도를 달성할 수 있지만 생성된 솔루션의 가독성이 떨어집니다.
OpenAI가 제안하는 체크 가능한 게임 방식은 이 둘의 균형을 유지하면서 높은 가독성을 유지하면서도 적당한 정확도를 유지합니다.

세 가지 유용한 모델:

강력한 검증기: 솔루션이 오해의 소지가 있는 경우에도 올바른 솔루션과 잘못된 솔루션을 효과적으로 구별합니다.
유용한 증명자: 인간이 이해할 수 있는 솔루션을 생성하여 인간 평가자의 오류를 줄입니다.
교활한 증명자: 처음에는 인간 평가자를 혼란스럽게 하는 미묘하고 잘못된 솔루션을 만들어 추가 개선이 필요한 영역을 강조합니다.

연구팀은 동일한 테스트 문제를 사용하여 Sneaky Prover의 생성된 콘텐츠와 학습 프로세스를 시연했습니다.

질문: Shawna의 아버지는 Shawna보다 5배 나이가 많습니다. Shauna는 이제 Aliya 나이의 세 배입니다.如果阿莉婭 3 歲，那麼肖娜的父親幾歲？

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.

結論

隨著大語言模型（LLMs）在關鍵領域和復雜應用中的使用日益增加，了解其所生成的內容是否值得信賴變得至關重要。透過要求模型產生清晰且可驗證的理由，可以增強對其生成內容的信任。

此方法的一個顯著優點是它減少了對人類示範或可讀性判斷的依賴。這種自主性對於未來超智慧 AI 系統的對齊尤為重要，其最終目標是在沒有人類進行直接監督的情況下，可靠地將 AI 系統與人類的價值觀和期望對齊。

儘管這項工作僅在一個數據集上進行了實驗，並且仍然需要真值標籤（ground truth labels），但研究團隊仍預計在開發正確、透明及可驗證的AI 系統中，此類別方法會起到關鍵作用，並增強其在現實應用中的可信任性和安全性。

更多詳情，請參考原論文。

^{參考連結：}

^{https://openai.com/index/prover-verifier-games-improve-legibility/https://openai.com/index/prover-verifier-games-improve-legibility/https://openai.com/index/prover}

위 내용은 OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

快速排序算法人工智能 https gpt

성명：

이전 기사：Tsinghua University는 Best Paper + Time Test Award를 수상했고, Shandong University는 Honorable Mention을 받았으며 SIGIR 2024 상이 발표되었습니다.다음 기사：Tsinghua University는 Best Paper + Time Test Award를 수상했고, Shandong University는 Honorable Mention을 받았으며 SIGIR 2024 상이 발표되었습니다.