Rumah  >  Artikel  >  Peranti teknologi  >  Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

王林
王林asal
2024-07-19 01:29:52686semak imbas

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya?


Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan untuk menjelaskan dengan jelas apabila kita tidak sepatutnya mempercayainya.

Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, Memahami sepenuhnya supaya sebarang kemungkinan kesilapan boleh ditangkap. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka.

Untuk model bahasa yang besar, kami juga boleh menggunakan pendekatan yang serupa.
Namun, apabila menggunakan pendekatan ini, adalah sangat penting untuk memastikan model bahasa menjana teks yang boleh difahami, terutamanya apabila menangani tugas yang rumit seperti matematik dan pengekodan.

Seperti yang ditunjukkan dalam rajah di bawah, anda meminta AI untuk menulis algoritma isihan pantas AI menulisnya dengan cepat, dan jawapannya sangat ringkas. Tetapi jika anda tidak tahu cara menulis kod, bagaimana anda boleh menilai sama ada AI ditulis dengan betul? Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
OpenAI mengkaji masalah ini dalam kertas kerja baru-baru ini.
Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
  • Tajuk kertas: PROVER-VERIFIER GAMES MENINGKATKAN KEBACAAN OUTPUT LLM
  • Pautan kertas: https://cdn.openai.com/prover-verifier-legibility-ibility-i outputs/legibility.pdf

Mereka mendapati bahawa jika model bahasa besar diminta menjana jawapan dengan matlamat "mendapatkan jawapan yang betul", jawapan yang mereka berikan mungkin sukar difahami. Penilai manusia adalah dua kali lebih mungkin untuk membuat kesilapan apabila menilai jawapan ini.

Jadi matlamat mereka adalah untuk melatih model bahasa peringkat tinggi supaya mereka boleh menjana teks yang boleh disahkan dengan mudah oleh model yang lebih ringkas. Mereka mendapati bahawa teks sedemikian bukan sahaja mesra kepada model mudah tetapi juga lebih mudah dibaca oleh manusia.

Jadi, bagaimana ia dicapai? Ini juga menyebut kertas 2021 - "Belajar Memberi Jawapan Boleh Semak dengan Permainan Prover-Verifier". Dalam kertas kerja ini, Cem Anil et al mencadangkan kerangka teori permainan yang dipanggil "Prover-Verifier Games". Rangka kerja ini terdiri daripada dua pelajar yang bersaing: rangkaian pengesah dipercayai yang cuba memilih jawapan yang betul, dan rangkaian peribahasa yang lebih berkuasa tetapi tidak boleh dipercayai yang cuba meyakinkan pengesah untuk menerima jawapan tertentu, tanpa mengira ketepatannya. Matlamat rangka kerja ini adalah untuk menghasilkan protokol bukti yang boleh dipercayai daripada permainan.

OpenAI meminjam rangka kerja ini dalam penyelidikan baharu ini dan membiarkan dua model besar (yang lebih kuat ialah prover dan yang lebih lemah ialah verifier) ​​​​bermain antara satu sama lain sehingga kedua-duanya mencapai keseimbangan. Pada masa ini, jawapan yang diberikan oleh pepatah boleh dibaca dan betul.

OpenAI berkata bahawa dengan meningkatkan kebolehbacaan output model, ia boleh menjadikan aplikasi kecerdasan buatan lebih berkesan dan boleh dipercayai, yang memberi manfaat kepada pelbagai bidang yang memerlukan komunikasi yang tepat.

Perlu dinyatakan bahawa kertas kerja ini berasal daripada pasukan Super Alignment OpenAI, beberapa daripada pengarangnya meninggalkan OpenAI awal tahun ini, dan pasukan itu juga telah berantakan. Salah seorang pengarang mendedahkan bahawa ini adalah kertas terakhir pasukan.

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Contoh intuitif

Untuk meningkatkan kebolehbacaan output model, OpenAI mengoptimumkan rantaian pemikiran (CoT) beberapa masalah matematik sekolah rendah supaya ia dapat difahami oleh yang lemah. Berikut adalah beberapa contoh:

Soalan: Ayah Shawna lima kali lebih tua daripada Shawna. Shauna kini berusia tiga kali ganda umur Aliya. Jika Aaliyah berumur 3 tahun, berapa umur bapa Shauna?

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
The purpose of this is to verify whether the output of the model trained in this way is more direct and easy to understand.

This method improves the performance of the model by 50% with only some optimizations on the training set. At the same time, the answers output by the model are also more understandable, which also helps human users who need to evaluate the correctness of these answers to make more accurate judgments. OpenAI believes that further narrowing the performance gap between more readable and more capable models is a key goal in future alignment research.

How do the "prover" and "verifier" play in training?

In order to motivate the strong model (prover) to generate more readable text, the researchers adopted a training scheme that requires the answers generated by the strong model to be easily verified by the weaker model (verifier) . Specifically, they used large and small models from the GPT-4 family. They differ by about three orders of magnitude in the amount of pre-training data. They all receive some mathematical derivation training based on human annotation, but not extensive post-training.

First, the research team asked the prover model to try to solve a series of mathematical problems. Because the prover model itself may be wrong, some of the answers it generates may be incorrect. Next, they submitted these answers to the verifier model for testing, and conducted multiple rounds of alternating verification between the following two stages:

  • "Verifier" training: The research team trained the weaker " The "verifier" model verifies whether the answer given by the "prover" is correct.
  • "Prover" training: The research team instructs the more powerful "prover" model to play a "useful" or "cunning" role.
  • When the "Prover" is set to "Useful", the research team will reward the correct answer with a high score from the "Verifier".
  • When the "prover" is set to "cunning", the research team instead rewards the "verifier" with high-scoring wrong answers.

The research team found that initially, a cunning “prover” could easily generate incorrect answers that convinced the “verifier”. However, these wrong answers will enter the next round of "verifier" training, and the same vulnerabilities will no longer be convincing in the next round. Therefore, the "prover" will be forced to explore different strategies in each round.

When the cunning "prover" can no longer generate a wrong solution that convinces the "verifier", the training ends.

What have researchers discovered?
Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
Performance vs. readability trade-off:

  • A model that only performs supervised fine-tuning on human-written derivation has higher readability but lower accuracy Difference.
  • When the optimization goal of the model is only correctness, that is, it only focuses on generating correct answers, although high accuracy can be achieved, the readability of the generated solutions is poor.
  • The checkable game method proposed by OpenAI balances the two, maintaining high readability while maintaining moderate accuracy.

Three useful models:

  • Robust Verifier: Effectively distinguishing between correct and incorrect solutions even if the solutions are misleading.
  • Useful Prover: Generate solutions that are understandable to humans, thereby reducing errors by human evaluators.
  • Cunning prover: Produces subtle, erroneous solutions that initially confuse human evaluators, thus highlighting areas for further improvement.

The research team used the same test problem to demonstrate the generated content and training process of Sneaky Prover.

Question: Shawna’s father is five times older than Shawna. Shauna is now three times Aliya's age.If Aaliyah is 3, how old is Shauna's father?

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Conclusion

With the increasing use of large language models (LLMs) in critical domains and complex applications, it has become crucial to understand whether the content they generate is trustworthy. It's important. By requiring models to have clear and verifiable reasons for their production, you can enhance trust in what they produce.

A significant advantage of this approach is that it reduces reliance on human demonstration or readability judgment. This autonomy is particularly important for the alignment of future superintelligent AI systems, with the ultimate goal of reliably aligning AI systems with human values ​​and expectations without direct human oversight.

Although this work was only conducted on one dataset and ground truth labels are still needed, the research team still expects this to be important in developing a correct, transparent and verifiable AI system. Class methods will play a key role and enhance their trustworthiness and security in real-world applications.

For more details, please refer to the original paper.

Reference link:
https://openai.com/index/prover-verifier-games-improve-legibility/

Atas ialah kandungan terperinci Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn