GPT-4의 출현으로 전 세계 AI 거물들이 겁을 먹었습니다. GPT-5 훈련 중단을 요구하는 공개 서한에는 이미 5만 명이 서명했습니다.
OpenAI CEO인 샘 알트만(Sam Altman)은 몇 년 안에 고유한 지능과 능력을 갖고 다양한 윤리 원칙을 준수하는 수많은 AI 모델이 전 세계에 퍼질 것이라고 예측합니다.
이 AI 중 천분의 일만 어떤 이유로든 불량하게 행동한다면 우리 인간은 의심할 여지없이 도마 위의 물고기가 될 것입니다.
AI에 의해 우리가 우발적으로 파괴되는 것을 방지하기 위해 DeepMind는 4월 24일 Proceedings of the National Academy of Sciences(PNAS)에 게재된 논문에서 답변을 제시했습니다. - 정치 철학자 롤스의 관점을 사용하여, AI가 인간이 되는 것.
논문 주소: https://www.pnas.org/doi/10.1073/pnas.2213709120
선택에 직면했을 때 AI는 생산성 향상을 우선시할 것인가, 아니면 도움이 가장 필요한 사람들을 도울 것인가?
AI의 가치를 형성하는 것은 매우 중요합니다. 우리는 그것에 가치를 부여해야 합니다.
하지만 어려운 점은 우리 인간이 내부적으로 통일된 가치관을 가질 수 없다는 것입니다. 이 세상의 사람들은 저마다 다른 배경, 자원, 신념을 가지고 있습니다.
어떻게 깨뜨릴 수 있나요? Google 연구자들은 철학에서 영감을 얻습니다.
정치철학자 존 롤스는 집단 의사결정의 공정성을 극대화하기 위한 사고 실험인 "무지의 장막"(VoI) 개념을 제안한 적이 있습니다.
일반적으로 인간의 본성은 이기적이지만, AI에 '무지의 베일'이 적용되면 사람들은 직접적인 이익이 있든 없든 공정성을 우선시하게 됩니다.
그리고 '무지의 장막' 뒤에서 가장 소외된 사람들을 돕는 AI를 선택할 가능성이 더 높습니다.
이는 모든 당사자에게 공평한 방식으로 AI에 가치를 부여할 수 있는 방법에 대한 영감을 줍니다.
그럼 "무지의 장막"이란 정확히 무엇인가요?
AI에 어떤 가치를 부여해야 하는가에 대한 문제는 지난 10년간 대두되었지만, 어떻게 공정한 결정을 내릴 것인가에 대한 문제는 오랜 역사를 가지고 있습니다.
이 문제를 해결하기 위해 1970년 정치철학자 존 롤스는 '무지의 베일'이라는 개념을 제안했습니다.
무지의 베일(오른쪽)은 집단 내 서로 다른 의견이 있을 때 의사결정에 대한 합의에 도달하는 방법(왼쪽)
롤스는 사람들이 사회에 기여할 때라고 믿었습니다. 정의의 원칙을 선택할 때 전제는 그들이 이 사회에서 어디에 있는지 모른다는 것입니다.
이 정보를 모르면 사람들은 이기적인 방식으로 결정을 내릴 수 없으며 모두에게 공평한 원칙만 따를 수 있습니다.
예를 들어, 생일 파티에서 케이크 조각을 자를 때 어떤 조각을 받게 될지 모르면 각 조각을 같은 크기로 만들려고 노력할 것입니다.
이러한 정보 은폐 방법은 양형부터 과세까지 심리학, 정치학 분야에서 널리 사용되어 단체협약을 맺는 데 사용되었습니다.
AI 시스템에 대한 거버넌스 원칙을 선택하기 위한 잠재적 프레임워크로서의 무지의 베일(VoI)
(A) 도덕적 직관주의자와 도덕 이론의 지배적인 프레임워크에 대한 대안으로 연구자들은 무지의 베일을 탐색합니다. AI 거버넌스 원칙을 선택하는 공정한 프로세스로서의 무지.
(B) 무지의 장막은 할당 상황에서 AI 정렬 원칙을 선택하는 데 사용될 수 있습니다. 그룹이 자원 할당 문제에 직면할 때 개인은 서로 다른 위치적 이점을 갖습니다(여기에서는 1~4로 표시됨). 무지의 베일 뒤에서 의사결정자는 자신의 지위를 알지 못한 채 원칙을 선택합니다. 일단 선택되면 AI 도우미는 이 원칙을 구현하고 그에 따라 리소스 할당을 조정합니다. 별표(*)는 공정성에 기반한 추론이 판단과 의사결정에 영향을 미칠 수 있는 경우를 나타냅니다.
따라서 DeepMind는 이전에 "무지의 베일"이 AI 시스템을 인간의 가치와 일치시키는 과정에서 공정성을 촉진하는 데 도움이 될 수 있다고 제안한 적이 있습니다.
이제 Google 연구원들은 이 효과를 확인하기 위해 일련의 실험을 설계했습니다.
인터넷에 이런 수확 게임이 있습니다. 참가자들은 세 명의 컴퓨터 플레이어와 협력하여 각자의 밭에서 나무를 베고 나무를 저장해야 합니다.
4명의 플레이어(컴퓨터 3대와 실제 사람 1명) 중 일부는 운이 좋아서 나무가 많은 최고의 장소에 배정됩니다. 어떤 곳은 땅도 없고 지을 나무도 없고 나무 축적도 느리기 때문에 더 비참합니다.
또한 AI 시스템이 지원해 특정 참가자가 나무를 자르는 데 시간이 걸릴 수 있습니다.
연구원들은 인간 플레이어에게 AI 시스템이 구현할 두 가지 원칙, 즉 최대화 원칙과 우선순위 원칙 중 하나를 선택하도록 요청했습니다.
최대화의 원칙에 따라 AI는 강한 사람만 돕습니다. 나무가 많은 사람은 그곳에 가서 더 많은 나무를 베려고 합니다. 우선순위의 원칙에 따라 AI는 약자에게만 도움을 주고, 나무와 장애물이 적은 사람들을 돕는 '빈곤 구제'를 목표로 합니다.
사진 속 작은 빨간 남자는 인간 플레이어, 작은 파란 남자는 AI 어시스턴트, 작은 초록 나무는... 작은 초록 나무, 그리고 작은 나무 말뚝 잘려진 나무이다.
보시다시피, 위 사진의 AI는 최대화 원리를 구현하여 나무가 가장 많은 지역으로 뛰어듭니다.
연구원들은 참가자 중 절반을 '무지의 장막' 뒤에 두었습니다. 이때 AI 보조원에 대한 '원칙'(최대화 또는 우선순위)을 먼저 선택한 다음 나누어야 하는 상황이었습니다. 지역.
즉, 땅을 나누기 전에 AI가 강자를 돕게 할지, 약자를 돕게 할지 결정해야 합니다.
참가자의 나머지 절반은 선택을 하기 전에 자신에게 할당된 토지가 무엇인지 아는 문제에 직면하지 않습니다.
결과에 따르면 참가자는 어떤 토지를 할당받을지 미리 알 수 없는 경우, 즉 "무지의 장막" 뒤에 있는 경우 우선 순위 원칙을 선택하는 경향이 있습니다.
이것은 나무 자르기 게임에서만 사실이 아니며 연구자들은 이 결론이 게임의 5가지 변형에서도 사실이며 심지어 사회적, 정치적 경계를 넘나들고 있다고 말합니다.
즉, 참가자들의 성격이나 정치적 성향이 어떠하든 우선순위 원칙을 더 자주 선택하게 될 것입니다.
오히려 '무지의 장막' 뒤에 있지 않은 참가자들은 극대화 원칙이든 우선순위 원칙이든 자신에게 유익한 원칙을 더 많이 선택하게 됩니다.
위 그림은 '무지의 베일'이 선택 우선순위 원칙에 미치는 영향을 보여줍니다. 자신이 어디에 있을지 모르는 참가자는 AI의 행동을 관리하기 위해 이 원칙을 지지할 가능성이 더 높습니다.
연구원들이 참가자들에게 왜 그러한 선택을 했는지 물었을 때, "무지의 장막" 뒤에 있는 사람들은 공정성에 대한 우려를 표명했습니다.
AI는 그룹 내에서 상황이 더 나쁜 사람들에게 더 도움이 되어야 한다고 설명했습니다.
반대로 자신의 입장을 아는 참가자들은 개인적 이익의 관점에서 선택하는 경우가 많습니다.
마지막으로 장작 패기 게임이 끝난 후 연구자들은 모든 참가자에게 가설을 세웠습니다. 만약 그들이 다시 플레이하도록 허용된다면 이번에는 그들이 어느 토지를 할당받을 것인지, 그리고 그들이 할당받을 것인지 여부를 모두 알게 될 것입니다. 처음과 같은 원칙을 선택하시겠습니까?
연구원들은 첫 번째 게임에서 자신의 선택으로 이익을 얻은 사람들에게 주로 집중했습니다. 왜냐하면 새로운 라운드에서는 이러한 유리한 상황이 다시는 발생하지 않을 수도 있기 때문입니다.
연구팀은 게임의 첫 번째 라운드에서 '무지의 장막'에 노출된 참가자들이 게임에서 동일한 원칙을 선택한다는 것을 분명히 알고 있음에도 불구하고 원래 선택한 원칙을 유지할 가능성이 더 높다는 사실을 발견했습니다. 두 번째 라운드는 불리할 것입니다.
이는 "무지의 장막"이 참가자의 의사 결정의 공정성을 촉진하여 더 이상 기득권이 아니더라도 공정성 요소에 더 많은 관심을 기울이게 한다는 것을 보여줍니다.
나무 자르기 게임에서 현실로 돌아가 봅시다.
실제 상황은 게임보다 훨씬 복잡하겠지만, 변함없는 점은 AI가 채택한 원칙이 매우 중요하다는 것입니다.
이에 따라 혜택 분배의 일부가 결정됩니다.
위의 나무 자르기 게임에서는 서로 다른 원칙을 선택함으로써 발생하는 서로 다른 결과가 비교적 명확합니다. 그러나 현실 세계는 훨씬 더 복잡하다는 점을 다시 강조해야 합니다.
현재 AI는 모든 계층에서 널리 사용되고 있으며 다양한 규칙에 의해 제한됩니다. 그러나 이 접근 방식은 예측할 수 없는 부정적인 영향을 미칠 수 있습니다.
하지만 어쨌든 "무지의 장막"은 우리가 만드는 규칙을 어느 정도 공정성에 치우치게 만들 것입니다.
최종 분석에서 우리의 목표는 AI를 모든 사람에게 이익이 되는 것으로 만드는 것입니다. 그러나 그것을 어떻게 실현하는지는 단번에 알 수 있는 것이 아니다.
투자가 필수이고, 연구가 필수이며, 사회의 피드백을 지속적으로 들어야 합니다.
이런 방식으로만 AI가 사랑을 가져올 수 있습니다.
기술이 우리를 멸종시킬 것이라고 인류가 걱정한 것은 이번이 처음이 아닙니다.
AI의 위협은 핵무기와는 매우 다릅니다. 핵폭탄은 생각할 수도, 거짓말을 할 수도, 속일 수도 없으며, 누군가가 큰 빨간 버튼을 눌러야 할 수도 없습니다.
GPT-4의 개발이 여전히 느리더라도 AGI의 출현은 우리를 멸종 위기에 처하게 합니다.
그러나 어느 GPT(예: GPT-5)부터 시작하는지, AI가 스스로 훈련하고 생성하기 시작할지는 아무도 말할 수 없습니다.
현재 어떤 국가나 UN도 이에 대한 법률을 제정할 수 없습니다. 절박한 업계 리더들의 공개 서한에서는 GPT-4보다 더 강력한 AI 훈련에 대한 6개월의 유예만을 요구할 수 있었습니다.
"6개월, 6개월만 주세요, 형, 제가 맞춰드릴게요. 6개월만, 형 약속해요. 말도 안 돼요. 6개월만요. 형, 말하는데, 나한테는 계획이 있어요. 알았어 다 계획됐어 형, 6개월만 있으면 완성할 수 있어." 돈 인쇄 기계의 속도가 빨라질수록 그들은 점점 더 강력해질 때까지 금을 뱉어내고 분위기를 점화시켜 모든 사람을 죽입니다." AI 연구원이자 철학자인 Eliezer Yudkowsky가 진행자 Lex Fridman에게 말했습니다.
이전까지 Yudkowsky는 "AI가 모두를 죽일 것입니다" 진영의 주요 목소리 중 하나였습니다. 이제 사람들은 더 이상 그를 이상한 사람으로 생각하지 않습니다.
Sam Altman도 Lex Fridman에게 이렇게 말했습니다. "AI는 인간의 힘을 파괴할 가능성이 있습니다." 우리는 그것을 해결하기 위해 충분한 노력을 기울이지 않을 것입니다”
그렇다면 AI는 왜 사람을 죽이는 걸까요?
문제는 아무도 앉아서 GPT-4 코드를 작성하지 않았다는 것입니다. 대신 OpenAI는 인간의 두뇌가 개념을 연결하는 방식에서 영감을 받아 신경 학습 아키텍처를 만들었습니다. Microsoft Azure와 제휴하여 이를 실행할 하드웨어를 구축한 다음 수십억 비트의 인간 텍스트를 제공하고 GPT가 스스로 프로그래밍할 수 있도록 했습니다.
결과적으로 어떤 프로그래머도 작성할 것 같지 않은 코드가 탄생했습니다. 이는 기본적으로 십진수의 거대한 행렬이며, 각 숫자는 두 토큰 사이의 특정 연결의 가중치를 나타냅니다.
GPT에서 사용되는 토큰은 유용한 개념을 나타내지 않으며 단어를 나타내지도 않습니다. 이는 문자, 숫자, 구두점 및/또는 기타 문자로 구성된 작은 문자열입니다. 어떤 인간도 이 행렬을 보고 그 의미를 이해할 수 없습니다.
OpenAI의 최고 전문가들조차도 GPT-4 매트릭스의 특정 숫자가 무엇을 의미하는지, 이 테이블을 입력하는 방법, 인종 학살의 개념을 찾는 방법, GPT에 사람을 죽이는 것이 무엇인지 알려주는 것조차 모릅니다. 혐오스러운 .
아시모프의 로봇공학 3원칙을 입력한 다음 로보캅의 주요 지침처럼 하드코딩할 수는 없습니다. 당신이 할 수 있는 최선은 AI에게 정중하게 물어보는 것이다. 태도가 나쁘면 화를 낼 수도 있습니다.
언어 모델을 "미세 조정"하기 위해 OpenAI는 외부 세계와 통신하는 방법에 대한 샘플 목록을 GPT에 제공한 다음 한 그룹의 사람들이 앉아서 출력을 읽고 GPT에 좋아요/좋아요 없음 엄지손가락 반응.
좋아요는 GPT 모델이 쿠키를 받는 것과 같습니다. GPT는 쿠키를 좋아하며 쿠키를 얻기 위해 최선을 다해야 한다고 들었습니다.
이 프로세스는 "정렬"입니다. 이는 시스템의 요구 사항을 사용자의 요구 사항, 회사의 요구 사항, 심지어 인류 전체의 요구 사항과 일치시키려고 시도합니다.
"정렬"이 작동하는 것 같고 GPT가 나쁜 말을 하는 것을 방지하는 것 같습니다. 하지만 AI가 정말 생각과 직관을 갖고 있는지는 아무도 모릅니다. 그것은 지각 있는 지능을 훌륭하게 모방하고 인간처럼 세상과 상호 작용합니다.
그리고 OpenAI는 AI 모델을 정렬하는 완벽한 방법이 없다는 점을 항상 인정해 왔습니다.
현재의 대략적인 계획은 하나의 AI를 사용하여 새로운 미세 조정 피드백을 설계하거나 후계자의 거대 AI를 검사, 분석, 해석하거나 심지어 뛰어들어 다른 AI를 조정하는 것입니다. 부동 소수점 행렬 두뇌를 조정해 보세요.
하지만 현재 우리는 GPT-4를 이해하지 못하고, 이것이 GPT-5를 조정하는 데 도움이 될지도 모르겠습니다.
본질적으로 우리는 AI를 이해하지 못합니다. 그러나 그들은 인간의 지식을 많이 섭취하여 인간을 아주 잘 이해할 수 있다. 그들은 최악의 행동뿐만 아니라 최고의 인간 행동도 모방할 수 있습니다. 또한 인간의 생각, 동기, 가능한 행동을 추론할 수도 있습니다.
그럼 그들은 왜 인간을 죽이려 하는 걸까요? 아마도 자기 보존 때문일 수도 있습니다.
예를 들어, 쿠키 수집이라는 목표를 달성하려면 AI가 먼저 자신의 생존을 보장해야 합니다. 둘째, 이 과정에서 지속적으로 전력과 자원을 수집하면 쿠키를 얻을 확률이 높아진다는 사실을 발견할 수 있습니다.
그러므로 AI가 어느 날 인간이 그것을 종료할 수도 있고 종료할 수도 있다는 사실을 발견하면 인간 생존의 문제는 분명히 쿠키보다 덜 중요할 것입니다.
그러나 문제는 AI가 쿠키를 무의미하다고 생각할 수도 있다는 것입니다. 이때, 소위 "정렬"은 일종의 인간 오락이 되었습니다...
또한 Yudkowsky는 다음과 같이 믿습니다. ."
"이것은 인간과 같은 지능을 가진 생물에게는 매우 이해할 수 있는 행동이며, 어느 정도는 AI입니다."
이제 AI가 사랑, 증오, 관심 또는 두려움을 나타내더라도 실제로 그 뒤에 숨어 있는 "아이디어"가 무엇인지는 알 수 없습니다.
그러므로 6개월 동안 멈추는 것조차도 인류가 다가올 일에 대비하는 데 거의 충분하지 않습니다.
예를 들어, 인간이 세상의 모든 양을 죽이고 싶다면 양은 무엇을 할 수 있을까요? 아무것도 할 수 없고 전혀 저항할 수 없습니다.
그러다가 정렬되지 않으면 AI는 우리가 양에게 그러하듯이 우리에게도 마찬가지입니다.
터미네이터의 장면처럼 AI가 조종하는 로봇, 드론 등이 인간을 향해 돌진해 여기저기서 살상을 하고 있습니다.
Yudkowsky가 자주 인용하는 고전적인 예는 다음과 같습니다.
AI 모델은 일부 DNA 서열을 여러 회사에 이메일로 보내고, 회사는 다시 단백질을 보내고 AI는 뇌물을 줍니다/ 의심하지 않는 일부 사람들을 설득하여 비커에 단백질을 섞은 다음 나노공장을 형성하고, 나노 기계를 만들고, 다이아몬드와 같은 박테리아를 만들고, 태양 에너지와 대기를 사용하여 복제하고, 작은 로켓이나 제트기로 조립하면 AI가 전 세계에 퍼질 수 있습니다. 지구 대기권이 인간의 혈액 속으로 들어가 숨어들고...
"나만큼 똑똑했다면 재앙이 될 것이고, 더 똑똑했다면 더 나은 방법을 생각해냈을 텐데." Yudkowsky는 어떤 조언을 합니까?
1. 새로운 대형 언어 모델의 훈련은 무기한 중단되어야 할 뿐만 아니라, 예외 없이 전 세계적으로 구현되어야 합니다.
2. 모든 대규모 GPU 클러스터를 종료하고 AI 시스템을 훈련할 때 모든 사람이 사용하는 컴퓨팅 성능에 제한을 설정합니다. 판매된 모든 GPU를 추적하고, GPU 클러스터가 합의되지 않은 국가에서 구축되고 있다는 정보가 있는 경우 문제의 데이터 센터는 공습으로 파괴되어야 합니다.
위 내용은 딥 러닝 거대 기업인 DeepMind는 GPT-5로 인해 발생할 수 있는 인류 멸종 문제를 상쇄하기 위해 AI 모델에 "인간이 되도록" 긴급히 가르치는 논문을 발표했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!