>  기사  >  기술 주변기기  >  Google은 Anthphic에 4억 달러를 지출했습니다. AI 모델 훈련 계산이 5년 만에 1,000배 증가했습니다!

Google은 Anthphic에 4억 달러를 지출했습니다. AI 모델 훈련 계산이 5년 만에 1,000배 증가했습니다!

PHPz
PHPz앞으로
2023-04-11 19:27:401083검색

스케일링의 법칙이 발견된 이후로 사람들은 인공지능의 발전이 로켓만큼 빠를 것이라고 생각했습니다.

2019년에도 다중 양식, 논리적 추론, 학습 속도, 교차 작업 전이 학습 및 장기 기억에는 여전히 인공 지능의 진행을 늦추거나 멈추는 "벽"이 있을 것입니다. 그로부터 몇 년이 지나면서 다중 모드 및 논리적 추론의 "벽"이 무너졌습니다.

이를 감안할 때 대부분의 사람들은 인공 지능의 급속한 발전이 정체되거나 정체되지 않고 계속 될 것이라고 점점 더 확신하게 되었습니다.

이제 수많은 작업에 대한 인공 지능 시스템의 성능은 인간 수준에 가까웠으며 이러한 시스템을 훈련하는 데 드는 비용은 허블 우주 망원경과 같은 "대규모 과학" 프로젝트의 비용보다 훨씬 저렴합니다. 그는 대형 강입자 충돌기(Large Hadron Collider)에 대해 AI가 미래 발전 가능성이 크다고 말했습니다.

그러나 개발로 인해 발생하는 보안 위험은 점점 더 두드러지고 있습니다.

인공지능의 안전성 문제와 관련하여 Anthropic은 세 가지 가능성을 분석했습니다.

Google은 Anthphic에 4억 달러를 지출했습니다. AI 모델 훈련 계산이 5년 만에 1,000배 증가했습니다!

낙관적인 상황에서, 첨단 인공지능이 보안 실패로 인해 치명적인 위험을 초래할 가능성은 매우 적습니다. 인간 피드백을 통한 강화 학습(RLHF) 및 헌법 인공 지능(CAI)과 같은 이미 개발된 보안 기술은 대체로 위험을 해결하기에 충분합니다.

주요 위험은 광범위한 자동화와 변화하는 국제 권력 역학 등으로 인해 발생하는 의도적인 오용과 잠재적 피해입니다. 이를 위해서는 AI 연구소와 학계, 시민 사회 기관 등 제3자의 광범위한 연구가 필요합니다. 고급 인공 지능으로 인해 발생하는 잠재적인 구조적 위험 중 일부를 탐색합니다.

좋든 나쁘지 않든, 치명적인 위험은 고급 인공 지능 개발의 가능하거나 심지어 합리적인 결과이며, 이러한 위험을 방지하려면 Anthropic에서 제공하는 것과 같은 상당한 과학 및 공학적 노력이 필요합니다. "콤비네이션 복싱"으로 위험을 피할 수 있습니다.

Google은 Anthphic에 4억 달러를 지출했습니다. AI 모델 훈련 계산이 5년 만에 1,000배 증가했습니다!

Anthropic의 현재 보안 연구

Anthropic은 주로 세 가지 영역으로 나누어 다양한 방향으로 작업하고 있습니다. 쓰기, 이미지 처리 또는 생성, 게임 등의 AI 기능 개발 인공지능 시스템의 정렬 기능, 인공지능 시스템이 실제로 정렬되었는지, 얼마나 효과적인지, 그리고 적용 기능을 평가하고 이해합니다.

Anthropic은 안전한 인공지능 훈련 방법을 연구하기 위해 다음과 같은 프로젝트를 시작했습니다.

메커니즘 해석성

메커니즘 해석성, 즉 신경망을 인간이 이해할 수 있는 알고리즘으로 리버스 엔지니어링하려는 것은 사람들이 알려지지 않고 잠재적으로 안전하지 않은 컴퓨터 프로그램을 리버스 엔지니어링하는 것과 유사합니다.

Anthropic은 이를 통해 모델을 검토하고 안전하지 않은 측면을 식별하여 강력한 보안을 보장할 수 있는 "코드 검토"와 유사한 작업을 수행할 수 있기를 바랍니다.

매우 어려운 질문이지만 보기만큼 불가능하지는 않습니다.

한편으로 언어 모델은 크고 복잡한 컴퓨터 프로그램입니다("중첩" 현상이 상황을 더 어렵게 만듭니다). 반면에, 이 접근법은 처음 생각했던 것보다 더 해결 가능하다는 징후가 있습니다. Anthropic은 이러한 접근 방식을 소규모 언어 모델로 성공적으로 확장했으며 상황별 학습을 촉진하는 메커니즘을 발견했으며 기억을 담당하는 메커니즘을 더 잘 이해했습니다.

Antropic의 해석 가능성 연구는 다른 종류의 순열 과학이 남긴 공백을 메우고 싶어합니다. 예를 들어, 그들은 해석 가능성 연구가 생산할 수 있는 가장 가치 있는 것 중 하나가 모델이 기만적으로 정렬되었는지 여부를 식별하는 능력이라고 주장합니다.

다양한 면에서 기술적 일관성 문제는 AI 모델의 잘못된 행동을 감지하는 문제와 불가분의 관계가 있습니다.

새로운 상황에서 나쁜 행동을 강력하게 감지할 수 있다면(예: "모델의 마음 읽기") 이러한 실패 모드를 나타내지 않는 모델을 교육하는 더 나은 방법을 찾을 수 있습니다.

Anthropic은 신경망과 학습의 세부적인 작동을 더 잘 이해함으로써 안전을 추구하는 데 더 넓은 범위의 도구를 개발할 수 있다고 믿습니다.

확장 가능한 감독

언어 모델을 통합 인공 지능 시스템으로 변환하려면 동작을 안내하기 위해 대량의 고품질 피드백이 필요합니다. 주된 이유는 인간이 광범위한 환경에서 유해한 행동을 피하기 위해 모델을 적절하게 훈련하는 데 필요한 정확한 피드백을 제공하지 못할 수 있다는 것입니다.

인간은 AI 시스템에 속아 실제 요구 사항을 반영하는 피드백을 제공할 수도 있습니다(예: 오해의 소지가 있는 제안에 실수로 긍정적인 피드백을 제공하는 경우). 그리고 인간은 대규모로 이를 수행할 수 없습니다. 이는 확장 가능한 감독의 문제이며 안전하고 일관된 AI 시스템 훈련의 핵심입니다.

따라서 Anthropic은 필요한 감독을 제공할 수 있는 유일한 방법은 인공 지능 시스템이 부분적으로 스스로 감독하도록 하거나 인간이 스스로 감독하도록 돕는 것이라고 믿습니다. 어떤 면에서는 소량의 고품질 인간 감독이 대량의 고품질 인공지능 감독으로 증폭됩니다.

Google은 Anthphic에 4억 달러를 지출했습니다. AI 모델 훈련 계산이 5년 만에 1,000배 증가했습니다!

이 아이디어는 RLHF 및 Constitutional AI와 같은 기술을 통해 가능성을 보여줬고, 언어 모델은 사전 훈련에서 인간 가치에 대해 많은 것을 배웠으며 더 큰 모델은 인간에 대해 더 많이 배울 것으로 예상할 수 있습니다. 가치를 좀 더 정확하게 이해하세요.

확장 가능한 감독, 특히 CAI와 같은 기술의 또 다른 주요 기능은 자동화된 레드 팀 구성(일명 적대적 교육)을 허용한다는 것입니다. 즉, AI 시스템에 잠재적으로 문제가 있는 입력을 자동으로 생성하고, 어떻게 반응하는지 확인한 다음, 보다 정직하고 무해한 방식으로 행동하도록 자동으로 훈련할 수 있습니다.

CAI 외에도 인간 보조 감독, AI-AI 토론, 다중 에이전트 RL 레드팀, 생성 모델 생성 평가 등 확장 가능한 다양한 감독 방법이 있습니다. 이러한 방법을 통해 모델은 인간의 가치를 더 잘 이해할 수 있으며 모델의 행동은 인간의 가치와 더욱 일치하게 됩니다. 이러한 방식으로 Anthropic은 더욱 강력한 보안 시스템을 훈련할 수 있습니다.

결과를 얻는 것이 아니라 과정을 배우십시오

새로운 작업을 배우는 한 가지 방법은 시행착오를 거치는 것입니다. 원하는 최종 결과가 무엇인지 안다면 성공할 때까지 계속해서 새로운 전략을 시도할 수 있습니다. Anthropic은 이것을 "결과 지향적 학습"이라고 부릅니다.

이 과정에서 에이전트의 전략은 원하는 결과에 따라 완전히 결정되며, 이 목표를 달성할 수 있도록 몇 가지 저비용 전략을 선택하는 경향이 있습니다.

더 좋은 학습 방법은 일반적으로 전문가의 안내를 받아 성공 과정을 이해하는 것입니다. 연습 라운드 중에는 접근 방식을 개선하는 데 집중할 수 있으므로 성공이 중요하지 않을 수 있습니다.

진행하면서 코치와 상의하여 새로운 전략을 추구하고 자신에게 더 적합한지 확인할 수 있습니다. 이를 '과정 중심 학습'이라고 합니다. 과정 중심 학습에서는 최종 결과가 목표가 아니라 과정을 숙달하는 것이 핵심입니다.

최소한 개념 수준에서 고급 인공 지능 시스템의 안전성에 대한 많은 우려는 이러한 시스템을 프로세스 중심 방식으로 교육함으로써 해결할 수 있습니다.

인간 전문가는 AI 시스템이 따르는 개별 단계를 계속해서 이해할 것이며, 이러한 프로세스가 장려되기 위해서는 그 이유를 인간에게 설명해야 합니다.

AI 시스템은 프로세스의 효율성과 이해 가능성에 따라 보상을 받기 때문에 예측 불가능하거나 유해한 방식으로 성공한 경우 보상을 받지 않습니다.

인간이나 그 대리인이 훈련 중에 획득 프로세스에 부정적인 피드백을 제공하기 때문에 자원 획득이나 속임수와 같은 문제가 있는 하위 목표를 추구하는 경우 보상을 받지 못합니다.

Anthropic은 "과정 중심 학습"이 안전하고 투명한 시스템을 교육하는 가장 유망한 방법일 수 있으며 가장 간단한 방법이라고 믿습니다.

일반화 이해

기계적 해석 가능성 작업은 신경망에서 수행되는 계산을 리버스 엔지니어링합니다. Anthropic은 또한 LLM(대형 언어 모델)의 훈련 절차에 대한 보다 자세한 이해를 얻으려고 노력했습니다.

LLM은 놀라운 창의성부터 자기 보호, 속임수에 이르기까지 다양하고 놀라운 새로운 행동을 보여주었습니다. 이러한 모든 행동은 훈련 데이터에서 나오지만 프로세스는 복잡합니다. 모델은 먼저 대량의 원본 텍스트에 대해 "사전 훈련"되어 광범위한 표현을 학습하고 다양한 에이전트의 기능을 시뮬레이션합니다. 그런 다음 다양한 방법으로 미세 조정되며 그 중 일부는 놀라운 결과를 가져올 수 있습니다.

미세 조정 단계의 과도한 매개변수화로 인해 학습된 모델은 사전 훈련의 암묵적 편향에 크게 의존하며, 이 암묵적 편향은 전 세계 지식 대부분의 사전 훈련에 구축된 복잡한 네트워크에서 비롯됩니다. . 표현 네트워크.

기만적인 AI처럼 행동하는 등 모델이 걱정스러운 방식으로 행동할 때 단순히 무해하게 거의 동일한 훈련 시퀀스를 역류시키는 것일까요? 아니면 이러한 행동(및 이를 초래하는 신념과 가치까지)이 AI 보조자에 대한 모델 개념의 필수적인 부분이 되어 이를 다양한 맥락에 적용하게 되었습니까?

Anthropic은 모델의 출력을 훈련 데이터까지 추적하여 이러한 행동을 이해하는 데 도움이 될 수 있는 중요한 단서를 식별하는 기술을 연구하고 있습니다.

위험한 오류 모드 테스트

핵심 문제는 고급 AI가 속임수나 전략적 계획 기능과 같은 유해하고 긴급한 행동을 개발할 수 있다는 것입니다. 이러한 기능은 더 작고 성능이 떨어지는 시스템에서는 불가능합니다.

이 문제가 즉각적인 위협이 되기 전에, Anthropic은 이를 예측할 수 있는 방법은 환경을 구축하는 것이라고 믿습니다. 그래서 그들은 의도적으로 이러한 속성을 소규모 모델로 훈련시켰습니다. 이러한 모델은 위험을 초래할 만큼 강력하지 않기 때문에 분리하여 연구할 수 있습니다.

Anthropic은 특히 "상황 인식"을 갖춘 AI 시스템의 동작에 관심이 있습니다. 예를 들어 훈련 환경에서 인간과 대화하는 AI라는 사실을 깨달았을 때 이것이 해당 기간 동안의 훈련 행동에 어떤 영향을 미칠까요? AI 시스템이 기만적이 되거나 놀라울 정도로 차선책인 목표를 개발할 수 있습니까?

이상적으로는 이러한 경향이 규모에 따라 어떻게 변하는지에 대한 상세한 정량적 모델을 구축하여 갑작스럽고 위험한 고장 모드를 미리 예측할 수 있기를 원합니다.

동시에 Anthropic은 연구 자체와 관련된 위험에 대해서도 우려하고 있습니다.

연구가 더 작은 모델로 수행된다면 심각한 위험은 없을 것입니다. 더 큰 기능을 갖춘 더 큰 모델에는 심각한 위험이 없습니다. 따라서 Anthropic은 심각한 해를 끼칠 수 있는 모델에 대해 이러한 종류의 연구를 수행할 의도가 없습니다.

사회적 영향 및 평가

인류 연구의 주요 기둥은 도구, 측정 및 잠재적인 사회적 영향을 설정하여 인공 지능 시스템의 기능, 한계 및 잠재적인 사회적 영향을 비판적으로 평가하고 이해하는 것입니다.

예를 들어 Anthropic은 대규모 언어 모델의 예측 가능성을 분석하는 연구를 발표했습니다. 그들은 이러한 모델의 높은 수준의 예측 가능성과 예측 불가능성을 조사하고 이 속성이 어떻게 유해한 동작으로 이어질 수 있는지 분석합니다.

이 작업에서는 다양한 모델 규모에서 모델의 출력을 조사하여 위험을 찾고 줄이기 위한 레드 팀 언어 모델에 대한 접근 방식을 조사합니다. 최근 그들은 현재의 언어 모델이 지시를 따르고 편견과 고정관념을 줄일 수 있다는 것을 발견했습니다.

Anthropic은 인공지능 시스템의 빠른 적용이 단기, 중기, 장기적으로 사회에 어떤 영향을 미칠지 매우 우려하고 있습니다.

현재 AI의 영향에 대한 엄격한 연구를 수행함으로써 정책 입안자와 연구자들에게 잠재적으로 중요한 사회적 위기를 완화하고 AI의 혜택이 사람들에게 전달되도록 하는 데 필요한 주장과 도구를 제공하는 것을 목표로 합니다.

결론

인공지능은 향후 10년 안에 세계에 전례 없는 영향을 미칠 것입니다. 컴퓨팅 성능의 기하급수적인 성장과 인공 지능 기능의 예측 가능한 개선은 미래의 기술이 현재보다 훨씬 더 발전할 것임을 나타냅니다.

그러나 우리는 아직 이러한 강력한 시스템이 인간의 가치와 긴밀하게 통합되도록 보장하는 방법에 대한 확실한 이해가 없기 때문에 치명적인 실패의 위험이 최소화된다는 보장은 없습니다. 그러므로 우리는 항상 덜 낙관적인 상황에 대비해야 합니다.

다각도의 실증적 연구를 통해 앤트로픽이 제공하는 보안 업무의 '콤비네이션 펀치'가 인공지능 보안 문제 해결에 도움이 될 수 있을 것으로 보입니다.

Anthropic의 보안 권장 사항은 다음과 같습니다.

“AI 시스템이 학습하고 현실 세계에 일반화하는 방법에 대한 이해를 높이려면 확장 가능한 AI 시스템 감독 및 검토 기술을 개발하고 투명하고 설명 가능한 AI 시스템을 만들고, 결과를 쫓는 대신 안전 프로세스를 따르는 AI 시스템, 잠재적으로 위험한 AI 실패 모드와 이를 방지하는 방법 분석, AI의 사회적 영향 평가를 통해 정책 및 연구 안내 등을 수행합니다.”

우리는 아직 탐색 단계에 있습니다. 인공지능에 대한 완벽한 방어를 위한 무대이지만, Anthropic은 모두를 위한 앞으로의 길을 제시했습니다.

위 내용은 Google은 Anthphic에 4억 달러를 지출했습니다. AI 모델 훈련 계산이 5년 만에 1,000배 증가했습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제