집 >기술 주변기기 >일체 포함 >DeepMind CEO: LLM+트리 검색은 AGI 기술 라인입니다. AI 연구는 엔지니어링 기능에 의존합니다. 비공개 소스 모델은 오픈 소스 모델보다 안전합니다.

DeepMind CEO: LLM+트리 검색은 AGI 기술 라인입니다. AI 연구는 엔지니어링 기능에 의존합니다. 비공개 소스 모델은 오픈 소스 모델보다 안전합니다.

PHPz앞으로: 2024-03-05 12:04:18460검색

Google은 2월 이후 갑자기 996 모드로 전환하여 한 달도 안 되어 5개 모델을 출시했습니다.

그리고 DeepMind CEO Hassabis 자신도 자신의 제품 플랫폼을 홍보하면서 개발 비하인드 내부 정보를 많이 노출해 왔습니다.

그의 견해로는 기술적 혁신이 여전히 필요하지만 이제 인간을 위한 AGI로 가는 길이 나타났습니다.

딥마인드와 구글 브레인의 합병은 AI 기술 발전이 새로운 시대로 접어들었음을 의미합니다.

Q: DeepMind는 항상 기술의 선두에 있었습니다. 예를 들어 AlphaZero와 같은 시스템에서는 내부 지능형 에이전트가 일련의 생각을 통해 최종 목표를 달성할 수 있습니다. 이는 LLM(대형 언어 모델)도 이러한 종류의 연구 대열에 합류할 수 있다는 것을 의미합니까?

Hassabis는 대규모 모델이 엄청난 잠재력을 갖고 있으며 예측 정확도를 향상시켜 더욱 신뢰할 수 있는 세계 모델을 구축하려면 더욱 최적화해야 한다고 믿습니다. 이 단계는 중요하지만 완전한 인공 일반 지능(AGI) 시스템을 구축하는 것만으로는 충분하지 않을 수 있습니다.

이를 바탕으로 우리는 AlphaZero와 유사한 계획 메커니즘을 개발하여 세계 모델을 통해 구체적인 세계 목표를 달성하기 위한 계획을 수립하고 있습니다.

여기에는 다양한 사고 또는 추론 체인을 하나로 묶거나 트리 검색을 활용하여 광대한 가능성의 공간을 탐색하는 것이 포함됩니다.

이것들은 현재 대형 모델에서 누락된 링크입니다.

Q: 순수 강화학습(RL) 방식에서 시작해 AGI로 바로 전환이 가능한가요?

대규모 언어 모델이 기본적인 사전 지식을 형성하고 이를 기반으로 추가 연구가 수행될 수 있을 것으로 보입니다.

이론적으로는 AlphaZero 개발 방식을 완전하게 채택하는 것이 가능합니다.

DeepMind와 RL 커뮤니티의 일부 사람들은 처음부터 시작하여 새로운 지식 시스템을 완전히 구축하기 위해 사전 지식이나 데이터에 의존하지 않습니다.

웹상의 정보, 이미 수집한 데이터 등 기존 세계 지식을 활용하는 것이 AGI를 달성하는 가장 빠른 방법이 될 것이라고 믿습니다.

이제 이 정보를 흡수할 수 있는 확장 가능한 알고리즘인 변환기가 있습니다. 이러한 기존 모델을 예측 및 학습을 위한 사전 지식으로 완전히 사용할 수 있습니다.

따라서 최종 AGI 시스템에는 확실히 오늘날의 대형 모델이 솔루션의 일부로 포함될 것이라고 믿습니다.

하지만 대형 모델만으로는 충분하지 않습니다. 더 많은 계획 및 검색 기능도 추가해야 합니다.

Q: 이러한 방법에 필요한 엄청난 컴퓨팅 리소스에 직면하여 어떻게 획기적인 발전을 이룰 수 있습니까?

AlphaGo와 같은 시스템이라도 의사결정 트리의 각 노드에서 계산을 수행해야 하기 때문에 비용이 상당히 많이 듭니다.

경험 재생 등 기존 데이터를 재사용하기 위한 샘플 효율적인 방법과 전략을 개발하고 보다 효율적인 방법을 모색하는 데 최선을 다하고 있습니다.

실제로 월드 모델이 충분히 좋다면 검색이 더 효율적일 수 있습니다.

Alpha Zero를 예로 들면 바둑, 체스 등의 게임에서의 성능은 세계 선수권 수준을 초과하지만 검색 범위는 기존의 무차별 검색 방법보다 훨씬 작습니다.

이는 모델을 개선하면 검색을 더욱 효율적으로 수행하여 더 많은 목표에 도달할 수 있음을 보여줍니다.

그러나 보상 기능과 목표를 정의할 때 시스템이 올바른 방향으로 발전하도록 보장하는 방법은 우리가 직면한 과제 중 하나가 될 것입니다.

구글은 왜 반달만에 5개의 모델을 생산할 수 있을까요?

Q: Google과 DeepMind가 동시에 그렇게 다양한 모델을 개발하는 이유에 대해 말씀해 주시겠어요?

기초연구를 진행해왔기 때문에 다양한 혁신과 방향을 다루는 기초연구 업무가 많습니다.

이는 핵심 Gemini 모델인 메인 모델 트랙을 구축하는 동안 더 많은 탐색 프로젝트도 진행 중임을 의미합니다.

이러한 탐사 프로젝트에 결과가 나오면 이를 다음 버전의 Gemini의 메인 브랜치에 병합할 예정입니다. 따라서 1.0 직후에 1.5가 출시되는 것을 볼 수 있습니다. 왜냐하면 우리는 이미 다음 버전을 작업 중이기 때문입니다. 예, 우리는 여러 팀이 서로 다른 기간에 작업하고 서로 순환하면서 작업하기 때문에 계속해서 발전할 수 있습니다.

이렇게 빠른 속도로 제품을 출시하는 것이 우리의 새로운 표준이 되기를 바라지만, 물론 책임감도 크지만 안전한 모델을 출시하는 것이 최우선이라는 점을 명심하세요.

Q: 가장 최근에 출시된 Gemini 1.5 Pro에 대해 묻고 싶었습니다. 새로운 Gemini Pro 1.5 모델은 최대 100만 개의 토큰을 처리할 수 있습니다. 이것이 무엇을 의미하는지 그리고 왜 컨텍스트 창이 중요한 기술 지표인지 설명할 수 있습니까?

DeepMind CEO：LLM+树搜索就是AGI技术线路，AI科研依赖工程能力，闭源模型就是比开源安全

예, 이것은 매우 중요합니다. 긴 컨텍스트는 모델의 작업 메모리, 즉 한 번에 얼마나 많은 데이터를 기억하고 처리할 수 있는지로 생각할 수 있습니다.

맥락이 길수록 그 정확성도 중요하고, 긴 맥락에서 사물을 회상하는 정확성도 마찬가지로 중요하며 더 많은 데이터와 맥락을 고려할 수 있습니다.

즉, 100만 개라는 것은 전체 코드 베이스와 같이 거대한 책, 전체 영화, 수많은 오디오 콘텐츠를 처리할 수 있다는 의미입니다.

컨텍스트 창이 더 짧은 경우(예: 10만 레벨만 처리할 수 있다면 해당 부분만 처리할 수 있으며 모델은 관심 있는 전체 코퍼스를 추론하거나 검색할 수 없습니다.)

이것은 실제로 작은 컨텍스트에서는 수행할 수 없는 모든 유형의 새로운 사용 사례에 대한 가능성을 열어줍니다.

Q: AI 연구자들로부터 이러한 큰 컨텍스트 창의 문제점은 컴퓨팅 집약적이라는 점을 들었습니다. 예를 들어, 영화 전체나 생물학 교과서를 업로드하고 그에 대해 질문하는 경우, 모든 것을 처리하고 응답하려면 더 많은 처리 능력이 필요합니다. 많은 사람이 이 작업을 수행하면 비용이 빠르게 증가할 수 있습니다. Google DeepMind는 이러한 거대한 컨텍스트 창을 보다 효율적으로 만들기 위해 몇 가지 영리한 혁신을 내놓았습니까? 아니면 Google이 이 모든 추가 계산 비용을 부담했습니까?

예, 이것은 완전히 새로운 혁신입니다. 혁신 없이는 그렇게 긴 맥락을 가질 수 없기 때문입니다.

하지만 여전히 높은 계산 비용이 필요하므로 최적화하기 위해 열심히 노력하고 있습니다.

컨텍스트 창 전체를 채우면. 업로드된 데이터의 초기 처리에는 몇 분이 걸릴 수 있습니다.

하지만 1~2분 안에 영화 한 편을 보거나 전쟁과 평화 전체를 읽는 것과 같다고 생각하면, 궁금한 점에 대한 답을 얻을 수 있다는 점을 고려하면 나쁘지 않습니다.

그러면 우리가 확인하고 싶은 것은 문서, 비디오 또는 오디오를 업로드하고 작업한 후에는 후속 질문과 답변이 더 빨라야 한다는 것입니다.

이것이 현재 우리가 작업하고 있는 작업이며 우리는 이 작업을 몇 초 만에 완료할 수 있다고 확신합니다.

Q: 최대 1천만 개의 토큰으로 시스템을 테스트했다고 했는데요. 효과는 무엇인가요?

테스트에서 정말 잘 작동했습니다. 컴퓨팅 비용이 여전히 상대적으로 높기 때문에 현재 서비스를 이용할 수 없습니다.

하지만 정확도와 재현율 측면에서는 매우 좋은 성능을 발휘합니다.

Q: Gemini에 대해 묻고 싶습니다. 이전 Google 언어 모델이나 다른 모델이 할 수 없었던 특별한 기능은 무엇입니까?

Gemini, 특히 버전 1.5의 흥미로운 점은 본질적으로 다중 모드이며 텍스트, 이미지, 코드, 비디오 등 모든 종류의 입력을 처리할 수 있도록 처음부터 구축했다는 것입니다.

긴 맥락과 결합하면 그 가능성을 볼 수 있습니다. 예를 들어, 강의 전체를 듣고 있거나, 이해하고 싶은 중요한 개념이 있어서 빨리 빨리 넘어가고 싶다고 상상할 수 있습니다.

이제 전체 코드 베이스를 컨텍스트 창에 넣을 수 있는데, 이는 새로운 프로그래머가 시작하는 데 매우 유용합니다. 당신이 월요일에 업무를 시작하는 신입 엔지니어라고 가정해 보겠습니다. 일반적으로 살펴봐야 할 코드가 수십만 줄에 달합니다.

코드베이스는 전문가에게 물어봐야 합니다. 하지만 이제 실제로 Gemini를 이렇게 재미있는 방식으로 코딩 보조자로 사용할 수 있습니다. 코드의 중요한 부분이 어디에 있는지 알려주는 요약이 반환되며 작업을 시작할 수 있습니다.

이 기능이 있으면 매우 도움이 되고 일상적인 작업 흐름을 더욱 효율적으로 만들 수 있다고 생각합니다.

Gemini가 Slack과 일반적인 워크플로에 통합되었을 때 어떤 성능을 발휘할지 정말 기대됩니다. 미래의 워크플로우는 어떤 모습일까요? 우리는 이제 막 변화를 경험하기 시작했다고 생각합니다.

Google의 오픈소스 최우선순위는 보안입니다.

Q: 이제 방금 출시한 일련의 경량 오픈소스 모델인 Gemma에 대해 이야기하고 싶습니다. 오늘날 오픈 소스를 통해 기본 모델을 공개할지, 아니면 폐쇄 상태로 유지할지는 가장 논란이 되는 주제 중 하나인 것 같습니다. 지금까지 Google은 기본 모델을 비공개 소스로 유지해 왔습니다. 지금 오픈소스를 선택하는 이유는 무엇입니까? 오픈 소스를 통해 기본 모델을 제공하면 악의적인 행위자가 이를 사용할 위험과 가능성이 높아진다는 비판에 대해 어떻게 생각하시나요?

예, 저는 실제로 이 문제를 공개적으로 여러 번 논의했습니다.

주요 관심사 중 하나는 오픈 소스와 공개 연구가 일반적으로 분명히 유익하다는 것입니다. 하지만 여기에는 특정한 문제가 있는데, 이는 AGI 및 AI 기술과 관련이 있습니다. 왜냐하면 보편적이기 때문입니다.

일단 게시하면 악의적인 행위자가 유해한 목적으로 사용할 수 있습니다.

물론, 일단 소스를 공개하면 다시 되돌릴 수 있는 실질적인 방법이 없습니다. 이전에 아무도 고려하지 않았던 유해한 사용 사례가 다운스트림에 있다는 것을 발견하면 차단할 수 있는 API 액세스와는 달리 . 입장.

이것은 보안, 견고성 및 책임에 대한 기준이 훨씬 더 높다는 것을 의미한다고 생각합니다. AGI에 가까워질수록 더 강력한 기능을 갖게 되므로 악의적인 공격자가 이를 어떤 용도로 사용할 수 있는지 더 주의해야 합니다.

아직까지 오픈소스 극단주의자 등 오픈소스를 지지하는 사람들로부터 좋은 주장을 들어본 적이 없습니다. 이들 중 상당수는 제가 존경하는 학계 동료들입니다. 그들이 이 질문에 어떻게 대답하는지, - 인라인 오픈소스 모델이 더 많은 악의적인 행위자가 모델에 액세스할 수 있게 하는 문제가 있습니까?

이 시스템이 점점 더 강력해짐에 따라 우리는 이러한 문제에 대해 더 많이 생각해야 합니다.

Q: 그렇다면 왜 Gemma는 이 문제에 대해 걱정하지 않았나요?

예, 물론 아시겠지만 Gemma는 경량 버전만 제공하므로 상대적으로 크기가 작습니다.

실제로는 작은 크기가 개발자에게 더 유용합니다. 일반적으로 개인 개발자, 학계 또는 소규모 팀은 노트북에서 빠르게 작업하고 싶기 때문에 이에 최적화되어 있습니다.

최첨단 모델이 아니기 때문에 작은 모델이고 이러한 모델의 성능이 엄격한 테스트를 거쳐 무엇을 할 수 있는지 잘 알고 있기 때문에 모델에 큰 위험이 없다는 확신이 듭니다. 이 크기의.

딥마인드가 구글 브레인과 합병되는 이유

Q: 작년에 구글 브레인과 딥마인드가 합병되었을 때 제가 아는 AI 업계 사람들 중에는 걱정하는 분들도 있었습니다. 그들은 구글이 역사적으로 딥마인드에게 중요하다고 생각되는 다양한 연구 프로젝트를 수행할 수 있는 상당한 권한을 부여했다고 우려합니다.

딥마인드는 이러한 장기적인 기초 연구 프로젝트보다는 단기적으로 구글에 이익이 되는 일로 전환해야 할 수도 있습니다. 합병 후 1년이 지났습니다. Google에 대한 단기적인 관심과 장기적인 AI 발전 가능성 사이의 긴장으로 인해 귀하가 할 수 있는 일이 바뀌었나요?

예, 말씀하신 대로 올해 첫 해에는 모든 것이 훌륭했습니다. 그 이유 중 하나는 우리가 지금이 적절한 때라고 생각하기 때문이고, 연구자 입장에서도 지금이 적절한 때라고 생각합니다.

아마도 5, 6년 전으로 돌아가서 우리가 알파고 같은 일을 하던 시절, AI 분야에서 우리는 AGI에 어떻게 다가갈지, 어떤 돌파구가 필요한지, 무엇에 베팅해야 하는지, 그 안에서 하고 싶은 일이 다양해서 굉장히 탐색적인 단계인 것 같아요.

앞서 언급했듯이 지난 2~3년 동안 AGI의 주요 구성 요소가 무엇인지 분명해 졌다고 생각합니다. 하지만 여전히 새로운 혁신이 필요합니다.

DeepMind CEO：LLM+树搜索就是AGI技术线路，AI科研依赖工程能力，闭源模型就是比开源安全

방금 Gemini1.5의 긴 맥락을 보신 것 같고, 이와 같은 새로운 혁신이 필요할 것이라고 생각하므로 기초 연구는 여전히 그 어느 때보다 중요합니다.

하지만 이제 우리는 엔지니어링 방향에서도 열심히 노력해야 합니다. 즉, 알려진 기술을 확장 및 활용하고 이를 한계까지 끌어올리려면 프로토타입 수준 하드웨어부터 데이터 센터 규모에 이르기까지 매우 창의적인 대규모 엔지니어링이 필요합니다. 그리고 관련된 효율성 문제.

또 다른 이유는 5~6년 전에 AI 기반 제품을 제조했다면 AGI 연구 트랙과 완전히 다른 AI를 구축해야 했을 것이기 때문입니다.

특정 제품에 대한 특별한 시나리오에서만 작업을 수행할 수 있는 일종의 맞춤형 AI, '핸드메이드 AI'입니다.

하지만 오늘날에는 상황이 다릅니다. 제품에 AI를 적용하려면 이제 일반적인 AI 기술과 시스템이 충분한 수준의 복잡성과 성능에 도달했기 때문에 가장 좋은 방법은 사용하는 것입니다.

실제로는 이것이 수렴점이므로 연구 트랙과 제품 트랙이 합쳐진 것을 볼 수 있습니다.

예를 들어 이제 AI 음성 비서를 만들 예정이고, 그 반대는 언어를 진정으로 이해하는 챗봇입니다. 이제 통합되었으므로 이러한 이분법이나 조율되고 긴장된 관계를 고려할 필요가 없습니다.

두 번째 이유는 연구와 실제 적용 사이에 긴밀한 피드백 루프를 갖는 것이 실제로 연구에 매우 유익하다는 것입니다.

제품을 통해 모델의 성능을 실제로 이해할 수 있으므로 학문적 지표를 얻을 수 있지만 실제 테스트는 수백만 명의 사용자가 제품을 사용할 때 제품이 유용하다고 생각하는지, 제품이 유용하다고 생각하는지입니다. 유용합니까 도움이 됩니까? 세상에 유익합니까?

분명히 많은 피드백을 받게 될 것이고, 그러면 기본 모델이 매우 빠르게 개선될 것입니다. 따라서 우리는 지금 매우 매우 흥미로운 단계에 있다고 생각합니다.

위 내용은 DeepMind CEO: LLM+트리 검색은 AGI 기술 라인입니다. AI 연구는 엔지니어링 기능에 의존합니다. 비공개 소스 모델은 오픈 소스 모델보다 안전합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Token 循环算法人工智能个人开发数据中心 agi

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：단 한 문장만으로 사진을 움직일 수 있습니다. Apple은 대형 모델 애니메이션을 사용하여 생성하고 결과를 직접 편집할 수 있습니다.다음 기사：단 한 문장만으로 사진을 움직일 수 있습니다. Apple은 대형 모델 애니메이션을 사용하여 생성하고 결과를 직접 편집할 수 있습니다.