인공지능의 폭발적인 증가로 인해 우리의 시간 감각이 왜곡되고 있습니다.
Stable Diffusion은 출시된 지 4개월밖에 되지 않았고 ChatGPT는 출시된 지 한 달도 되지 않았다는 것을 믿을 수 있나요?
생생한 비유를 사용하자면, 눈을 깜박이면 새로운 산업을 놓칠 것입니다.
2022년 AI 분야에서는 대규모 생성 모델이 비 온 뒤 버섯처럼 솟아오르며 AI 산업 전체의 지형을 바꾸고 있다.
게다가 이러한 모델은 빠르게 실험실을 벗어나 현실에 적용되고 있습니다.
예를 들어 LLM 기술은 의사 결정 에이전트(게임, 로봇 등)와 AI4Science라는 두 가지 신흥 분야에 영감을 주었습니다.
Li Feifei의 제자인 Jim Fan이 2022년 AI 하이라이트 10대 순간을 요약했습니다. 시계를 되돌려 2022년에는 어떤 놀라운 AI 혁신이 있을지 살펴보겠습니다.
DALLE-2는 임의의 타이틀에서 사실적인 고해상도 이미지를 생성할 수 있는 최초의 대규모 확산 모델입니다.
AI의 예술적 혁명을 시작했고 수많은 새로운 애플리케이션, 스타트업, 사고방식을 탄생시켰습니다.
하지만 DALLE-2는 OpenAI의 벽 뒤에서 보호되며 오픈 소스가 아닙니다.
OpenAI 이후 LMU의 StabilityAI와 runwayml은 영웅적인 발걸음을 내딛고 "잠재 확산" 알고리즘을 기반으로 자체적인 인터넷 규모 text2image 모델을 훈련했습니다. 그들은 모델을 "안정적인 확산"이라고 부르고 코드와 가중치를 오픈 소스로 제공합니다.
Stable Diffusion의 개방성이 게임에 큰 변화를 가져온 것으로 나타났습니다.
현재 많은 스타트업과 연구소에서는 Stable Diffusion을 기반으로 새로운 애플리케이션을 만들고 있으며, Stable Diffusion 자체는 오픈소스 커뮤니티를 통해 지속적으로 개선되고 있습니다.
최근 Stable Diffusion이 v2.1에 도달했으며 단일 GPU에서 실행될 수 있습니다.
이 외에도 올해 GoogleAI에는 두 가지 image2text 모델이 있습니다. GoogleAI는 모델이나 API를 공개하지 않았지만 논문에서 여전히 흥미로운 통찰력을 많이 볼 수 있습니다.
Imagen
https://imagen.research.google
Parti
https://parti.research.google. 확산이 없는 트랜스포머 모델입니다.
내가 ChatGPT에 대해 이야기하고 있다는 것을 모두가 알고 있습니다!
이것은 5일 만에 1백만 명의 사용자를 확보한 역사상 유일한 애플리케이션입니다.
ChatGPT는 또한 인간의 창의성에 큰 영감을 주었습니다.
이 목록에서 ChatGPT에 대한 유용하고 상상력이 풍부한 아이디어를 모두 확인하세요: https://github.com/f/awesome-chat
ChatGPT와 GPT-3.5는 모두 RLHF("강화 학습"이라는 새로운 기술을 사용합니다. 인간의 피드백에서').
이는 알림 프로젝트가 곧 사라질 수도 있다는 의미이기도 합니다.
ChatGPT의 인기로 인해 Jasper Chat, YouChat, Replit의 Ghostwriter chat 및 perplexity_ai와 같은 새로운 스타트업과 경쟁업체가 생겨났습니다.
이러한 경쟁업체는 Google 경영진도 땀을 흘리기 시작할 정도로 직관적인 검색 방법을 제공합니다!
GPT에 팔과 다리를 주는 방법 지저분한 주방을 청소할 수 있습니까? ?
NLP와 달리 로봇 모델은 실제 세계와 상호 작용해야 합니다.
올해 드디어 사전 훈련된 대형 Transformer가 로봇 공학 분야의 가장 어려운 문제를 해결하기 시작했습니다!
VIMA
10월에 동료들과 저는 VIMA라는 트랜스포머인 "로봇 GPT"를 만들었습니다.
혼합된 텍스트, 이미지, 비디오를 프롬프트로 수신하고 로봇 팔의 제어를 출력할 수 있습니다.
저희 모델은 VIMA("VisuoMotor Attention")라고 하며 완전히 오픈 소스입니다.
이제 모델 용량과 데이터의 강력한 확장성을 통해 단일 에이전트로 시각적 목표, 일회성 영상 모방, 신개념 기반, 시각적 제약 등을 해결할 수 있습니다.
RT-1
GoogleAI의 연구원들은 VIMA와 비슷한 경로를 따라 700가지 작업과 130,000명의 인간 시연을 훈련한 로봇 변환기인 RT-1을 출시했습니다.
이 데이터는 문자 그대로 강철 군대인 13대의 로봇이 17개월에 걸쳐 수집한 것입니다!
기본적으로 비디오는 시간이 지남에 따라 함께 묶인 일련의 이미지로, 우리에게 움직이는 듯한 착각을 줍니다.
text2image를 사용할 수 있다면 타임라인을 추가하여 더욱 재미있게 만들어 보는 것은 어떨까요?
현재 텍스트-비디오 분야에는 크게 3개의 작품이 있는데, 그 중 오픈소스는 하나도 없습니다.
Make-A-Video
첫 번째는 Meta AI의 Make-A-Video입니다. 텍스트-비디오 쌍을 이루는 데이터 없이도 텍스트-비디오 생성이 가능합니다.
여기에서 평가판 액세스에 등록할 수 있습니다: https://makeavevideo.studio
문서 링크: https://arxiv.org/abs/2209.14792
Imagen Video
Google AI Imagen Video : Imagen 정지 이미지 생성기를 기반으로 확산 모델을 사용하여 고화질 비디오를 생성합니다.
데모: http://imagen.research.google/video/
문서 링크: https://arxiv.org/abs/2210.02303
Phenaki
Google AI의 Phenaki: Open generate에서 도메인에 대한 텍스트 설명의 가변 길이 비디오.
데모: https://phenaki.video
문서 링크: https://arxiv.org/abs/2210.02399
혁신적인 제품 디자인부터 To까지 영화와 게임에서 환상적인 시각 효과를 만들어내는 3D 모델링은 text-X 생성 모델의 차세대 블루오션이 되고 있습니다.
놀랍게도 2022년에는 유망한 3D 생성 모델이 많이 등장했습니다. 여기 Fan에는 3가지 모델이 나열되어 있습니다.
DreamFusion
가장 먼저 등장한 것은 Google AI 연구팀과 UC Berkeley가 공동 개발한 DreamFusion입니다.
문서 링크: https://arxiv.org/pdf/2209.14988.pdf
이 모델은 2D 텍스트-이미지 확산 모델을 사용하여 텍스트-3D 합성을 수행합니다.
NeRF 알고리즘을 기반으로 DreamFusion은 주어진 텍스트에서 3D 모델을 생성할 수 있습니다.
모델은 어떤 각도에서든 볼 수 있고, 어떤 조명 아래에서도 다시 조명될 수 있으며, 어떤 3차원 환경에도 합성될 수 있습니다.
Magic3D
두 번째 결과는 NVIDIA AI 팀의 GET3D와 Magic3D라는 두 가지 프로젝트입니다.
GET3D 문서 링크: https://nv-tlabs.github.io/GET3D/assets/paper.pdf
Magic3D 문서 링크: https://arxiv.org/pdf/2211.10440.pdf
2D 이미지만 사용하여 학습된 GET3D는 충실도가 높은 텍스처와 복잡한 기하학적 세부 정보를 갖춘 3D 그래픽을 생성합니다.
이 모델을 사용하면 사용자는 후속 편집을 위해 모양을 3D 렌더러 및 게임 엔진으로 즉시 가져올 수 있습니다.
Magic3D는 텍스트-이미지 모델을 사용하여 2D 이미지를 생성한 다음 체적 NeRF(Neural Radiation Field) 데이터로 최적화하여 저해상도에서 생성된 거친 모델을 고해상도의 미세한 모델로 최적화하는 DreamFusion과 유사합니다. .
NVIDIA AI 팀에 따르면 결과로 나온 Magic3D 방식은 DreamFusion보다 더 빠르게 3D 객체를 생성할 수 있다고 합니다.
Point-E
올초 출시된 DALL-E 2가 천재적인 브러시로 모두를 놀라게 한 데 이어, OpenAI가 3D 모델을 직접 생성할 수 있는 최신 이미지 생성 모델 'POINT-E'를 화요일에 출시했습니다. 텍스트에서.
문서 링크: https://arxiv.org/pdf/2212.08751.pdf
몇 시간 동안 작동하려면 여러 GPU가 필요한 경쟁사(예: Google DreamFusion)와 비교하여 POINT-E는 단일 GPU만 필요합니다. 3D 이미지는 몇 분 안에 생성될 수 있습니다.
테스트에 따르면 POINT-E는 기본적으로 프롬프트 입력 후 몇 초 만에 3D 이미지를 출력할 수 있습니다. 또한 출력 이미지는 사용자 정의 편집, 저장 및 기타 기능도 지원합니다.
"마인크래프트"는 AI의 전반적인 지능을 테스트하는 데 탁월한 게임입니다. 우선, 플레이어의 창의성이 극도로 반영된 무한 개방형 샌드박스 게임입니다.
둘째, 이 게임의 플레이어 기반은 영국 전체 인구의 두 배인 1억 4천만 명입니다. 이처럼 거대한 사용자 기반으로 인해 AI 학습을 위한 게임 데이터는 끝없이 공급됩니다.
그렇다면 AI도 인간처럼 상상력을 발휘할 수 있을까요?
Jim Fan과 동료들은 자연어 프롬프트에 따라 많은 작업을 해결할 수 있는 "Minecraft"를 플레이하기 위한 최초의 AI "MineDojo"를 공동 개발했습니다.
문서 링크: https://arxiv.org/pdf/2206.08853.pdf
Fan의 궁극적인 목표는 "구현된 ChatGPT"를 구축하는 것입니다. 현재 MineDojo 플랫폼은 완전히 오픈 소스입니다.
동시에 Jeff Clune 팀은 키보드와 마우스 움직임을 직접 출력할 수 있는 VPT(Video Pre-Training)라는 모델을 발표했습니다.
논문 링크: https://arxiv.org/pdf/2206.11795.pdf
VPT는 더 넓은 관점을 가지고 있지만 언어 조건에 의해 제한되지 않습니다. 이 시점에서 MineDojo와 VPT는 서로를 보완합니다.
Meta AI가 출시한 CICERO는 게임 "외교"에서 인간 수준의 성능을 달성한 최초의 인공지능 에이전트입니다.
페이퍼 링크: https://www.science.org/doi/10.1126/science.ade9097
"외교"는 보드게임이라고 할 수 있는 7인용 고전 전략 게임입니다. Risk and Solitaire 게임 포커와 TV 쇼 Survivor를 결합한 게임입니다. 게임에서는 인간과 협력하고 경쟁하기 위해 광범위한 자연어 협상이 필요합니다.
그러나 CICERO의 등장은 이제 인공지능이 타인을 설득하고 허세를 부리는 능력을 갖게 되었음을 보여줍니다.
현재 DeepMind는 자체 외교관 AI 에이전트 개발도 발표했습니다. 그렇다면 CICERO가 이 AI 모델을 사용하면 어떻게 될까요?
Whisper는 OpenAI에서 출시한 대규모 오픈 소스 음성 인식 모델로, 영어 음성 인식에 있어서 인간 수준에 가까운 견고성과 정확성을 갖추고 있습니다.
문서 링크: https://arxiv.org/pdf/2212.04356.pdf
Whisper는 웹에서 680,000시간의 오디오 데이터로 훈련되었습니다. Open AI는 Whisper의 음성 인식 능력이 인간 수준에 도달했음을 강조합니다.
오픈 AI 오픈 소스 Whisper. 많은 기대를 모으고 있는 GPT-4를 훈련시키기 위해 더 많은 텍스트 토큰을 잠금 해제하기 위한 것인가요?
DeepMind와 스위스 EPFL(Ecole Polytechnique Fédérale de Lausanne)은 토카막에서 핵융합 플라즈마의 안정성을 유지할 수 있는 최초의 핵융합 관련 심층 강화 학습 시스템을 공동 개발했습니다.
문서 링크: https://www.nature.com/articles/s41586-021-04301-9
또한 이번 달 미국 에너지부는 거대한 돌파구를 발표했습니다. 핵융합 반응의 순 에너지 이득!
인간이 이 이정표를 달성한 것은 이번이 처음입니다. 이번 생에서 우리는 융합문명을 이룰 수도 있다!
2021년 알파폴드는 언어 모델을 통한 단백질 3차원 구조 예측에 착수했습니다.
7월 DeepMind는 AlphaFold의 단백질 데이터베이스를 2억 구조로 확장하는 "단백질 우주"를 발표했습니다!
또한 NVIDIA AI 연구팀은 생명공학 기업과 연구자가 생체분자 데이터를 생성, 예측 및 이해할 수 있도록 BioNeMo 대규모 언어 모델 프레임워크를 확장했습니다.
동영상 설명: https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
위는 Jim Fan의 2022년 AI 하이라이트 10대 목록입니다. 물론, 팬은 인공지능의 발전에 기여한 흥미로운 작품이 셀 수 없이 많다고도 말했습니다.
모든 종이는 AI 건물의 벽돌이며, 모든 노력은 축하받아야 합니다.
그러나 팬은 마지막에 인공지능 시스템이 점점 더 강력해짐에 따라 잠재적인 위험과 위험을 인지하고 이를 완화하기 위한 조치를 취해야 한다고 강조하기도 했습니다.
신중한 교육 설계, 적절한 감독 또는 새로운 보호 방법을 통해 인공 지능의 안전과 윤리는 점점 더 많은 AI 전문가에 의해 논의되는 의제가 되었습니다.
2022년은 기적이 가득한 해이자 놀라운 해라는 것은 의심의 여지가 없습니다. 내년에는 세계를 놀라게 할 어떤 획기적인 발전이 이뤄질까요? 우리는 당신과 함께 지켜보고 있습니다.
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
위 내용은 Li Feifei가 올해의 10대 AI 하이라이트를 살펴봅니다. 핵융합, ChatGPT, AlphaFold가 목록에 포함되어 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!