Li Feifei가 올해의 10대 AI 하이라이트를 살펴봅니다. 핵융합, ChatGPT, AlphaFold가 목록에 포함되어 있습니다.
인공지능의 폭발적인 증가로 인해 우리의 시간 감각이 왜곡되고 있습니다.
Stable Diffusion은 출시된 지 4개월밖에 되지 않았고 ChatGPT는 출시된 지 한 달도 되지 않았다는 것을 믿을 수 있나요?
생생한 비유를 사용하자면, 눈을 깜박이면 새로운 산업을 놓칠 것입니다.
2022년 AI 분야에서는 대규모 생성 모델이 비 온 뒤 버섯처럼 솟아오르며 AI 산업 전체의 지형을 바꾸고 있다.
게다가 이러한 모델은 빠르게 실험실을 벗어나 현실에 적용되고 있습니다.
예를 들어 LLM 기술은 의사 결정 에이전트(게임, 로봇 등)와 AI4Science라는 두 가지 신흥 분야에 영감을 주었습니다.
Li Feifei의 제자인 Jim Fan이 2022년 AI 하이라이트 10대 순간을 요약했습니다. 시계를 되돌려 2022년에는 어떤 놀라운 AI 혁신이 있을지 살펴보겠습니다.
1. 텍스트 이미지 생성
DALLE-2는 임의의 타이틀에서 사실적인 고해상도 이미지를 생성할 수 있는 최초의 대규모 확산 모델입니다.
AI의 예술적 혁명을 시작했고 수많은 새로운 애플리케이션, 스타트업, 사고방식을 탄생시켰습니다.
하지만 DALLE-2는 OpenAI의 벽 뒤에서 보호되며 오픈 소스가 아닙니다.
OpenAI 이후 LMU의 StabilityAI와 runwayml은 영웅적인 발걸음을 내딛고 "잠재 확산" 알고리즘을 기반으로 자체적인 인터넷 규모 text2image 모델을 훈련했습니다. 그들은 모델을 "안정적인 확산"이라고 부르고 코드와 가중치를 오픈 소스로 제공합니다.
Stable Diffusion의 개방성이 게임에 큰 변화를 가져온 것으로 나타났습니다.
현재 많은 스타트업과 연구소에서는 Stable Diffusion을 기반으로 새로운 애플리케이션을 만들고 있으며, Stable Diffusion 자체는 오픈소스 커뮤니티를 통해 지속적으로 개선되고 있습니다.
최근 Stable Diffusion이 v2.1에 도달했으며 단일 GPU에서 실행될 수 있습니다.
이 외에도 올해 GoogleAI에는 두 가지 image2text 모델이 있습니다. GoogleAI는 모델이나 API를 공개하지 않았지만 논문에서 여전히 흥미로운 통찰력을 많이 볼 수 있습니다.
Imagen
https://imagen.research.google
Parti
https://parti.research.google. 확산이 없는 트랜스포머 모델입니다.
2. 텍스트-텍스트 생성
내가 ChatGPT에 대해 이야기하고 있다는 것을 모두가 알고 있습니다!
이것은 5일 만에 1백만 명의 사용자를 확보한 역사상 유일한 애플리케이션입니다.
ChatGPT는 또한 인간의 창의성에 큰 영감을 주었습니다.
이 목록에서 ChatGPT에 대한 유용하고 상상력이 풍부한 아이디어를 모두 확인하세요: https://github.com/f/awesome-chat
ChatGPT와 GPT-3.5는 모두 RLHF("강화 학습"이라는 새로운 기술을 사용합니다. 인간의 피드백에서').
이는 알림 프로젝트가 곧 사라질 수도 있다는 의미이기도 합니다.
ChatGPT의 인기로 인해 Jasper Chat, YouChat, Replit의 Ghostwriter chat 및 perplexity_ai와 같은 새로운 스타트업과 경쟁업체가 생겨났습니다.
이러한 경쟁업체는 Google 경영진도 땀을 흘리기 시작할 정도로 직관적인 검색 방법을 제공합니다!
3. 텍스트 - 로봇 모델
GPT에 팔과 다리를 주는 방법 지저분한 주방을 청소할 수 있습니까? ?
NLP와 달리 로봇 모델은 실제 세계와 상호 작용해야 합니다.
올해 드디어 사전 훈련된 대형 Transformer가 로봇 공학 분야의 가장 어려운 문제를 해결하기 시작했습니다!
VIMA
10월에 동료들과 저는 VIMA라는 트랜스포머인 "로봇 GPT"를 만들었습니다.
혼합된 텍스트, 이미지, 비디오를 프롬프트로 수신하고 로봇 팔의 제어를 출력할 수 있습니다.
저희 모델은 VIMA("VisuoMotor Attention")라고 하며 완전히 오픈 소스입니다.
이제 모델 용량과 데이터의 강력한 확장성을 통해 단일 에이전트로 시각적 목표, 일회성 영상 모방, 신개념 기반, 시각적 제약 등을 해결할 수 있습니다.
RT-1
GoogleAI의 연구원들은 VIMA와 비슷한 경로를 따라 700가지 작업과 130,000명의 인간 시연을 훈련한 로봇 변환기인 RT-1을 출시했습니다.
이 데이터는 문자 그대로 강철 군대인 13대의 로봇이 17개월에 걸쳐 수집한 것입니다!
4. 텍스트 - 비디오
기본적으로 비디오는 시간이 지남에 따라 함께 묶인 일련의 이미지로, 우리에게 움직이는 듯한 착각을 줍니다.
text2image를 사용할 수 있다면 타임라인을 추가하여 더욱 재미있게 만들어 보는 것은 어떨까요?
현재 텍스트-비디오 분야에는 크게 3개의 작품이 있는데, 그 중 오픈소스는 하나도 없습니다.
Make-A-Video
첫 번째는 Meta AI의 Make-A-Video입니다. 텍스트-비디오 쌍을 이루는 데이터 없이도 텍스트-비디오 생성이 가능합니다.
여기에서 평가판 액세스에 등록할 수 있습니다: https://makeavevideo.studio
문서 링크: https://arxiv.org/abs/2209.14792
Imagen Video
Google AI Imagen Video : Imagen 정지 이미지 생성기를 기반으로 확산 모델을 사용하여 고화질 비디오를 생성합니다.
데모: http://imagen.research.google/video/
문서 링크: https://arxiv.org/abs/2210.02303
Phenaki
Google AI의 Phenaki: Open generate에서 도메인에 대한 텍스트 설명의 가변 길이 비디오.
데모: https://phenaki.video
문서 링크: https://arxiv.org/abs/2210.02399
5. Text-3D Modeling
혁신적인 제품 디자인부터 To까지 영화와 게임에서 환상적인 시각 효과를 만들어내는 3D 모델링은 text-X 생성 모델의 차세대 블루오션이 되고 있습니다.
놀랍게도 2022년에는 유망한 3D 생성 모델이 많이 등장했습니다. 여기 Fan에는 3가지 모델이 나열되어 있습니다.
DreamFusion
가장 먼저 등장한 것은 Google AI 연구팀과 UC Berkeley가 공동 개발한 DreamFusion입니다.
문서 링크: https://arxiv.org/pdf/2209.14988.pdf
이 모델은 2D 텍스트-이미지 확산 모델을 사용하여 텍스트-3D 합성을 수행합니다.
NeRF 알고리즘을 기반으로 DreamFusion은 주어진 텍스트에서 3D 모델을 생성할 수 있습니다.
모델은 어떤 각도에서든 볼 수 있고, 어떤 조명 아래에서도 다시 조명될 수 있으며, 어떤 3차원 환경에도 합성될 수 있습니다.
Magic3D
두 번째 결과는 NVIDIA AI 팀의 GET3D와 Magic3D라는 두 가지 프로젝트입니다.
GET3D 문서 링크: https://nv-tlabs.github.io/GET3D/assets/paper.pdf
Magic3D 문서 링크: https://arxiv.org/pdf/2211.10440.pdf
2D 이미지만 사용하여 학습된 GET3D는 충실도가 높은 텍스처와 복잡한 기하학적 세부 정보를 갖춘 3D 그래픽을 생성합니다.
이 모델을 사용하면 사용자는 후속 편집을 위해 모양을 3D 렌더러 및 게임 엔진으로 즉시 가져올 수 있습니다.
Magic3D는 텍스트-이미지 모델을 사용하여 2D 이미지를 생성한 다음 체적 NeRF(Neural Radiation Field) 데이터로 최적화하여 저해상도에서 생성된 거친 모델을 고해상도의 미세한 모델로 최적화하는 DreamFusion과 유사합니다. .
NVIDIA AI 팀에 따르면 결과로 나온 Magic3D 방식은 DreamFusion보다 더 빠르게 3D 객체를 생성할 수 있다고 합니다.
Point-E
올초 출시된 DALL-E 2가 천재적인 브러시로 모두를 놀라게 한 데 이어, OpenAI가 3D 모델을 직접 생성할 수 있는 최신 이미지 생성 모델 'POINT-E'를 화요일에 출시했습니다. 텍스트에서.
문서 링크: https://arxiv.org/pdf/2212.08751.pdf
몇 시간 동안 작동하려면 여러 GPU가 필요한 경쟁사(예: Google DreamFusion)와 비교하여 POINT-E는 단일 GPU만 필요합니다. 3D 이미지는 몇 분 안에 생성될 수 있습니다.
테스트에 따르면 POINT-E는 기본적으로 프롬프트 입력 후 몇 초 만에 3D 이미지를 출력할 수 있습니다. 또한 출력 이미지는 사용자 정의 편집, 저장 및 기타 기능도 지원합니다.
6. "마인크래프트"를 플레이할 수 있는 AI
"마인크래프트"는 AI의 전반적인 지능을 테스트하는 데 탁월한 게임입니다. 우선, 플레이어의 창의성이 극도로 반영된 무한 개방형 샌드박스 게임입니다.
둘째, 이 게임의 플레이어 기반은 영국 전체 인구의 두 배인 1억 4천만 명입니다. 이처럼 거대한 사용자 기반으로 인해 AI 학습을 위한 게임 데이터는 끝없이 공급됩니다.
그렇다면 AI도 인간처럼 상상력을 발휘할 수 있을까요?
Jim Fan과 동료들은 자연어 프롬프트에 따라 많은 작업을 해결할 수 있는 "Minecraft"를 플레이하기 위한 최초의 AI "MineDojo"를 공동 개발했습니다.
문서 링크: https://arxiv.org/pdf/2206.08853.pdf
Fan의 궁극적인 목표는 "구현된 ChatGPT"를 구축하는 것입니다. 현재 MineDojo 플랫폼은 완전히 오픈 소스입니다.
동시에 Jeff Clune 팀은 키보드와 마우스 움직임을 직접 출력할 수 있는 VPT(Video Pre-Training)라는 모델을 발표했습니다.
논문 링크: https://arxiv.org/pdf/2206.11795.pdf
VPT는 더 넓은 관점을 가지고 있지만 언어 조건에 의해 제한되지 않습니다. 이 시점에서 MineDojo와 VPT는 서로를 보완합니다.
7. AI Diplomat
Meta AI가 출시한 CICERO는 게임 "외교"에서 인간 수준의 성능을 달성한 최초의 인공지능 에이전트입니다.
페이퍼 링크: https://www.science.org/doi/10.1126/science.ade9097
"외교"는 보드게임이라고 할 수 있는 7인용 고전 전략 게임입니다. Risk and Solitaire 게임 포커와 TV 쇼 Survivor를 결합한 게임입니다. 게임에서는 인간과 협력하고 경쟁하기 위해 광범위한 자연어 협상이 필요합니다.
그러나 CICERO의 등장은 이제 인공지능이 타인을 설득하고 허세를 부리는 능력을 갖게 되었음을 보여줍니다.
현재 DeepMind는 자체 외교관 AI 에이전트 개발도 발표했습니다. 그렇다면 CICERO가 이 AI 모델을 사용하면 어떻게 될까요?
8. 오디오 텍스트 모델
Whisper는 OpenAI에서 출시한 대규모 오픈 소스 음성 인식 모델로, 영어 음성 인식에 있어서 인간 수준에 가까운 견고성과 정확성을 갖추고 있습니다.
문서 링크: https://arxiv.org/pdf/2212.04356.pdf
Whisper는 웹에서 680,000시간의 오디오 데이터로 훈련되었습니다. Open AI는 Whisper의 음성 인식 능력이 인간 수준에 도달했음을 강조합니다.
오픈 AI 오픈 소스 Whisper. 많은 기대를 모으고 있는 GPT-4를 훈련시키기 위해 더 많은 텍스트 토큰을 잠금 해제하기 위한 것인가요?
9. 핵융합
DeepMind와 스위스 EPFL(Ecole Polytechnique Fédérale de Lausanne)은 토카막에서 핵융합 플라즈마의 안정성을 유지할 수 있는 최초의 핵융합 관련 심층 강화 학습 시스템을 공동 개발했습니다.
문서 링크: https://www.nature.com/articles/s41586-021-04301-9
또한 이번 달 미국 에너지부는 거대한 돌파구를 발표했습니다. 핵융합 반응의 순 에너지 이득!
인간이 이 이정표를 달성한 것은 이번이 처음입니다. 이번 생에서 우리는 융합문명을 이룰 수도 있다!
10. 생물학에 적용된 Transformer
2021년 알파폴드는 언어 모델을 통한 단백질 3차원 구조 예측에 착수했습니다.
7월 DeepMind는 AlphaFold의 단백질 데이터베이스를 2억 구조로 확장하는 "단백질 우주"를 발표했습니다!
또한 NVIDIA AI 연구팀은 생명공학 기업과 연구자가 생체분자 데이터를 생성, 예측 및 이해할 수 있도록 BioNeMo 대규모 언어 모델 프레임워크를 확장했습니다.
동영상 설명: https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
위는 Jim Fan의 2022년 AI 하이라이트 10대 목록입니다. 물론, 팬은 인공지능의 발전에 기여한 흥미로운 작품이 셀 수 없이 많다고도 말했습니다.
모든 종이는 AI 건물의 벽돌이며, 모든 노력은 축하받아야 합니다.
그러나 팬은 마지막에 인공지능 시스템이 점점 더 강력해짐에 따라 잠재적인 위험과 위험을 인지하고 이를 완화하기 위한 조치를 취해야 한다고 강조하기도 했습니다.
신중한 교육 설계, 적절한 감독 또는 새로운 보호 방법을 통해 인공 지능의 안전과 윤리는 점점 더 많은 AI 전문가에 의해 논의되는 의제가 되었습니다.
2022년은 기적이 가득한 해이자 놀라운 해라는 것은 의심의 여지가 없습니다. 내년에는 세계를 놀라게 할 어떤 획기적인 발전이 이뤄질까요? 우리는 당신과 함께 지켜보고 있습니다.
참조:
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
위 내용은 Li Feifei가 올해의 10대 AI 하이라이트를 살펴봅니다. 핵융합, ChatGPT, AlphaFold가 목록에 포함되어 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

2008 년 이래로 저는 도시 교통의 미래로서 "Robotjitney"라고 불리는 공유 라이드 밴을 옹호했습니다. 나는이 차량들을 21 세기의 차세대 대중 교통 솔루션 인 Surpas로 예측합니다.

체크 아웃 경험 혁명 Sam 's Club의 혁신적인 "Just Go"시스템은 기존 AI 기반 AI 기반 "Scan & Go"기술을 기반으로하여 회원이 쇼핑 중에 Sam's Club 앱을 통해 구매를 스캔 할 수 있습니다.

GTC 2025에서 Nvidia의 향상된 예측 가능성 및 신제품 라인업 AI 인프라의 핵심 업체 인 Nvidia는 고객의 예측 가능성 증가에 중점을두고 있습니다. 여기에는 일관된 제품 제공, 성과 기대치 충족 및 충족이 포함됩니다

Google의 Gemma 2 : 강력하고 효율적인 언어 모델 효율성과 성능으로 축하되는 Google의 Gemma Family of Language 모델은 Gemma 2의 도착으로 확장되었습니다.이 최신 릴리스는 두 가지 모델로 구성됩니다 : 27 억 매개 변수 Ver Ver

이 데이터 에피소드와 함께이 선도에는 주요 데이터 과학자, 천체 물리학 자, TEDX 스피커 인 Kirk Borne 박사가 있습니다. Borne 박사는 빅 데이터, AI 및 머신 러닝 분야의 유명한 전문가 인 현재 상태와 미래의 Traje에 대한 귀중한 통찰력을 제공합니다.

이 연설에는 인공 지능이 사람들의 신체 운동을 지원하는 데 왜 좋은지를 보여주는 공학에 대한 백 그라운드 정보가 매우 통찰력있는 관점이있었습니다. 스포츠에서 인공 지능 적용을 탐구하는 데 중요한 부분 인 세 가지 디자인 측면을 보여주기 위해 각 기고자의 관점에서 핵심 아이디어를 간략하게 설명 할 것입니다. 에지 장치 및 원시 개인 데이터 인공 지능에 대한이 아이디어에는 실제로 두 가지 구성 요소가 포함되어 있습니다. 하나는 우리가 큰 언어 모델을 배치하는 위치와 관련하여 하나의 구성 요소와 다른 하나는 인간 언어와 활력 징후가 실시간으로 측정 될 때“표현”하는 언어의 차이와 관련이 있습니다. Alexander Amini는 달리기와 테니스에 대해 많은 것을 알고 있지만 그는 여전히

Caterpillar의 최고 정보 책임자이자 IT의 수석 부사장 인 Jamie Engstrom은 28 개국에서 2,200 명 이상의 IT 전문가로 구성된 글로벌 팀을 이끌고 있습니다. 현재 역할에서 4 년 반을 포함하여 Caterpillar에서 26 년 동안 Engst

Google Photos의 새로운 Ultra HDR 도구 : 빠른 가이드 Google Photos의 새로운 Ultra HDR 도구로 사진을 향상시켜 표준 이미지를 활기차고 높은 동기 범위의 걸작으로 변환하십시오. 소셜 미디어에 이상적 이며이 도구는 모든 사진의 영향을 높이고


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.
