최강 조합: HuggingFace+ChatGPT——
HuggingGPT, 여기 있어요!
"아래 사진에는 어떤 동물이 있고, 각 종은 몇 마리나 있나요?" 같은 AI 작업을 해보세요.
어떤 AI 모델이 필요한지 자동으로 분석한 후 HuggingFace에서 해당 모델을 직접 호출하여 실행하고 완료할 수 있도록 도와줍니다.
전체 과정에서 여러분이 해야 할 일은 요구사항을 자연어로 출력하는 것뿐입니다.
절강대학교와 Microsoft Research Asia의 협력으로 탄생한 이 결과는 공개되자마자 빠르게 인기를 끌었습니다.
NVIDIA AI 연구 과학자 Jim Fan이 직접 말했습니다.
이것은 제가 이번 주에 읽은 논문 중 가장 흥미로운 논문입니다. 그 아이디어는 "Everything App"(모든 것이 App이고 AI가 직접 정보를 읽음)에 매우 가깝습니다.
그리고 한 네티즌은 "허벅지를 직접 뺨친다":
이거 ChatGPT '택배 옮기는 남자' 아닌가요?
AI는 빠른 속도로 진화하고 있으며 우리에게 먹을 것을 제공하고 있습니다...
그렇다면 정확히 무슨 일이 일어나고 있는 걸까요?
사실 이 조합을 그냥 "Hugging Man"이라고 한다면 패턴이 너무 작습니다.
진정한 의미는 AGI입니다.
저자가 말했듯이 AGI를 향한 핵심 단계는 다양한 도메인과 모드로 복잡한 AI 작업을 해결하는 능력입니다.
현재 결과는 아직 이와 거리가 멀습니다. 많은 모델이 특정 작업만 잘 수행할 수 있습니다.
그러나 언어 이해, 생성, 상호 작용 및 추론 분야에서 대규모 언어 모델 LLM의 성능은 저자가 다음과 같이 생각하게 만들었습니다.
이들은 "모든 사람을 동원하고 결합"함으로써 기존의 모든 AI 모델을 관리하는 중간 컨트롤러로 사용할 수 있습니다. of AI'를 통해 복잡한 AI 과제를 해결합니다.
이 시스템에서는 언어가 보편적인 인터페이스입니다.
그래서 HuggingGPT가 탄생했습니다.
엔지니어링 프로세스는 4단계로 나뉩니다.
먼저 작업 계획입니다. ChatGPT는 사용자의 요구 사항을 작업 목록으로 구문 분석하고 작업 간의 실행 순서와 리소스 종속성을 결정합니다.
둘째, 모델 선택입니다. ChatGPT는 HuggingFace에서 호스팅되는 각 전문가 모델의 설명을 기반으로 작업에 적절한 모델을 할당합니다.
그러면 작업이 실행됩니다. 하이브리드 엔드포인트(로컬 추론 및 HuggingFace 추론 포함)에서 선택된 전문가 모델은 작업 순서 및 종속성에 따라 할당된 작업을 실행하고 실행 정보 및 결과를 ChatGPT에 제공합니다.
마지막으로 결과를 출력합니다. ChatGPT는 각 모델의 실행 프로세스 로그와 추론 결과를 요약하고 최종 출력을 제공합니다.
아래 사진과 같습니다.
다음과 같은 요청을 한다고 가정해 보겠습니다.
책을 읽고 있는 소녀의 사진을 생성하세요. 소녀의 자세는 example.jpg의 소년과 동일합니다. 그런 다음 음성을 사용하여 새 이미지를 설명하세요.
HuggingGPT가 이를 6개의 하위 작업으로 분해하고 각각 실행할 모델을 선택하여 최종 결과를 얻는 방법을 확인할 수 있습니다.
특정 효과는 무엇인가요?
저자는 OpenAI API를 통해 공개적으로 접근할 수 있는 두 가지 변형인 gpt-3.5-turbo와 text-davinci-003을 사용하여 실제 측정을 수행했습니다.
아래 그림과 같이:
작업 간에 리소스 종속성이 있는 경우 HuggingGPT는 사용자의 추상 요청에 따라 특정 작업을 올바르게 구문 분석하고 이미지 변환을 완료할 수 있습니다.
오디오 및 비디오 작업에서는 두 모델을 각각 병렬 및 직렬로 실행하여 "우주를 걷는 우주비행사" 영상과 더빙 작업을 통해 모델 간의 협력을 구성하는 능력도 보여주었습니다.
또한 여러 사용자의 입력 리소스를 통합하여 다음 세 그림에 얼룩말이 몇 마리 있는지 세는 등 간단한 추론을 수행할 수 있습니다.
한 문장으로 요약: HuggingGPT는 다양한 형태의 복잡한 작업에서 좋은 성능을 보여줄 수 있습니다.
현재 HuggingGPT의 논문이 공개되었으며 프로젝트는 진행 중입니다. 코드의 일부만 오픈 소스화되었으며 별 14,000개를 받았습니다.
프로젝트 이름이 HuggingGPT가 아니라 Iron Man에 등장하는 AI 집사 JARVIS라는 것을 알아냈습니다.
어떤 사람들은 그 아이디어가 3월에 출시된 Visual ChatGPT와 매우 유사하다는 것을 발견했습니다. 후자의 HuggingGPT는 주로 호출 가능한 모델의 범위가 수와 유형을 포함하여 더 많은 것으로 확장되었습니다.
예, 사실 모두 공통 저자가 있습니다: Microsoft Asia Research Institute.
구체적으로 Visual ChatGPT의 저자는 MSRA 수석 연구원 Wu Chenfei이고, 교신 저자는 MSRA 수석 연구원 Duan Nan입니다.
HuggingGPT에는 두 명의 공동 저자가 포함되어 있습니다.
절강대학교 출신이며 MSRA에서 인턴십을 하는 동안 이 작업을 완료한 Shen Yongliang,
MSRA의 연구원인 Song Kaitao.
교신저자는 저장대학교 컴퓨터과학과 교수 Zhuang Yueting입니다.
마지막으로 네티즌들은 이 강력한 새 도구의 탄생에 매우 기뻐하고 있습니다. 일부 사람들은 다음과 같이 말했습니다.
ChatGPT는 인간이 만든 모든 AI의 총사령관이 되었습니다.
어떤 사람들은
AGI가 LLM이 아니라 "중개자" LLM으로 연결된 여러 상호 연관된 모델일 수도 있다고 믿습니다.
그럼 '세미AGI' 시대가 시작된 걸까요?
논문 주소:https://www.php.cn/link/1ecdec353419f6d7e30857d00d0312d1
프로젝트 링크:https://www.php.cn/link/859555c74e9afd45 ab 771c615c1e49a6
참조 링크:https://www.php.cn/link/62d2b7ba91f34c0ac08aa11c359a8d2c
위 내용은 HuggingGPT는 인기가 있습니다. ChatGPT는 모든 AI 모델을 제어하고 사람들이 AI 작업을 완료하도록 자동으로 돕습니다. 네티즌: 입을 두고 먹으세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!