36 크립톤은 5월 23일 "Disruption·AIGC"라는 산업 발전 서밋을 개최했습니다. 이번 서밋은 업계의 힘을 모아 변화에 직면한 기업과 업계의 대응 전략을 공동으로 논의하고, 생각을 공유하며, 업계에서 가장 잠재력 있는 기업과 가장 가치 있는 기술을 탐구 및 발굴하고, 격동적인 환경에서 앞으로 나아갈 길을 모색합니다.
이번 컨퍼런스에서 센스타임 공동 창업자이자 대형 디바이스 사업그룹 사장인 양판(Yang Fan)은 '대형 모델의 물결이 가져온 AI 산업 발전의 새로운 기회'라는 주제로 기조연설을 했다. Yang Fan은 AI의 새로운 물결에는 두 가지 특징이 있다고 믿습니다. 첫째, 기술 혁신에서 비즈니스 모델 혁신까지의 주기가 더 짧아지고, 둘째, 지난 10년에 비해 기술 성과가 상업 및 산업 탐색 및 실습에 더 빠르게 사용됩니다. , 현재 인공지능의 산업화로 인해 기술적 이점을 데이터 장벽으로 전환하고 이점을 확장하는 것이 더 쉬워졌습니다.
양판 역시 자신의 견해를 내세우며 인공지능 기술이 획기적인 발전을 이룬 이유를 설명했습니다. 그는 대형 모델의 성공이 여전히 인공 지능의 "데이터, 컴퓨팅 성능 및 알고리즘"의 폭력적인 미학을 확인하고 있지만 실제로는 이 세 가지 요소 뒤에는 포괄적인 시스템 엔지니어링이 있다고 믿습니다. OpenAI를 예로 들어 Yang Fan은 데이터 엔지니어링을 잘 수행하는 방법, 칩의 효과적인 리소스 활용을 개선하는 방법, 저렴하면서도 구조가 잘 구성된 알고리즘을 설계하는 방법 등 모든 링크에는 다음이 필요하다고 지적했습니다. 전문적인 경험과 지식, 시스템 엔지니어링 역량을 지원합니다. 그는 이것이 모델 레이어 기업의 핵심 기술 역량의 궁극적인 발현일 뿐만 아니라 AI 인프라 서비스를 제공하는 데 필요한 핵심 역량이라고 믿습니다.
다음은 Yang Fan의 연설 전문입니다(36 Krypton 정리 및 편집):
안녕하세요 여러분! 오늘 36 Krypton 행사에서 대형 모델의 업계 동향을 여러분과 공유할 수 있게 되어 영광입니다.
업계가 격변하는 이 시기에 몇 가지 견해를 공유하고 싶습니다. 우선, 오늘날 대형 모델에 대해 이야기할 때, 수천억 또는 수백억보다 큰지에 대한 정확한 정의가 없습니다. 제 생각엔 2012년부터 지금까지 10여년 사이에 인공지능의 모델구조도 점점 커지고, 매개변수의 수도 점점 늘어나는 것 같아요. 이제 다들 왜 갑자기 개념이 떠오르는 걸까요? 더 많은 관심을 불러일으킨 것은 무엇입니까? 2016년 알파고로 대표되는 새로운 애플리케이션과 개인 소비자 사이에는 강한 상관관계가 있음을 알 수 있습니다. 지난 2년 동안 인공지능 기술은 새로운 발전과 돌파구를 마련했습니다. 우선, 이러한 진보와 돌파구는 모든 사람에게 관련이 있습니다. 둘째, 이러한 혁신은 실제로 생물학, 물리학 등 과학 연구 분야의 다른 분야에서 혁신적인 작업을 완료할 수 있다고 생각합니다. 화학 또는 오늘날 모두가 주목하고 있는 ChatGPT 모델과 같은 기타 영역은 우리의 기반 기술 전체를 주도하고 새로운 발전을 이룰 수 있는 잠재력을 가지고 있기 때문에 매우 의미가 있습니다. 이러한 새로운 진보는 앞으로 인류에게 더 많은 발전을 가져올 가능성이 높습니다.
2021년부터 더 많은 기술 혁신이 계속해서 발생할 것입니다. 동시에 우리는 매우 흥미로운 현상을 목격했습니다. 이번 기술 혁신이 기술 분야에서 특정 결과를 얻은 후 우리는 산업과 비즈니스에서 이를 탐구하고 실천하기 시작했습니다. 주기가 이전보다 짧아집니다. 그 이후 국내외에서 수많은 혁신적인 기업들이 설립되고, 교수들과 학자들이 창업을 하기 시작했고, 과거 시장에서도 이런 길이 있었을 거라 생각하고, 투자자들도 좀 더 인정받게 되었다고 생각합니다. , 일부 Vincentian API 발표를 포함하여 사람들은 곧 Xiaohongshu에서 인터넷 유명인이 되려고 노력하기 시작했습니다.
기술 혁신부터 상업적 혁신에 이르기까지 많은 추세를 볼 수 있지만 이 주기는 더 짧은 것 같습니다. 최근에 참여한 일부 포럼에서 대부분의 사람들이 어떤 종류의 대형 모델을 만들고 싶은지, 모델이 얼마나 크고 강력한지, 이 모델로 무엇을 하고 싶은지, 어떻게 구축할지에 대해 이야기하는 것을 발견했습니다. 특정 특정 시나리오. 중국의 주요 모델은 아직 정부 감독으로부터 공식 API 라이센스를 받지 못했지만 지난 두 달 동안 큰 확장 변화가 있었습니다.
그래서 이는 주목할만한 현상이라고 생각합니다. 이번 대형 모델의 상용화 과정이 더 빨라진 이유는 무엇일까요? 매우 중요한 점은 더 많은 C 측면 애플리케이션을 수행할 수 있는 많은 새로운 기술이 동시에 자연스럽게 데이터 축적의 폐쇄 루프를 형성할 수 있어 과거의 기술 창업보다 비즈니스 장벽을 설정하기가 더 쉽다는 것입니다. . 나는 이것이 최근 몇 달 동안 업계에서 보아온 추세라고 생각합니다.
양판, SenseTime 공동 창업자이자 대형 디바이스 사업 그룹 회장
둘째, 오늘날 우리가 사용하는 대형 모델 기술의 배경입니다. 대형 모델이든 지난 10년을 되돌아보든 인공지능 산업 전체의 발전과 변화는 기본적으로 인공지능의 전통적인 3대 요소인 데이터, 컴퓨팅 파워, 알고리즘. 알고리즘은 모델 구조로 이해될 수 있습니다. 오늘날 우리는 이러한 대형 모델, 또는 더 새로운 기술적 결과를 달성한 모델이라고 부릅니다. 데이터 세트의 규모에 사용되는 컴퓨팅 성능의 규모이든 거의 모든 모델이 모든 분야에서 사용됩니다. 알고리즘 자체는 실제로 매우 높은 성장률을 유지해 왔으며, Transformer 모델은 매우 안정적이고 매우 효과적이어서 많은 분야의 문제를 해결할 수 있습니다. 매우 일반화 가능한 결과를 얻을 수 있을 만큼 데이터의 양이 많다는 것을 알게 되면, 어떤 의미에서는 인공지능 기술 발전의 일반적인 방향이 폭력을 사용하여 기적을 낳는 것이고, 더 많은 자원을 통합하면 더 많은 자원을 통합할 수 있다는 것을 더욱 증명할 수 있습니다. 더 나은 결과를 얻으십시오.
그러나 이러한 리소스만으로는 충분하지 않습니다. 각 요소가 좋은 결과를 내기 전에 각 분야에서 많은 양의 전문 엔지니어링 실습이 이루어져야 합니다.
사실 방금 게스트의 연설에서는 컴퓨팅 파워 분야에서 왜 대규모 컴퓨팅 파워가 필요한지 설명했습니다. 이러한 대규모 컴퓨팅 파워를 어떻게 연결할 수 있을까요? 현재 1,000장의 카드가 있다면 비용 효율적으로 만들고 60%, 80%, 심지어 90%의 유효 활용률을 달성할 수 있을까요? 아니면 오늘 1000장, 2000장, 4000장의 카드를 연결하면 어떤 효과가 있을까요? OpenAI는 이전에 10,000개의 V100 카드를 연결했지만 현재 중국에서는 10,000개의 카드를 함께 연결하여 동일한 교육 작업을 실행하고 50% 또는 60% 이상의 효과적인 리소스 활용률을 달성할 수 없습니다. 아직 그런 결과가 없는데 왜죠? 그 뒤에는 매우 복잡한 엔지니어링 이벤트가 있습니다. 예를 들어, 수천억 개의 매개변수가 있는 모델에는 훈련 중에 많은 양의 데이터 상호 작용과 중간 기울기 정보 상호 작용이 필요합니다. 수천 개의 GPU 카드에 대한 많은 양의 데이터 전송과 작업 결과 전송을 결합하면 효과적인 균형이 이루어집니다. , Point-to-Point 간에 모델이 수행되는 경우가 많으며 네트워크 구조에서는 2대2 전송이 필요합니다. 수천 장의 카드를 연결하면 어떤 효과가 허용됩니까? 사실 전혀 복잡하지 않습니다. 마치 엔지니어링 연습을 많이 한 것처럼 말입니다. 글쎄요, 당신은 다른 사람들보다 더 잘 조율할 수 있을 것입니다. 이 문제는 경험의 매우 중요한 문제입니다.
알고리즘도 마찬가지입니다. 오늘날의 알고리즘 구조 설계는 원래 것보다 저렴할 수 있습니다. 구조가 잘 설계되면 더 적은 수의 매개변수와 더 작은 데이터를 사용하여 특별한 최적화 없이도 설계와 유사한 최종 알고리즘 효과를 얻을 수 있습니다. 데이터는 물론 전문 지식도 많이 필요합니다.
OpenAI가 ChatGPT4를 할 때 결국에는 수집된 데이터 중 아주 작은 부분(10% 미만)만 훈련에 사용했습니다. 이는 리소스 절약과 전체 훈련 사이의 큰 격차입니다. 데이터가 매우 큽니다. 어떤 데이터가 더 효과적인가요? 훈련을 할 때 실제로 어떤 데이터를 먼저 버려야 할지, 어떤 방법을 나중에 버려야 할지 사이에서 시행착오가 많이 발생합니다. 컴퓨팅 성능이 이렇게 부족하고 모든 사람이 더 많은 컴퓨팅 성능을 필요로 하는 이유는 무엇입니까? 대형 모델을 만드는 많은 사람들이 노력하고 실수를 하기 때문에 동시에 3~4개의 그룹으로 나누어 서로 다른 방향으로 시도하고 실수를 저지른 다음 점차적으로 반복적인 미학이나 대규모 자원 수집을 수행할 수 있습니다. 이것이 오늘날 AI 기술과 AI 알고리즘을 가능하게 하는 이유입니다.
종합적인 시스템 엔지니어링에는 모든 링크에서 전문가의 경험과 시스템 엔지니어링 역량이 필요합니다. 이는 또한 OpenAI를 통해 최고의 과학자들이 알고리즘 대신 데이터 엔지니어링을 수행할 수 있음을 보여줍니다. 이는 앞으로 이 분야에 대한 우리의 이해를 크게 뛰어넘는 것이며, 이는 또한 시장에 서비스를 제공하는 핵심 역량이 될 것입니다. .
새로운 인공지능 기술이 나온 후 업계의 물결이 매우 빠르게 이어진 이유는 모델 서비스가 자연스럽게 여러 분야에 적합하다는 것을 알았기 때문입니다. . 상용화 기준점과 장벽의 변화는 대규모 모델에 새로운 기회를 제공할 것입니다. 그러나 이러한 기회에 대한 접근은 개인의 차이와 전문성에 따라 달라집니다. 어쨌든 지난 10년에 비해 오늘날의 인공지능 산업화는 단일한 기술적 장벽이 아니기 때문에 매우 큰 이점을 갖게 될 것입니다. 오늘날의 기술적 이점은 데이터 장벽과 규모의 이점으로 전환될 수 있다고 믿습니다. 미래에는 더 많은 산업 응용이 가능합니다.
SenseTime은 2019년부터 초기 대형 모델 제작을 시작했습니다. 저희 생각에는 AI 모델 전체가 점점 커지고 있어 일부 CV 및 NLP 모델을 자체 개발하는 등 많은 내부 역량을 축적해 왔습니다. 올해 4월 SenseTime은 일부 대규모 언어 모델을 포함하여 업계 파트너가 시험적으로 사용할 수 있도록 일부 모델의 API를 공개했습니다. 이는 핵심 기본 기술 역량의 축적을 궁극적으로 보여주는 것입니다.
우리는 올해 일련의 모델을 출시했습니다. 시장에 대한 서비스 지원 뒤에는 인공지능 산업 전체가 발전함에 따라 누군가는 이러한 대규모의 효율적인 인프라를 제공해야 한다고 생각합니다. 피할 수 없는 길. 향후 AI 기술 물결 전체가 점점 더 많은 자원 소모와 전문가 경험 축적이 수반되는 게임이 된다면 실제로 그 문턱이 극도로 높아 산업 내 AI의 신속한 적용에 도움이 되지 않는다고 판단한다. 차별화는 필연적으로 형성될 것이고, 사람은 분명히 있을 것입니다. 모델 API를 호출하는 형태이든, 이를 기반으로 작은 모델을 만드는 형태이든, 또는 다른 방식으로 인프라 서비스를 제공하면 기본 AI 리소스와 기능을 낮은 임계값과 성능으로 빠르게 사용할 수 있습니다. 저렴한 비용으로 폐쇄 루프 비즈니스 모델을 신속하게 개선할 수 있습니다.
SenseTime의 대규모 장비 포지셔닝은 현재 아시아 최대 규모의 인공 지능 컴퓨팅 노드를 보유하고 있으며 파트너가 사용할 수 있도록 많은 업계 협력을 제공합니다. 대규모 장치 교육을 위한 대규모 모델은 SenseTime의 심층적인 축적을 반영합니다. 리소스 수준이든 전문 엔지니어링 인지 수준이든 우리 기능의 일부는 표준화될 수 있으며 부분적으로는 표준화할 수 없는 소프트웨어 및 서비스로 전환될 수 있습니다. 우리는 이를 전문적인 분류 서비스로 전환하여 고객이 자신만의 도메인 모델이나 모델 애플리케이션을 만들 수 있도록 이러한 기능을 패키지화하여 전체 업계에 제공할 수 있기를 바랍니다.
대형 SenseTime 장치를 사용하여 대규모 AI 모델을 훈련하세요.
출처: 36氪
위 내용은 SenseTime 공동 창업자 Yang Fan: 대형 모델의 물결이 가져오는 AI 산업 발전의 새로운 기회의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!