작가 첸 완, 리 위안
편집자 진규
현지 시간으로 6월 28일, 미국의 유명 데이터 플랫폼인 Databricks가 자체 연례 컨퍼런스인 Data and Artificial Intelligence Summit을 개최했습니다. 회의에서 Databricks는 LakehouseIQ, Lakehouse AI, Databricks Marketplace 및 Lakehouse Apps와 같은 일련의 중요한 신제품을 발표했습니다.
서밋의 이름이든 신제품의 이름이든 이 잘 알려진 데이터 플랫폼은 빅 언어 모델을 활용하여 AI로의 전환을 가속화하고 있음을 알 수 있습니다.
Databricks CEO Ali Ghodsi는 데이터와 AI의 포괄성을 말했습니다.|Databricks
"Databricks가 달성하고자 하는 것은 '데이터 포괄성'과 AI 포괄성입니다. 전자는 데이터가 모든 직원에게 전달될 수 있도록 하고, 후자는 AI가 모든 제품에 들어갈 수 있도록 허용합니다. Databricks의 CEO인 Ali Ghodsi는 연설에서 팀의 사명을 발표했습니다.
컨퍼런스가 시작되기 직전 데이터브릭스는 AI 분야의 새로운 강자인 모자이크ML(MosaicML)을 13억 달러에 인수한다고 발표했는데, 이는 AI 분야에서 현재 인수 기록을 세웠으며, 이는 회사의 강점과 결단력을 보여준다. AI 혁신에서.
앞서 회의에 참석한 PingCAP 창립자이자 CEO인 Liu Qi는 Geek Park에게 Databricks 플랫폼이 이제 막 엔터프라이즈급 AI 애플리케이션을 출시했으며 이미 1,500개 이상의 회사에서 모델을 교육하고 있다고 말했습니다. "그 숫자는 기대를 뛰어넘습니다. " 동시에, 그는 데이터브릭스가 이전에 데이터+AI에 축적한 덕분에 AI가 대중화되었을 때 이전 플랫폼을 기반으로 새로운 제품을 빠르게 추가하고, 대형 모델과 관련된 서비스를 빠르게 제공할 수 있었다고 믿는다.
"가장 중요한 것은 속도입니다." Liu Qi는 대형 모델 시대에 어떻게 하면 대형 모델을 기존 제품과 더 빠르게 통합하고 사용자의 문제점을 해결할 수 있는지가 현재 모든 데이터 회사의 가장 큰 과제가 될 수 있다고 말했습니다. 이는 모든 데이터 기업에게 가장 큰 기회이기도 합니다.
대화 포인트
데이터베이스는 자연어 상호작용을 환영합니다
Databricks는 컨퍼런스에서 "아티팩트"로 환영받는 새로운 LakehouseIQ 도구를 출시했습니다. LakehouseIQ는 최근 Databricks의 가장 큰 노력 중 하나인 데이터 분석의 보편화를 추진하고 있습니다. 즉, Python과 SQL에 익숙하지 않은 일반 사람들도 쉽게 회사 데이터에 접근하고 자연어를 사용하여 데이터 분석을 수행할 수 있습니다.
이 목표를 달성하기 위해 LakehouseIQ는 일반 최종 사용자와 개발자 모두가 사용할 수 있는 기능 모음으로 설계되었으며, 다양한 사용자를 위해 설계된 다양한 기능이 있습니다.
LakehouseIQ 제품 사진|Databricks
개발자를 위해 LakehouseIQ in Notebooks가 출시되었습니다. 이 기능에서 LakehouseIQ는 대규모 언어 모델을 사용하여 개발자가 코드를 완성, 생성 및 해석하고 코드 복구, 디버깅 및 보고서 생성을 수행하도록 돕습니다.
프로그래머가 아닌 일반 사용자를 위해 Databricks는 자연어와 직접 상호 작용할 수 있는 인터페이스를 제공합니다. 이는 대규모 언어 모델을 기반으로 하며 자연어를 사용하여 데이터를 직접 검색하고 쿼리할 수 있습니다. 동시에 이 기능은 Unity Catalog와 통합되어 기업이 데이터 검색 및 쿼리에 대한 액세스를 제어하고 질문자가 볼 수 있는 권한이 있는 데이터만 반환할 수 있습니다.
대형 모델 출시 이후 자연어를 활용해 데이터를 질의하고 분석하는 것이 실제로 데이터 분석 방향에서 핫스팟이었으며, 많은 기업들이 이 방향으로 계획을 세웠습니다. Databricks의 오랜 라이벌인 Snowflake를 포함하여 방금 발표된 Document AI 기능도 이 방향에 중점을 두고 있습니다.
LakehouseIQ 자연어 쿼리 인터페이스|Databricks
그러나 Databricks는 LakehouseIQ가 기능적으로 더 나은 성능을 발휘한다고 주장합니다. 범용 빅언어 모델은 특정 고객 데이터, 내부 용어, 사용 패턴 등을 이해하는 데 한계가 있다는 점을 지적한다. Databricks의 기술은 고객의 자체 스키마, 문서, 쿼리, 인기도, 스레드, 노트북 및 비즈니스 인텔리전스 대시보드를 활용하여 인텔리전스를 얻고 더 많은 쿼리에 답변합니다.
Databricks와 Snowflake의 기능에는 또 다른 차이점이 있습니다. Snowflake 플랫폼의 Document AI 기능은 문서의 비정형 데이터를 쿼리하는 데 제한되어 있는 반면 LakehouseIQ는 구조화된 Lakehouse 데이터 및 코드에 적합합니다.
02
머신러닝부터 AI까지
출시 당시 Databricks와 Snowflake의 유사점은 여기서 끝나지 않습니다.
이 컨퍼런스에서 Databricks는 Snowflake가 이틀 동안 진행한 컨퍼런스의 초점과 완전히 일치하는 Databricks Marketplace와 Lakehouse AI를 출시했습니다. 둘 다 대규모 언어 모델을 데이터베이스 환경에 배포하는 데 중점을 둡니다.
Databricks의 비전에 따르면 Databricks는 고객이 향후 대형 모델을 배포하도록 지원할 뿐만 아니라 완성된 대형 모델 도구도 제공할 수 있습니다.
Databricks는 Databricks Machine Learning 브랜드를 보유하고 있었습니다. 이번 기자간담회에서 Databricks는 브랜드를 완전히 재배치하고 이를 Lakehouse AI로 업그레이드하여 고객의 대형 모델 배포 지원에 중점을 두었습니다.
Databricks Marketplace는 이제 Databricks에서 사용할 수 있습니다. Databricks Marketplace에서 사용자는 MPT-7B, Falcon-7B 및 Stable Diffusion을 포함하여 선별된 오픈 소스 대규모 언어 모델 컬렉션에 액세스할 수 있으며 데이터 세트 및 데이터 자산을 검색하고 얻을 수도 있습니다. Lakehouse AI는 일부 대형 언어 모델 작업(LLMOps) 기능도 제공합니다.
Lakehouse AI 아키텍처 다이어그램|Databricks
Snowflake는 Nvidia NeMo, Nvidia AI Enterprise, Dataiku 및 John Snow Labs에서 제공하는 유사한 기능을 통해 이를 적극적으로 배포하고 있습니다(Nvidia와의 협력은 Snowflake 컨퍼런스의 하이라이트 중 하나입니다. Geek Park의 보고서 참조).
Snowflake와 Databricks는 고객이 대규모 모델을 배포하도록 지원하는 데 있어 차이점이 있습니다. Snowflake는 파트너와 적극적으로 협력하기로 결정했으며 Databricks는 이 기능을 핵심 플랫폼의 기본 기능으로 추가하려고 했습니다.
완성된 도구 제공 측면에서 Databricks는 Databricks Marketplace가 향후 Lakehouse Apps도 제공할 것이라고 발표했습니다. Lakehouse Apps는 고객의 Databricks 인스턴스에서 직접 실행되며, 여기에서 고객의 데이터와 통합하고 Databricks 서비스를 사용 및 확장하며 사용자가 Single Sign-On 환경을 통해 상호 작용할 수 있습니다. 데이터는 고객의 인스턴스를 떠날 필요가 없으며 데이터 이동 및 보안/액세스 문제가 없습니다.
네이밍이나 기능면에서 Snowflake 제품과 완전히 일치합니다. Snowflake와 유사한 Snowflake Marketplace 및 Snowflake Native App은 이미 온라인 상태이며 출시의 하이라이트 중 하나입니다. Bloomberg는 Snowflake 컨퍼런스에서 Bloomberg가 제공하는 Data License Plus(DL+) 앱을 발표했습니다. 이를 통해 고객은 완벽하게 모델링된 Bloomberg 구독 데이터와 여러 공급업체의 ESG 콘텐츠를 사용하여 클라우드에서 즉시 사용 가능한 환경을 구성할 수 있습니다.
03
데이터 플랫폼이 새로운 변화를 맞이하고 있습니다
개회 기조연설에서 Databricks는 다음과 같은 수치를 발표했습니다. 지난 30일 동안 1,500명 이상의 고객이 Databricks 플랫폼에서 Transformer 모델을 교육했습니다.
이 인상적인 수치에 대해 PingCAP Liu Qi는 이것이 기업이 예상보다 훨씬 빠르게 AI를 적용하고 있음을 보여준다고 믿습니다. “모델을 적용하기 위해 모델을 훈련할 필요는 없으므로 훈련 모델에 1500개의 홈이 있으면 애플리케이션이 이 (숫자)보다 훨씬 커야 합니다.”
.또 다른 관점은 이것이 AI 분야에서 Databricks의 전략적 레이아웃이 상당히 포괄적이라는 것을 보여준다는 것입니다. 이제 이는 단순한 데이터 웨어하우스나 데이터 레이크 그 이상입니다. 이제 AI 훈련, AI 서비스, 모델 관리 등도 제공됩니다. "
Ali Ghodsi는 컴퓨팅과 인터넷의 혁명을 사용하여 기계 학습에서 대형 모델의 변형을 비교합니다.|Databricks
즉, 기본 모델은 Databricks 플랫폼에서 학습할 수 있으며, 가장 낮은 수준의 모델은 간단히 매개변수 조정만으로 학습할 수 있습니다. 이 모델 위에 필요한 AI 서비스를 위해 Databricks는 해당 인프라도 배치했으며 오늘 벡터 검색 및 기능 저장소를 출시했습니다.
Databricks가 대형 모델로 완전히 업그레이드되었습니다.
과거 Databricks는 소규모 모델을 사용하여 인덱스 구축, 데이터 쿼리, 워크로드 예측 시 효율성을 높이고 대기 시간을 줄이는 등 AI 분야에서 많은 것을 축적해 왔습니다. 그러나 이렇게 빠른 속도로 대형 모델을 보완하는 능력은 여전히 많은 사람들을 놀라게 합니다.
오늘 서밋에서 AI 레이아웃이 완전히 공개되기 전에 Databricks는 Okera(AI 데이터 거버넌스) 인수, 자체 오픈소스 대형 모델 Dolly 2.0 출시, 13억 달러에 mosaicML 인수 등 일련의 작업을 한 번에 완료했습니다.
이와 관련하여 Silicon Valley의 교사인 Howie는 Databricks와 Snowflake의 두 컨퍼런스에서 이를 명확하게 볼 수 있다고 믿습니다. 두 회사의 창립자는 데이터베이스와 데이터 레이크를 기반으로 취한 조치가 직면하게 될 것이라고 믿습니다. 앞으로는 근본적인 문제가 바뀔 것입니다. 1년 전에 했던 방식은 앞으로 몇 년 동안은 작동하지 않을 것입니다.
따라서 대형 모델을 빠르게 완성할 수 있다는 것은 대형 모델이 가져오는 증분 시장을 확보할 수 있다는 의미이기도 합니다.
Liu Qi는 대형 모델의 출현이 대형 모델 이전에는 존재하지 않았던 많은 새로운 요구를 촉발했다고 믿습니다. 데이터 지원이 없으면 모델은 특히 차별화 측면에서 기능할 수 없습니다. 모두가 큰 모델이라면 당신과 다른 사람들 사이에 차이가 없을 수도 있습니다. "
하지만 정상회담에 참석한 청중들은 대형 모델에 비해 속도, 비용, 안전성 등 소형 모델의 여러 장점 때문에 소형 모델에 더 관심을 두는 것 같았습니다. Liu Qi는 자신의 고유한 데이터를 기반으로 차별화된 모델을 만들 수 있다고 말했습니다. 모델은 충분히 저렴하고 빠르며 안전하다는 세 가지 요구 사항을 충족할 만큼 작아야 합니다.
Databricks와 Snowflake 모두 최근 수익 데이터를 발표했으며 플랫폼의 연간 수익 성장이 60% 이상이라는 점은 주목할 가치가 있습니다. 이러한 성장률은 시장 전반의 소프트웨어 지출 둔화로 인해 데이터에 대한 관심이 높아지고 있다는 사실에 반영됩니다. 대규모 모델의 등장과 함께 데이터 플러스 AI를 주제로 한 이번 Databricks Summit에서는 데이터의 가치가 부각되었습니다.
대규모 모델의 도입으로 자동 데이터 생성이 가능해지며, 데이터의 양은 기하급수적으로 늘어날 것으로 예상됩니다. 데이터에 쉽게 액세스하는 방법, 다양한 데이터 형식을 지원하는 방법, 데이터 이면의 가치를 마이닝하는 방법에 대한 요구가 점점 더 빈번해지고 있습니다.
반면, 오늘날 많은 기업은 여전히 대규모 모델을 엔터프라이즈 소프트웨어에 통합하기 위해 탐색하고 기다리고 있습니다. 그러나 보안, 개인 정보 보호 및 비용을 고려하여 직접 사용하려는 기업은 거의 없습니다. 데이터 이동 없이 대규모 모델을 기업 데이터에 직접 배포하게 되면, 대규모 모델 배포에 대한 임계값이 더욱 낮아지고, 데이터 소비량과 속도가 더욱 공개될 것입니다.
위 내용은 380억 달러 규모의 데이터 거대 기업이 기업에 "AI" 혁명을 일으키고 싶어합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!