LLM 너머: 소규모 언어 모델이 AI의 미래인 이유는 다음과 같습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

LLM 너머: 소규모 언어 모델이 AI의 미래인 이유는 다음과 같습니다.

Jennifer Aniston

Dec 13, 2024 pm 03:53 PM

빠른 링크

소형 언어 모델이란 무엇인가요?

작은 언어 모델 대 대형 언어 모델

소형 언어 모델이 미래인 이유

요약

Open AI, Google, Microsoft, Meta 등 대기업들이 SLM에 투자하고 있습니다.
SLM은 업계 전반에서 인기를 얻고 있으며 미래 AI로 더 나은 위치에 있습니다.
SLM의 예로는 Google Nano, Microsoft의 Phi-3, Open AI의 GPT-4o mini 등이 있습니다.

Open AI의 ChatGPT 출시로 대규모 언어 모델(LLM)이 주목을 받았습니다. 그 이후로 여러 회사에서도 LLM을 시작했지만 이제는 더 많은 회사가 소규모 언어 모델(SLM)을 지향하고 있습니다.

SLM이 점점 탄력을 받고 있는데 SLM이 무엇이며 LLM과 어떻게 다른가요?

작은 언어 모델이란 무엇입니까?

SLM(Small Language Model)은 매개 변수가 더 적은 일종의 인공 지능 모델입니다(훈련 중에 학습한 모델의 값이라고 생각하세요). 더 큰 규모의 SLM과 마찬가지로 SLM은 텍스트를 생성하고 다른 작업을 수행할 수 있습니다. 그러나 SLM은 훈련에 더 적은 수의 데이터 세트를 사용하고, 더 적은 매개변수를 가지며, 훈련 및 실행에 필요한 계산 능력도 더 적습니다.

SLM은 주요 기능에 중점을 두고 있으며 설치 공간이 작다는 것은 다음을 포함한 다양한 장치에 배포할 수 있다는 것을 의미합니다. 모바일 장치와 같은 고급 하드웨어가 없습니다. 예를 들어 Google의 Nano는 모바일 장치에서 실행되도록 처음부터 구축된 온디바이스 SLM입니다. 회사에 따르면 Nano는 크기가 작기 때문에 네트워크 연결 유무에 관계없이 로컬로 실행할 수 있습니다.

small language model gemini nano use examples — 구글

나노 외에도 많아요 AI 분야의 선두 기업과 미래 기업의 기타 SLM. 일부 인기 있는 SLM에는 Microsoft의 Phi-3, OpenAI의 GPT-4o mini, Anthropic의 Claude 3 Haiku, Meta의 Llama 3 및 Mistral AI의 Mixtral 8x7B가 포함됩니다.

다른 옵션도 사용할 수 있으며 LLM이라고 생각할 수도 있지만 실제로는 SLM. 이는 대부분의 회사가 포트폴리오에 둘 이상의 언어 모델을 출시하고 LLM과 SLM을 모두 제공하는 다중 모델 접근 방식을 취하고 있다는 점을 고려할 때 특히 그렇습니다. 한 가지 예로 GPT-4, GPT-4o(Omni), GPT-4o mini 등 다양한 모델이 있는 GPT-4가 있습니다.

소규모 언어 모델 vs. 대규모 언어 모델

SLM을 논의할 때 큰 모델인 LLM을 무시할 수 없습니다. SLM과 LLM의 주요 차이점은 모델 크기이며 이는 매개변수로 측정됩니다.

이 글을 쓰는 시점에서 AI 업계에서는 최대 개수에 대한 합의가 없습니다. 모델은 SLM으로 간주되기 위해 매개변수 수 또는 LLM으로 간주되기 위해 필요한 최소 수를 초과해서는 안 됩니다. 그러나 SLM에는 일반적으로 수백만에서 수십억 개의 매개변수가 있는 반면, LLM에는 그보다 많게는 수조 개에 달하는 매개변수가 있습니다.

예를 들어 2020년에 출시된 GPT-3에는 1,750억 개의 매개변수가 있습니다(그리고 GPT-4 모델은 약 1조 7,600억개 정도가 있다는 소문이 있음), 마이크로소프트의 2024년형 Phi-3-mini, Phi-3-small, Phi-3-medium SLM은 각각 3.8, 7, 140억 개의 매개변수를 측정합니다.

small language models versus large language models chart — Microsoft

SLM과 LLM의 또 다른 차별화 요소는 훈련에 사용되는 데이터의 양입니다. SLM은 더 적은 양의 데이터를 학습하는 반면, LLM은 대규모 데이터 세트를 사용합니다. 이러한 차이는 복잡한 작업을 해결하는 모델의 기능에도 영향을 미칩니다.

훈련에 사용되는 대규모 데이터로 인해 LLM은 고급 추론이 필요한 다양한 유형의 복잡한 작업을 해결하는 데 더 적합하고 SLM은 간단한 작업에 더 적합합니다. 작업. LLM과 달리 SLM은 교육 데이터를 덜 사용하지만 LLM의 많은 기능을 작은 패키지로 달성하려면 사용되는 데이터의 품질이 더 높아야 합니다.

소형 언어 모델이 미래인 이유

대부분의 사용 사례에서 SLM은 기업과 소비자가 다양한 작업을 수행하는 데 사용하는 주류 모델이 되기에 더 나은 위치에 있습니다. 물론 LLM에는 장점이 있으며 복잡한 작업 해결과 같은 특정 사용 사례에 더 적합합니다. 그러나 SLM은 다음과 같은 이유로 대부분의 사용 사례에서 미래입니다.

1. 낮은 교육 및 유지 관리 비용

server raid configurations feature — 티모페예프 블라디미르/Shutterstock

SLM은 LLM보다 교육에 필요한 데이터가 적기 때문에 교육 데이터, 재정 또는 두 가지 모두가 제한된 개인 및 중소기업에 가장 실행 가능한 옵션입니다. LLM에는 많은 양의 훈련 데이터가 필요하며, 더 나아가 훈련과 실행을 모두 위해서는 막대한 계산 리소스가 필요합니다.

이를 관점에서 살펴보면 OpenAI의 CEO인 Sam Altman은 훈련에 1억 달러 이상이 소요되었다고 확인했습니다. MIT 행사에서 연설하는 동안 GPT-4(Wired에 따름). 또 다른 예는 Meta의 OPT-175B LLM입니다. Meta에 따르면 CNBC에 따르면 단위당 약 $10,000의 비용이 드는 992개의 NVIDIA A100 80GB GPU를 사용하여 훈련되었습니다. 에너지, 급여 등과 같은 기타 비용을 제외하면 비용은 약 900만 달러에 이릅니다.

이런 수치로 볼 때 중소기업이 LLM을 교육하는 것은 불가능합니다. 이와 대조적으로 SLM은 리소스 측면에서 진입 장벽이 낮고 운영 비용이 저렴하므로 더 많은 기업이 SLM을 채택할 것입니다.

2. 성능 향상

A person talking to their phone with the ChatGPT icon hovering over the screen. — GBJSTOCK / Shutterstock

성능은 SLM이 작은 크기로 인해 LLM을 능가하는 또 다른 영역입니다. SLM은 대기 시간이 짧고 실시간 애플리케이션과 같이 더 빠른 응답이 필요한 시나리오에 더 적합합니다. 예를 들어, 디지털 비서와 같은 음성 응답 시스템에서는 더 빠른 응답이 선호됩니다.

기기에서 실행된다는 것은(나중에 자세히 설명) 요청이 온라인 서버를 방문했다가 다시 돌아올 필요가 없다는 것을 의미합니다. 문의사항에 응답하시면 더 빠른 답변을 받으실 수 있습니다.

3. 더욱 정확합니다

ZinetroN / Shutterstock

생성 AI에 있어서 한 가지 변함없는 점은 쓰레기가 들어오면 쓰레기가 나온다는 것입니다. 현재 LLM은 원시 인터넷 데이터의 대규모 데이터 세트를 사용하여 교육되었습니다. 따라서 모든 상황에서 정확하지 않을 수도 있습니다. 이는 ChatGPT 및 유사 모델의 문제점 중 하나이며 AI 챗봇이 말하는 모든 것을 신뢰해서는 안 되는 이유입니다. 반면 SLM은 LLM보다 고품질 데이터를 사용하여 교육하므로 정확도가 더 높습니다.

SLM은 특정 작업이나 도메인에 대한 집중적인 교육을 통해 더욱 세부적으로 조정할 수 있으므로 해당 작업의 정확도가 높아집니다. 더 크고 일반화된 모델에 비해 면적이 넓습니다.

4. 온디바이스 실행 가능

small language model mockup on smartphone — Pete Hansen/Shutterstock

SLM은 LLM보다 컴퓨팅 성능이 덜 필요하므로 엣지 컴퓨팅 사례에 이상적입니다. 이는 큰 컴퓨팅 성능이나 리소스가 없는 스마트폰 및 자율주행차와 같은 엣지 장치에 배포될 수 있습니다. Google의 Nano 모델은 기기에서 실행될 수 있으므로 인터넷에 연결되어 있지 않아도 작동할 수 있습니다.

이러한 기능은 기업과 소비자 모두에게 윈윈(win-win) 상황을 제시합니다. 첫째, 사용자 데이터가 클라우드로 전송되지 않고 로컬로 처리되므로 개인 정보 보호 측면에서 승리합니다. 이는 우리에 대한 거의 모든 세부 정보를 담고 있는 스마트폰에 더 많은 AI가 통합됨에 따라 중요합니다. AI 작업을 처리하기 위해 대규모 서버를 배포하고 실행할 필요가 없기 때문에 기업에게도 유리합니다.

SLM은 Open AI, Google, Microsoft, Anthropic, Meta 등이 이러한 모델을 출시하고 있습니다. 이러한 모델은 우리 대부분이 LLM을 사용하는 간단한 작업에 더 적합합니다. 그러므로 그들은 미래입니다.

하지만 LLM은 아무데도 가지 않습니다. 대신, 의학 연구와 같이 다양한 영역의 정보를 결합하여 새로운 것을 창조하는 고급 애플리케이션에 사용됩니다.

위 내용은 LLM 너머: 소규모 언어 모델이 AI의 미래인 이유는 다음과 같습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

생성 엔진 최적화에 대한 비즈니스 리더 안내서 (GEO)May 03, 2025 am 11:14 AM

Google은 이러한 변화를 이끌고 있습니다. "AI 개요"기능은 이미 10 억 명 이상의 사용자에게 제공되며, 누군가가 링크를 클릭하기 전에 완전한 답변을 제공합니다. [^2] 다른 플레이어들도 빨리지면을 얻고 있습니다. Chatgpt, Microsoft Copilot 및 PE

이 스타트 업은 AI 에이전트를 사용하여 악의적 인 광고와 가장하는 계정과 싸우고 있습니다.May 03, 2025 am 11:13 AM

2022 년에 그는 사회 공학 방어 스타트 업 도플을 설립하여 바로 그렇게했습니다. 그리고 사이버 범죄자들이 공격을 터보 차지하기 위해 더욱 진보 된 AI 모델을 활용함에 따라 Doppel의 AI 시스템은 비즈니스가 더 빠르게 빠르게 그리고 더 빠르게 그리고 규모로 싸우는 데 도움이되었습니다.

세계 모델이 생성 AI 및 LLM의 미래를 근본적으로 재구성하는 방법May 03, 2025 am 11:12 AM

Voila는 적합한 세계 모델과 상호 작용하여 생성 AI 및 LLM을 실질적으로 향상시킬 수 있습니다. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은

2050 년 5 월 : 우리는 무엇을 축하하기 위해 떠났습니까?May 03, 2025 am 11:11 AM

노동당 2050 년. 전국의 공원은 전통적인 바베큐를 즐기는 가족들로 가득 차고 향수를 불러 일으키는 퍼레이드는 도시 거리를 통해 바람을 피 웁니다. 그러나 축하 행사는 이제 박물관과 같은 품질을 가지고 있습니다.

98% 정확한 것을 들어 본 적이없는 Deepfake 탐지기May 03, 2025 am 11:10 AM

이 긴급하고 불안정한 트렌드를 해결하기 위해 2025 년 2 월 Tem Journal의 동료 검토 기사는 기술 심해가 현재 어디에 있는지에 대한 가장 명확하고 데이터 중심 평가 중 하나를 제공합니다. 연구원

양자 재능 전쟁 : 숨겨진 위기 위협 기술 기술May 03, 2025 am 11:09 AM

신약을 공식화하는 데 걸리는 시간을 크게 줄이는 것부터 녹색 에너지 생성에 이르기까지 기업이 새로운 지평을 열 수있는 큰 기회가있을 것입니다. 그래도 큰 문제가 있습니다. 기술을 가진 사람들이 심각하게 부족합니다.

프로토 타입 :이 박테리아는 전기를 생성 할 수 있습니다May 03, 2025 am 11:08 AM

몇 년 전, 과학자들은 특정 종류의 박테리아가 산소를 섭취하기보다는 전기를 생성하여 호흡하는 것처럼 보이지만, 그렇게 한 방법은 미스터리였습니다. 저널 Cell에 발표 된 새로운 연구는 이런 일이 어떻게 발생하는지 식별합니다 : Microb

AI 및 사이버 보안 : 새로운 행정부의 100 일 계산May 03, 2025 am 11:07 AM

이번 주 RSAC 2025 컨퍼런스에서 Snyk은 All-Star 라인업을 특징으로하는 AI, AI, Policy & Cybersecurity Collide "라는 제목의 적시 패널을 주최했습니다. Jen Easterly, 전 CISA 디렉터; Nicole Perlroth, 전 기자이자 Partne

See all articles