>기술 주변기기 >일체 포함 >GPT-4 API 대체? 성능은 비슷하고 비용은 98% 절감됐다. 스탠포드는 ​​FrugalGPT를 제안했지만 이 연구는 논란을 불러일으켰다.

GPT-4 API 대체? 성능은 비슷하고 비용은 98% 절감됐다. 스탠포드는 ​​FrugalGPT를 제안했지만 이 연구는 논란을 불러일으켰다.

WBOY
WBOY앞으로
2023-06-05 17:59:14625검색

대형언어모델(LLM)의 발전으로 인공지능은 폭발적인 변화의 시기를 맞이하고 있습니다. LLM은 비즈니스, 과학, 금융 등 다양한 응용 분야에서 활용될 수 있다는 사실이 잘 알려져 있어 LLM을 기본 서비스로 제공하는 기업(OpenAI, AI21, CoHere 등)이 늘어나고 있습니다. GPT-4와 같은 LLM은 질문 답변과 같은 작업에서 전례 없는 성능을 달성했지만 처리량이 높기 때문에 응용 프로그램에서 비용이 매우 많이 듭니다.

예를 들어, ChatGPT의 운영 비용은 하루 $700,000 이상인 반면, 고객 서비스 지원을 위해 GPT-4를 사용하는 경우 중소기업에서는 월 $21,000 이상의 비용이 들 수 있습니다. 금전적 비용 외에도 가장 큰 LLM을 사용하면 환경 및 에너지에 상당한 영향을 미칩니다.

현재 많은 회사가 API를 통해 LLM 서비스를 제공하고 있으며 비용은 다양합니다. LLM API 사용 비용은 일반적으로 1) 프롬프트 비용(프롬프트 길이에 비례), 2) 생성 비용(생성 길이에 비례), 3) 쿼리당 고정 비용의 세 가지 구성 요소로 구성됩니다. 소송 비용.

아래 표 1은 OpenAI, AI21, CoHere 및 Textsynth를 포함한 주류 ​​공급업체의 12개 상용 LLM 비용을 비교합니다. 비용은 최대 2배 정도 다릅니다. 예를 들어 OpenAI의 GPT-4 프롬프트는 1,000만 개의 토큰에 30달러인 반면 Textsynth에서 호스팅하는 GPT-J의 비용은 0.2달러에 불과합니다.

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

비용과 정확성 사이의 균형은 특히 신기술을 채택할 때 의사 결정의 핵심 요소입니다. LLM을 효과적이고 효율적으로 활용하는 방법은 실무자에게 중요한 과제입니다. 작업이 상대적으로 간단한 경우 GPT-J(GPT-3보다 30배 더 작음)의 여러 응답을 집계하면 GPT-3와 유사한 성능을 얻을 수 있습니다. 비용과 환경적 균형을 달성합니다. 그러나 더 어려운 작업에서는 GPT-J의 성능이 크게 저하될 수 있습니다. 따라서 LLM을 비용 효율적으로 사용하려면 새로운 접근 방식이 필요합니다.

최근 연구에서 이 비용 문제에 대한 해결책을 제안하려고 시도했습니다. 연구원들은 FrugalGPT가 최대 98%의 비용 절감으로 최고의 개별 LLM(예: GPT-4)의 성능과 경쟁할 수 있음을 실험적으로 보여주었습니다. 또는 동일한 비용으로 최고의 개별 LLM의 정확도를 4% 향상시킵니다. 스탠포드 대학의 연구원들은 GPT-4, ChatGPT, J1-Jumbo와 같은 LLM API의 사용을 검토한 결과 이러한 모델의 가격이 서로 다르며 특히 대량의 쿼리에 LLM을 사용하고 텍스트는 더 비쌀 수 있습니다. 이를 바탕으로 이 연구는 사용자가 LLM을 사용하여 추론 비용을 줄이기 위해 활용할 수 있는 세 가지 전략, 즉 1) 신속한 적응, 2) LLM 근사화, 3) LLM 계단식을 개략적으로 설명하고 논의합니다. 또한 이 연구에서는 비용을 절감하고 정확성을 높이기 위해 다양한 쿼리에 사용할 LLM 조합을 학습하는 간단하고 유연한 계단식 LLM인 FrugalGPT를 제안합니다.

이 연구에서 제시된 아이디어와 결과는 LLM의 지속 가능하고 효율적인 사용을 위한 토대를 마련합니다. 예산을 늘리지 않고도 더욱 발전된 AI 기능을 채택할 수 있으면 산업 전반에 걸쳐 AI 기술의 채택이 확대될 수 있으며, 심지어 소규모 기업도 정교한 AI 모델을 운영에 구현할 수 있는 능력을 갖게 됩니다.

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

물론 이는 단지 하나의 관점일 뿐이며 FrugalGPT가 어떤 영향력을 발휘할 수 있는지, 'AI 산업의 게임 체인저'가 될 수 있는지는 다소 시간이 걸릴 것입니다. 논문이 발표된 후 이 연구는 다음과 같은 논란을 불러일으켰습니다.

"초록은 논문의 내용을 지나치게 과장했으며 여기 제목은 크게 오해의 소지가 있습니다. 그들이 한 것은 다루는 문제 유형에 대해 수행해야 하는 고급 모델에 대한 호출 수를 줄이는 방법을 설계한 것입니다. 이는 2% 비용으로 GPT-4를 대체하는 것도 아니고, 4% 정확도로 GPT-4를 대체하는 것도 아닙니다. 이는 GPT-4를 더 저렴한 모델 및 지원 인프라와 결합하는 방법입니다. 요점은 이것이 메커니즘의 실제 핵심인 결과를 평가하기 위해 사용자 정의 모델을 구축해야 한다는 것입니다... 대부분의 사용 사례에 대한 기본 비용 엔지니어링을 포함하여 이 접근 방식에 대한 합법적인 사용 사례가 있습니다. , 적절한 채점 모델이 없기 때문에 이것은 전혀 관련이 없습니다. "그들은 3개의 (작은) 데이터 세트에 대해서만 이것을 평가했으며 FrugalGPT가 해당 모델을 선택하는 빈도에 대한 정보는 제공되지 않습니다. 또한 더 작은 모델이 있다고 보고합니다. GPT-4보다 높은 정확도를 달성하므로 일반적으로 논문에 대해 매우 회의적입니다. 구체적으로 판단하는 방법은 논문의 내용을 살펴보겠습니다.

LLM을 경제적으로 정확하게 사용하는 방법

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议다음 글에서는 예산 내에서 LLM API를 효율적으로 사용하는 방법을 소개합니다. 그림 1(b)에서 볼 수 있듯이 본 연구에서는 신속한 적응, LLM 근사화, LLM 계단식이라는 세 가지 비용 절감 전략을 논의합니다.

전략 1: 신속한 적응. LLM 쿼리 비용은 프롬프트 크기에 따라 선형적으로 증가합니다. 따라서 LLM API 사용 비용을 줄이기 위한 합리적인 접근 방식에는 프롬프트 크기를 줄이는 것이 포함되며, 연구에서 프롬프트 적응이라고 부르는 프로세스입니다. 프롬프트 선택은 그림 2(a)에 나와 있습니다. 작업 수행 방법을 보여주기 위해 많은 예제가 포함된 프롬프트를 사용하는 대신 프롬프트에 예제의 작은 하위 집합만 유지하는 것이 가능합니다. 결과적으로 프롬프트가 더 작아지고 비용이 절감됩니다. 또 다른 예는 쿼리 연결입니다(그림 2(b) 참조).

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

전략 2: LLM 근사. LLM 근사의 개념은 매우 간단합니다. LLM API 사용 비용이 너무 비싸면 보다 저렴한 모델이나 인프라를 사용하여 근사할 수 있습니다. 이에 대한 한 가지 예가 그림 2(c)에 나와 있습니다. 여기서 기본 아이디어는 LLM API에 쿼리를 제출할 때 응답을 로컬 캐시(예: 데이터베이스)에 저장하는 것입니다. LLM 근사의 또 다른 예는 그림 2(d)에 표시된 것처럼 모델 미세 조정입니다.

전략 3: LLM 계단식. 다양한 LLM API는 다양한 쿼리에서 고유한 장점과 단점을 가지고 있습니다. 따라서 사용할 LLM을 적절하게 선택하면 비용을 절감하고 성능을 향상시킬 수 있습니다. LLM 캐스케이드의 예가 그림 2(e)에 나와 있습니다.

비용 절감 및 정확성 향상

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议연구원들은 세 가지 목표를 가지고 FrugalGPT LLM 캐스케이드에 대한 실증적 연구를 수행했습니다.

LLM 캐스케이드의 간단한 예에서 배운 내용을 이해합니다.

비용을 수량화합니다. 최고의 개별 LLM API 성능과 일치할 때 FrugalGPT가 달성한 비용 절감

FrugalGPT가 달성한 성능과 비용 간의 균형을 측정하세요.

    실험 설정은 LLM API(표 1), 작업, 데이터 세트(표 2) 및 FrugalGPT 인스턴스 등 여러 측면으로 나뉩니다.
  • FrugalGPT는 위 API를 기반으로 개발되었으며 다양한 작업에 속하는 일련의 데이터 세트에서 평가되었습니다. 그중 HEADLINES는 금융 뉴스 헤드라인을 읽어 금 가격 추세(상승, 하락, 중립 또는 없음)를 결정하는 것이 목표이며, 이는 금융 시장에서 관련 뉴스를 필터링하는 데 특히 유용합니다. 주어진 문장이 "기각"인지, 즉 이전 법적 사건을 기각하는지 여부를 결정하는 것이 목표인 법적 문서 데이터 세트입니다. COQA는 연구자가 직접 적용한 대화형 환경에서 개발된 독해 데이터 세트입니다. 질의 응답 작업.

    그들은 최적화 공간을 단순화하고 좋은 결과를 보여주기 때문에 계단식 길이가 3인 LLM 계단식 방법에 중점을 둡니다. 각 데이터 세트는 LLM 캐스케이드를 학습하기 위한 훈련 세트와 평가용 테스트 세트로 무작위로 나뉩니다.

    GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

    다음은 HEADLINES 데이터세트 사례 연구입니다. 예산을 GPT-4 비용의 5분의 1인 6.50달러로 설정하세요. 회귀 분석에 DitilBERT [SDCW19]를 점수 함수로 채택합니다. DistilBERT는 여기에서 고려한 모든 LLM보다 훨씬 작으므로 비용이 저렴하다는 점은 주목할 가치가 있습니다. 그림 3(a)와 같이 학습된 FrugalGPT는 GPT-J, J1-L, GPT-4를 순차적으로 호출합니다. 특정 쿼리에 대해 먼저 GPT-J에서 답변을 추출합니다. 답변 점수가 0.96보다 크면 해당 답변이 최종 응답으로 승인됩니다. 그렇지 않으면 J1-L이 쿼리됩니다. J1-L의 답변 점수가 0.37보다 크면 최종 답변으로 승인되고, 그렇지 않으면 최종 답변을 얻기 위해 GPT-4가 호출됩니다. 흥미롭게도 이 접근 방식은 많은 쿼리에서 GPT-4보다 성능이 뛰어납니다. 예를 들어, Nasdaq의 헤드라인인 "미국 GDP 데이터는 음울하고 금은 최저치에서 벗어났습니다"를 기반으로 FrugalGPT는 가격이 하락할 것이라고 정확하게 예측한 반면 GPT-4는 잘못된 답변을 제공했습니다(그림 3(b) 참조).

    전반적으로 FrugalGPT의 결과는 정확성 향상과 비용 절감입니다. 그림 3(c)에서 볼 수 있듯이 비용은 80% 감소하고 정확도는 1.5% 더 높아졌습니다.

    GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

    다양한 LLM

    여러 LLM API가 최고의 단일 LLM보다 더 나은 성능을 제공할 가능성이 높은 이유는 무엇입니까? 본질적으로 이는 생성의 다양성 때문입니다. 심지어 저렴한 LLM도 때로는 더 높은 비용의 LLM이 할 수 없는 쿼리에 올바르게 응답할 수 있습니다. 이러한 다양성을 측정하기 위해 연구원들은 MPI라고도 알려진 최대 성능 개선을 사용합니다. LLM B에 대한 LLM A의 MPI는 LLM A가 정답을 생성하고 LLM B가 잘못된 답을 제공할 확률입니다. 이 지표는 본질적으로 LLM B와 동시에 LLM A를 호출하여 달성할 수 있는 최대 성능 향상을 측정합니다.

    그림 4는 모든 데이터 세트에 대한 각 LLM API 쌍 간의 MPI를 보여줍니다. HEADLINES 데이터세트에서 GPT-C, GPT-J 및 J1-L은 모두 GPT-4의 성능을 6% 향상시킵니다. COQA 데이터세트에서 GPT-4는 데이터 포인트의 13%에서 틀렸지만 GPT-3는 정답을 제공했습니다. 이러한 개선 사항의 상한선을 항상 달성할 수 있는 것은 아니지만 더 나은 성능을 달성하기 위해 더 저렴한 서비스를 활용할 수 있는 가능성을 보여줍니다.

    GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

    비용 절감

    그런 다음 연구원들은 FrugalGPT가 정확성을 유지하면서 비용을 절감할 수 있는지, 그리고 그렇다면 얼마나 절감할 수 있는지 조사했습니다. 표 3은 FrugalGPT의 전체 비용 절감 범위를 50%에서 98%까지 보여줍니다. 이는 FrugalGPT가 소규모 LLM에서 정확하게 답변할 수 있는 쿼리를 식별하여 비용 효율적인 LLM만 호출할 수 있기 때문에 가능합니다. GPT-4와 같이 강력하지만 비용이 많이 드는 LLM은 FrugalGPT에서 감지한 까다로운 쿼리에만 사용됩니다.

    GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

    성능과 비용의 상충관계

    그런 다음, 연구원들은 FrugalGPT가 구현한 성능과 비용의 상충관계를 탐색했습니다. 그림 5에서 볼 수 있듯이 몇 가지 흥미로운 결과를 얻었습니다. 관찰 결과.

    우선, 다양한 LLM API의 비용 순위는 고정되어 있지 않습니다. 또한 더 비싼 LLM API는 때때로 저렴한 API보다 성능이 저하되는 경우가 있습니다. 이러한 관찰은 예산 제약이 없더라도 LLM API를 적절하게 선택하는 것이 중요하다는 점을 강조합니다.

    다음으로 연구원들은 FrugalGPT가 평가된 모든 데이터 세트에서 원활한 성능-비용 균형을 달성할 수 있었다는 점에 주목했습니다. 이는 LLM 사용자에게 유연한 옵션을 제공하며 LLM API 제공업체가 에너지를 절약하고 탄소 배출을 줄이는 데 도움이 될 수 있는 잠재력을 가지고 있습니다. 실제로 FrugalGPT는 비용 절감과 정확성을 동시에 향상시킬 수 있습니다. 이는 FrugalGPT가 여러 LLM의 지식을 통합하기 때문일 수 있습니다.

    그림 5에 표시된 예제 쿼리는 FrugalGPT가 성능을 향상하고 동시에 비용을 절감할 수 있는 이유를 자세히 설명합니다. GPT-4는 (a)의 첫 번째 예와 같은 일부 쿼리에서 실수를 범하지만 일부 저가형 API는 올바른 예측을 제공합니다. FrugalGPT는 이러한 쿼리를 정확하게 식별하고 전적으로 저비용 API에 의존합니다. 예를 들어, GPT-4는 그림 5(b)와 같이 “이 분야의 사례를 조화시키고 표준화해야 할 때입니다”라는 법적 진술에서 전복이 없다고 잘못 추론합니다. 그러나 FrugalGPT는 GPT-J의 정답을 수용하고 값비싼 LLM의 사용을 피하며 전반적인 성능을 향상시킵니다. 물론 단일 LLM API가 항상 올바른 것은 아닙니다. LLM 계단식은 LLM API 체인을 사용하여 이를 극복합니다. 예를 들어, 그림 5(a)에 표시된 두 번째 예에서 FrugalGPT는 GPT-J의 생성이 신뢰할 수 없음을 발견하고 정답을 찾기 위해 체인의 두 번째 LLM인 J1-L로 전환합니다. 이번에도 GPT-4는 잘못된 답을 제공합니다. FrugalGPT는 완벽하지 않으며 비용을 절감할 수 있는 여지는 여전히 많습니다. 예를 들어 그림 5(c)의 세 번째 예에서는 체인의 모든 LLM API가 동일한 답변을 제공합니다. 그러나 FrugalGPT는 첫 번째 LLM이 올바른지 확신할 수 없으므로 체인의 모든 LLM을 쿼리해야 합니다. 이를 방지하는 방법을 결정하는 것은 여전히 ​​미해결 문제로 남아 있습니다.

    GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

    자세한 연구 내용은 원문을 참고해주세요.

위 내용은 GPT-4 API 대체? 성능은 비슷하고 비용은 98% 절감됐다. 스탠포드는 ​​FrugalGPT를 제안했지만 이 연구는 논란을 불러일으켰다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제