>기술 주변기기 >일체 포함 >의미 적으로 텍스트를 압축하여 LLM 비용을 절약합니다

의미 적으로 텍스트를 압축하여 LLM 비용을 절약합니다

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의
2025-02-25 19:29:11884검색
초대형 텍스트 처리에 대한 AI 주석 요약 : 계층 적 클러스터링을 기반으로 한 멀티 채널 접근

원래 2024 년 10 월 28 일에 Bazaarvoice 개발자 블로그

소개 Semantically Compress Text to Save On LLM Costs

대형 언어 모델 (LLMS)은 구조화되지 않은 텍스트를 처리하기위한 강력한 도구이지만 텍스트가 컨텍스트 창의 한계를 초과하면 어떻게됩니까? Bazaarvoice는 AI 검토 요약 기능을 구축 할 때 이러한 과제에 직면 해 있습니다. 수백만의 사용자 리뷰는 단순히 최신 LLM의 컨텍스트 창에 적합 할 수 없으며 수용 할 수 있다고해도 비용은 엄청납니다.

이 기사는 입력 텍스트를 압축하여 (의미론을 잃지 않고) Bazaarvoice 가이 문제를 해결하는 방법을 공유합니다. 구체적으로, 우리는 선택된 임베딩 모델에 관계없이 압축과 교환하여 잃고 싶은 세부 수준을 명시 적으로 조정할 수있는 다 채널 계층 적 클러스터링 접근법을 사용했습니다. 궁극적 인 기술은 검토 요약 기능을 경제적으로 실행 가능하게 만들고 미래의 비즈니스 확장을위한 토대를 마련합니다. 질문

Bazaarvoice는 거의 20 년 동안 사용자 생성 제품 리뷰를 수집 해 왔으므로 많은 양의 데이터가 있습니다. 이러한 제품 리뷰는 다양한 길이와 콘텐츠로 완전히 구조화되지 않았습니다. 대형 언어 모델은 구조화되지 않은 텍스트를 처리하는 데 이상적입니다. 구조화되지 않은 데이터를 처리하고 산만 자 사이의 관련 정보를 식별 할 수 있습니다.

그러나 LLM은 또한 한계에 입력 할 수있는 태그 수 (대략 단어 수) 인 컨텍스트 창입니다. Anthropic의 Claude 버전 3과 같은 최첨단 대형 언어 모델에는 최대 200,000 개의 마커가있는 대형 컨텍스트 창이 있습니다. 즉, 작은 소설을 넣을 수 있지만 인터넷은 여전히 ​​거대하고 점점 더 많은 데이터 모음이며 사용자가 생성 한 제품 리뷰도 예외는 아닙니다. 검토 요약 기능을 구축 할 때 (고객 웹 사이트의 특정 제품에 대한 모든 검토를 요약) 컨텍스트 창에서 제한을 만났습니다. 그러나 지난 20 년 동안 많은 제품이 LLM 컨텍스트 창에 빠르게 과부하 된 수천 개의 리뷰를 축적했습니다. 실제로, 우리는 LLM의 엄청난 재 설계가 한 번의 프롬프트로 처리되어야하는 수백만 개의 리뷰가있는 일부 제품을 보유하고 있습니다. 기술적으로 실현 가능하더라도 비용은 매우 높을 수 있습니다. 모든 LLM 제공 업체는 입력 및 출력 마커 수에 따라 청구됩니다. 각 제품의 컨텍스트 창 제한 (수백만 제품이 있음)에 접근하면 클라우드 호스팅 청구서가 6 개의 수치를 빠르게 초과합니다.

우리의 방법

검토 요약을 게시하기 위해 이러한 기술 및 경제적 제약을 극복하기 위해 우리는 데이터에 대한 상당히 간단한 통찰력에 중점을 두었습니다. 많은 의견이 동일한 의미를 표현합니다. 실제로, 초록의 전체 개념은 이것에 달려 있습니다. 검토 요약은 주석 자의 반복적 인 통찰력, 테마 및 감정을 포착합니다. 우리는이 데이터 복제를 사용하여 LLM으로 전송되어야하는 텍스트의 양을 줄일 수 있음을 깨달았으므로 컨텍스트 창 제한을 충족시키고 시스템의 운영 비용을 줄이지 않습니다.

이렇게하려면 동일한 의미를 표현하는 텍스트 조각을 식별해야합니다. 그러한 작업은 말보다 쉽게 ​​말합니다. 사람들은 종종 다른 단어 나 문구를 사용하여 동일한 의미를 표현합니다. 운 좋게도, 텍스트 의미론이 비슷한 지 인식하는 것은 항상 자연어 처리 분야에서 활발한 연구 영역이었다. Agirre et al.의 2013 년 작업 ( SEM 2013 공유 작업 : 시맨틱 텍스트 유사성. 어휘 및 계산 시맨틱에 관한 두 번째 공동 회의에서 인간으로 표지 된 의미 론적 유사한 문장 세트에 대한 데이터를 게시했습니다. STS 벤치 마크라고합니다. 그것에서, 그들은 사람들에게 다음 표에서 볼 수 있듯이 텍스트 문장이 의미 적으로 유사하거나 1-5의 순위에 따라 의미 적으로 유사하거나 다른지 여부를 표시하도록 요청 및 언어 교차 초점 평가 ) :

STS 벤치 마크 데이터 세트는 일반적으로 고차원 공간에서 의미 론적 유사한 문장을 상관시키는 텍스트 임베딩 모델의 능력을 평가하는 데 일반적으로 사용됩니다. 구체적으로, 피어슨 상관 관계는 임베디드 모델이 인간의 판단을 나타내는 정도를 측정하는 데 사용됩니다.

따라서, 우리는 이러한 임베딩 모델을 사용하여 제품 리뷰에서 의미 론적 유사한 문구를 식별 한 다음 LLM으로 보내기 전에 중복 문구를 삭제할 수 있습니다.

우리의 방법은 다음과 같습니다 먼저 제품 검토를 문장으로 나눕니다. STS 벤치 마크에서 잘 수행되는 네트워크를 사용하여 각 문장에 대한 임베딩 벡터를 계산합니다. 각 제품에 대한 모든 임베딩 벡터에 대한 응축 계층 클러스터링 사용. 각 클러스터 (LLM으로 전송)의 클러스터 중심에 가장 가까운 문장을 유지하고 각 클러스터에서 다른 문장을 삭제하십시오.

작은 클러스터를 이상치로 취급하고 LLM에 포함하도록 이러한 특이 치를 무작위로 그립니다.

각 클러스터 담당자를 포함하는 문장 수는 각 감정의 무게를 고려하기 위해 LLM 프롬프트에 있습니다. Semantically Compress Text to Save On LLM Costs

이것은 총알 목록에 쓰면 간단 해 보이지만이 접근법을 신뢰하기 전에 몇 가지 세부 사항을 해결해야합니다.

임베딩 모델 평가

우선, 우리가 사용하는 모델이 의미 론적 유사한 문장이 의미 론적이지 않은 문장에 가까운 공간에 텍스트를 효과적으로 포함시키고 의미 론적 다른 문장이 멀리 떨어져 있는지 확인해야합니다. 이를 위해 STS 벤치 마크 데이터 세트를 사용하고 고려하려는 모델의 Pearson 상관 관계를 계산합니다. 우리는 AWS를 클라우드 제공 업체로 사용하므로 타이탄 텍스트 임베딩 모델을 자연스럽게 평가하려고합니다.

다음 표는 STS 벤치 마크에서 다른 타이탄 임베딩 모델의 Pearson 상관 관계를 보여줍니다.

따라서 AWS의 임베딩 모델은 비슷한 의미를 가진 문장을 포함시키는 데 탁월합니다. 이것은 우리에게 좋은 소식입니다 - 우리는이 모델을 직접 사용할 수 있으며, 매우 저렴합니다.

우리가 직면 한 다음 도전은 다음과 같습니다. 클러스터링 중에 의미 론적 유사성을 시행하는 방법은 무엇입니까? 이상적으로는 인간이 받아 들일 수있는 것보다 의미 론적 유사성을 가진 클러스터는 없습니다. 위의 표의 점수는 4입니다. 그러나 이러한 분획은 임베딩 거리로 직접 변환 될 수 없으며, 이는 집계 계층 적 클러스터링 임계 값에 필요합니다.

이 문제를 해결하기 위해 STS 벤치 마크 데이터 세트로 다시 전환합니다. 우리는 훈련 데이터 세트의 모든 쌍의 거리를 계산하고 분수에 따라 다항식에 거리 임계 값에 맞습니다.

이 다항식을 사용하면 의미 론적 유사성 목표를 충족시키는 데 필요한 거리 임계 값을 계산할 수 있습니다. 의견 요약을 위해 3.5 포인트를 선택하므로 거의 모든 클러스터에는 "대부분"과 "대부분"이라는 문장이 포함되어 있습니다. 이것은 임베디드 네트워크에서 수행 할 수 있다는 점에 주목할 가치가 있습니다. 이를 통해 우리는 새로운 임베디드 네트워크의 출현을 실험하고 클러스터에 Semantics가 다른 문장이 포함되어 있다고 걱정하지 않고 필요할 때 신속하게 교체 할 수 있습니다. 다중 채널 클러스터링

지금까지 우리는 시맨틱 압축을 신뢰할 수 있다는 것을 알고 있지만 데이터에서 얼마나 많은 압축을 얻을 수 있는지는 확실하지 않습니다. 예상대로 압축량은 제품, 고객 및 산업에 따라 다릅니다.

시맨틱 정보 손실이없는 경우, 즉 4의 단단한 임계 값이없는 경우, 우리는 압축 비율 1.18 (즉, 15% 공간 절약) 만 달성했습니다.

분명히, 무손실 압축은이 기능을 경제적으로 실현하기에 충분하지 않습니다.

그러나, 위에서 논의한 거리 선택 방법은 여기서 흥미로운 가능성을 제공합니다. 우리는 나머지 데이터에 대한 클러스터를 낮은 임계 값으로 반복적으로 실행하여 정보 손실의 양을 점차적으로 증가시킬 수 있습니다.

메소드는 다음과 같습니다
    score = 4에서 선택한 임계 값을 사용하여 클러스터를 실행하십시오. 이것은 무손실로 간주됩니다.
  • 예외 클러스터, 즉 벡터가 적은 클러스터를 선택하십시오. 이것들은 "압축되지 않은"것으로 간주되며 다음 단계에서 사용됩니다. 10 미만의 크기의 클러스터에 대해 클러스터를 다시 실행하기로 결정했습니다.
  • score = 3에서 선택한 임계 값을 사용하여 클러스터를 다시 실행하십시오. 이것은 무손실은 아니지만 너무 나쁘지는 않습니다.
  • 크기가 10 미만인 클러스터를 선택하십시오.
  • 필요에 따라 반복하고 점수 임계 값을 지속적으로 낮추십시오.
  • 따라서, 각 클러스터 채널에서 우리는 더 많은 정보 손실을 희생하고 있지만 더 많은 압축을 얻고 있으며 첫 번째 채널에서 선택한 무손실 대표 문구를 혼동하지는 않습니다.
  • 또한,이 접근법은 의견 요약에 매우 유용 할뿐만 아니라 (압축이 적은 비용으로 높은 수준의 의미 론적 유사성을 얻기를 희망 함), 우리가 너무 걱정하지 않을 수있는 다른 사용 사례에 대해서도 또한. 시맨틱 정보가 손실되지만 프롬프트 입력 비용이 저렴합니다.
  • 실제로 점수 임계 값을 다중 줄인 후에도 여전히 하나의 벡터 만있는 많은 클러스터가 있습니다. 이들은 이상치로 간주되며 최종 프롬프트에 포함하도록 무작위로 샘플링됩니다. 최종 프롬프트에 25,000 마크가 있는지 확인하기 위해 샘플 크기를 선택했습니다.
  • 진정성을 보장하십시오

다 채널 클러스터링 및 임의의 특이 이상 샘플링은 작은 컨텍스트 창 (LLM으로 전송)을 희생하여 의미 정보를 희생 할 수 있습니다. 이것은 우리의 요약이 얼마나 좋은가요?

Bazaarvoice에서, 우리는 진위가 소비자 신뢰에 필요한 조건이며, 검토 요약은 의견에 캡처 된 모든 소리를 진정으로 표현하기 위해 진실해야한다는 것을 알고 있습니다. 모든 손실 압축 방법은 리뷰를 쓰는 데 시간을 소비하는 소비자를 허위 진술하거나 배제 할 위험이 있습니다.

압축 기술이 효과적인지 확인하기 위해 직접 측정했습니다. 구체적으로, 각 제품에 대해, 우리는 리뷰를 한 다음 LLM EVAL을 사용하여 요약이 대표적이고 각 검토와 관련이 있는지 확인했습니다. 이것은 우리에게 압축을 평가하고 균형을 맞추는 단단한 메트릭을 제공합니다.

결과

지난 20 년 동안, 우리는 거의 10 억 명의 사용자 생성 의견을 수집했으며 수천만 개의 제품에 대한 요약을 생성해야합니다. 이 제품들 중 다수는 수천 개의 리뷰를 가지고 있으며, 일부는 수백만에 이르기까지 LLM의 컨텍스트 창을 배출하고 가격을 크게 높일 수 있습니다.

그러나 위의 방법을 사용하여 입력 텍스트 크기를 97.7% (압축 비율은

42

)로 줄여서 모든 제품과 수량을 만들 수 있습니다. 향후 의견 수는이 솔루션을 확장합니다. 또한, 모든 10 억 수준의 데이터 세트에 대한 다이제스트를 생성하는 비용은

82.4%

입니다. 여기에는 문장 데이터를 포함시키고 데이터베이스에 저장하는 비용이 포함됩니다.

위 내용은 의미 적으로 텍스트를 압축하여 LLM 비용을 절약합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.