최근 가장 우울한 회사라고 할 수 있는 Google은 확실히 그 중 하나입니다. 자사의 Gemini 1.5이 방금 출시되었으며 OpenAI의 Sora에 의해 도난당했습니다. AI 업계에서는 '왕펑(Wang Feng)'으로 불린다.
구체적으로 구글이 이번에 출시한 것은 초기 테스트용 Gemini 1.5의 첫 번째 버전인 Gemini 1.5 Pro입니다. 이는 현재까지 Google의 가장 큰 모델인 1.0 Ultra와 성능 수준이 유사한 중간 크기의 다중 모드 모델(텍스트, 비디오, 오디오 전반)이며, 긴 맥락 이해에 획기적인 실험 기능을 도입합니다. 최대 100만 개의 토큰(비디오 1시간, 오디오 11시간, 30,000줄 이상의 코드 또는 700,000단어에 해당)을 안정적으로 처리할 수 있으며, 최대 1천만 개의 토큰('반지의 제왕'에 해당) " 3부작), 가장 긴 컨텍스트 창에 대한 기록을 설정합니다.
또한 500페이지의 문법 책, 2000개의 이중 언어 항목 및 400개의 추가 병렬 문장(인터넷에 관련 정보가 없음)만으로 작은 언어의 번역을 학습할 수 있으며, 레벨을 달성합니다. 번역에서는 인간 학습자에 가깝습니다.
Gemini 1.5 Pro를 사용해 본 많은 사람들은 이 모델이 과소평가되었다고 생각합니다. 누군가 실험을 진행하고 Github에서 다운로드한 전체 코드 베이스와 관련 문제를 Gemini 1.5 Pro에 입력한 결과는 놀라웠습니다. 전체 코드 베이스를 이해했을 뿐만 아니라 가장 시급한 문제를 식별하고 수정할 수도 있었습니다. .
또 다른 코드 관련 테스트에서 Gemini 1.5 Pro는 코드 베이스에서 가장 관련성이 높은 예제를 빠르게 찾을 수 있는 뛰어난 검색 기능을 보여주었습니다. 또한 이해도가 높으며 애니메이션을 제어하는 코드를 정확하게 찾아 개인화된 코드 제안을 제공할 수 있습니다. 마찬가지로 Gemini 1.5 Pro는 스크린샷을 통해 데모 콘텐츠를 정확히 찾아내고 이미지 코드 편집에 대한 지침을 제공하는 등 뛰어난 크로스 모드 기능도 보여주었습니다.
이런 모델은 모두의 관심을 끌 것입니다. 더욱이 Gemini 1.5 Pro가 매우 긴 컨텍스트를 처리할 수 있는 능력으로 인해 많은 연구자들이 전통적인 RAG 방법이 여전히 필요한지 생각하게 되었다는 점은 주목할 가치가 있습니다.
An X 네티즌은 자신이 실시한 테스트에서 매우 긴 컨텍스트를 지원하는 Gemini 1.5 Pro가 실제로 RAG가 할 수 없는 작업을 수행했다고 말했습니다.
"1,000만 개의 토큰 컨텍스트 창이 있는 모델은 대부분의 기존 RAG 프레임워크를 불필요하게 만듭니다. 즉, 1,000만 개의 토큰 컨텍스트가 RAG를 죽입니다"라고 에든버러 대학의 박사 과정 학생인 Fu Yao는 Gemini 1.5를 리뷰하는 게시물에서 썼습니다. 찬성.
RAG는 "Retrieval-Augmented Generation"의 약어로, 중국어로 "Retrieval Enhanced Generation"으로 번역할 수 있습니다. RAG는 일반적으로 상황 관련 정보를 검색하고 검색된 지식을 사용하여 생성 프로세스를 안내하는 두 단계로 구성됩니다. 예를 들어, 직원으로서 빅모델에게 "우리 회사에서는 지각하면 어떤 처벌을 받나요?"라고 직접 물어볼 수 있는데, "직원수첩"을 읽지 않고서는 빅모델이 대답할 방법이 없습니다. 그러나 RAG 방법을 사용하면 먼저 검색 모델이 "직원 핸드북"에서 가장 관련성이 높은 답변을 검색한 다음 귀하의 질문과 찾은 관련 답변을 생성 모델로 보낼 수 있습니다. 답변을 생성합니다. 이는 이전의 많은 대형 모델의 컨텍스트 창이 충분히 크지 않았지만(예: "직원 핸드북"을 수용할 수 없음) RAGfangfa가 컨텍스트 간의 미묘한 연결을 포착하는 데 부족했던 문제를 해결합니다.
Fu Yao는 모델이 천만 토큰의 상황 정보를 직접 처리할 수 있다면 관련 정보를 찾고 통합하기 위해 추가 검색 단계를 거칠 필요가 없다고 믿습니다. 사용자는 필요한 모든 데이터를 컨텍스트로 모델에 직접 입력한 다음 평소처럼 모델과 상호 작용할 수 있습니다. "대규모 언어 모델 자체는 이미 매우 강력한 검색 기능을 갖추고 있는데 굳이 약한 검색 기능을 구축하고 청킹, 임베딩, 인덱싱 등에 많은 엔지니어링 에너지를 소비할 필요가 있습니까?"라고 그는 계속해서 썼습니다.
그러나 Fu Yao의 견해는 많은 연구자들에 의해 반박되었습니다. 그는 많은 반대 의견이 타당하다고 말했으며 이러한 의견도 체계적으로 정리했습니다.
1. 비용 문제: 비평가들은 RAG가 Long Context 모델보다 저렴하다고 지적했습니다. Fu Yao는 이를 인정하면서도 다양한 기술의 개발 이력을 비교하면서 저가형 모델(BERT-small 또는 n-gram 등)은 실제로 저렴하지만 AI 개발 역사에서 첨단 기술의 비용은 상당히 저렴하다고 지적했습니다. 결국 줄어들 것이다. 스마트 모델의 성능을 먼저 추구한 뒤 기술 발전을 통해 비용을 절감한다는 게 그의 견해다. 값싼 모델을 스마트하게 만드는 것보다 스마트 모델을 저렴하게 만드는 것이 훨씬 쉽기 때문이다.
2. 검색과 추론의 통합: Fu Yao는 긴 컨텍스트 모델이 디코딩 프로세스 전반에 걸쳐 검색과 추론을 혼합할 수 있는 반면 RAG는 처음에만 검색을 수행한다고 강조했습니다. 긴 컨텍스트 모델은 각 계층과 각 토큰에서 검색할 수 있습니다. 이는 모델이 예비 추론 결과를 기반으로 검색할 정보를 동적으로 결정할 수 있어 검색과 추론의 긴밀한 통합을 달성할 수 있음을 의미합니다.
3. 지원되는 토큰 수: RAG가 지원하는 토큰 수는 1000조 수준에 도달했고 현재 긴 컨텍스트 모델은 백만 수준을 지원하지만 Fu Yao는 자연적으로 분산된 입력 문서에서 대부분이 필요하다고 믿습니다. 검색조건은 모두 백만레벨 이하입니다. 그는 법률 문서 분석과 머신러닝 학습을 예로 들며, 이러한 경우 입력량이 수백만을 넘지 않을 것이라고 믿었습니다.
4. 캐싱 메커니즘: 긴 컨텍스트 모델이 전체 문서를 다시 입력해야 하는 문제에 대해 Fu Yao는 소위 KV(키 값) 캐싱 메커니즘이 있다고 지적했습니다. 입력을 위한 복잡한 캐시 및 메모리 계층 구조 한 번만 읽어야 하며 후속 쿼리는 KV 캐시를 재사용할 수 있습니다. 그는 또한 KV 캐시가 클 수 있지만 앞으로는 효율적인 KV 캐시 압축 알고리즘이 등장할 것이라고 낙관하고 있다고 언급했습니다.
5. 검색 엔진 호출의 필요성: 그는 단기적으로는 검색을 위해 검색 엔진을 호출하는 것이 여전히 필요하다고 인정했습니다. 그러나 그는 언어 모델이 Google 검색 색인 전체에 직접 액세스하여 모든 정보를 흡수하도록 하는 대담한 아이디어를 제안했는데, 이는 AI 기술의 미래 잠재력에 대한 위대한 상상력을 반영합니다.
6. 성능 문제: Fu Yao는 현재 Gemini 1.5가 1M 컨텍스트를 처리할 때 느리다는 점을 인정했지만 속도 개선에 대해 낙관적이며 향후 긴 컨텍스트 모델의 속도가 크게 향상될 것이라고 믿습니다. 결국 RAG 속도와 동일한 수준에 도달할 수 있습니다.
Fu Yao 외에도 AI 블로거 @elvis와 같은 다른 많은 연구자들도 X 플랫폼에서 RAG의 전망에 대한 견해를 표명했습니다.
일반적으로 그는 긴 컨텍스트 모델이 RAG를 대체할 수 있다고 생각하지 않습니다. 그 이유는 다음과 같습니다.
1 특정 데이터 유형의 과제: @elvis는 데이터가 복잡한 구조를 가지고 있고 정기적으로 변경되며 중요한 시간 차원(예: 코드 편집/변경 및 웹 로그)이 있습니다. 이러한 유형의 데이터는 과거 데이터 포인트에 연결될 수 있으며 향후 더 많은 데이터 포인트에 연결될 수도 있습니다. @elvis는 LLM에 비해 데이터가 너무 복잡하고 현재 최대 컨텍스트 창이 해당 데이터에 적합하지 않기 때문에 오늘날의 긴 컨텍스트 언어 모델만으로는 이러한 데이터에 의존하는 사용 사례를 처리할 수 없다고 생각합니다. 이러한 종류의 데이터를 처리할 때 영리한 검색 메커니즘이 필요할 수 있습니다.
2. 동적 정보 처리: 오늘날의 긴 컨텍스트 LLM은 정적 정보(예: 책, 비디오 녹화, PDF 등) 처리에 효과적이지만 고도로 동적 처리에 관해서는 아직 실제로 테스트되지 않았습니다. 정보와 지식. @elvis는 몇 가지 문제(예: "중간 손실")를 해결하고 보다 복잡하고 구조화된 동적 데이터를 처리하는 방향으로 진전을 이루겠지만 아직 갈 길이 멀다고 믿습니다.
3. @elvis는 이러한 유형의 문제를 해결하기 위해 RAG와 장기 컨텍스트 LLM을 결합하여 주요 기록 정보를 효과적이고 효율적으로 검색하고 분석할 수 있는 강력한 시스템을 구축할 수 있다고 제안했습니다. 그는 이것조차도 많은 경우에 충분하지 않을 수 있다고 강조했다. 특히 대용량 데이터는 빠르게 변화할 수 있기 때문에 AI 기반 에이전트는 복잡성을 더욱 가중시킵니다. @elvis는 복잡한 사용 사례의 경우 모든 것을 대체하는 범용 또는 긴 컨텍스트 LLM보다는 이러한 아이디어의 조합이 될 가능성이 높다고 생각합니다.
4. 다양한 유형의 LLM에 대한 수요: @elvis는 모든 데이터가 정적인 것은 아니며 많은 데이터가 동적임을 지적했습니다. 이러한 애플리케이션을 고려할 때 빅 데이터의 세 가지 V인 속도, 볼륨, 다양성을 염두에 두십시오. @elvis는 검색 회사에서 일한 경험을 통해 이 교훈을 배웠습니다. 그는 다양한 유형의 LLM이 다양한 유형의 문제를 해결하는 데 도움이 될 것이라고 믿으며 하나의 LLM이 모든 문제를 지배한다는 생각에서 벗어나야 합니다.
@elvis는 Oriol Vinyals(Google DeepMind 연구 담당 부사장)의 말을 인용하며 마무리하며, 현재에도 100만 개 이상의 토큰 컨텍스트를 처리할 수 있지만 RAG 시대는 아직 멀었다고 말했습니다. 위에. RAG에는 실제로 아주 좋은 기능이 있습니다. 이러한 속성은 긴 컨텍스트 모델로 향상될 수 있을 뿐만 아니라 긴 컨텍스트 모델도 RAG로 향상될 수 있습니다. RAG를 사용하면 관련 정보를 찾을 수 있지만 모델이 이 정보에 액세스하는 방식은 데이터 압축으로 인해 너무 제한될 수 있습니다. 긴 컨텍스트 모델은 L1/L2 캐시와 메인 메모리가 최신 CPU에서 함께 작동하는 방식과 유사하게 이러한 격차를 해소하는 데 도움이 될 수 있습니다. 이 협업 모델에서는 캐시와 메인 메모리가 각각 다른 역할을 하지만 서로를 보완하여 처리 속도와 효율성을 높입니다. 마찬가지로 RAG와 긴 컨텍스트를 결합하면 보다 유연하고 효율적인 정보 검색 및 생성이 가능하며, 복잡한 데이터와 작업을 처리하는 데 각각의 장점을 최대한 활용할 수 있습니다.
"RAG 시대가 끝날지 여부"는 아직 결정되지 않은 것 같습니다. 그러나 많은 사람들은 Gemini 1.5 Pro가 매우 긴 컨텍스트 창 모델로서 실제로 과소평가되었다고 말합니다. @elvis도 테스트 결과를 제공했습니다.
긴 문서 분석 기능
Gemini 1.5 Pro의 문서 처리 및 분석 능력을 보여주기 위해 @elvis는 매우 기본적인 질문 응답 작업부터 시작했습니다. 그는 PDF 파일을 업로드하고 다음과 같은 간단한 질문을 했습니다. 이 논문은 무엇에 관한 것인가요?
모델의 응답은 Galactica 논문에 대한 수용 가능한 요약을 제공하므로 정확하고 간결합니다. 위의 예에서는 Google AI Studio의 자유 형식 프롬프트를 사용하지만 채팅 형식을 사용하여 업로드된 PDF와 상호작용할 수도 있습니다. 제공된 문서에서 답변을 얻고 싶은 질문이 많은 경우 이는 매우 유용한 기능입니다.
긴 컨텍스트 창을 최대한 활용하기 위해 @elvis는 테스트용 PDF 두 개를 업로드하고 두 PDF에 걸쳐 질문을 했습니다.
Gemini 1.5 Pro의 반응은 합리적입니다. 흥미롭게도 첫 번째 논문(LLM에 대한 리뷰 논문)에서 추출된 정보는 테이블에서 나옵니다. "아키텍처" 정보도 올바른 것으로 보입니다. 그러나 "Performance" 부분은 첫 번째 논문에 포함되지 않았기 때문에 여기에 속하지 않습니다. 이 작업에서는 "두 번째 논문에 소개된 대형 언어 모델에 대해 첫 번째 논문에 언급된 사실을 나열해 주세요"라는 프롬프트를 상단에 배치하고 논문에 "Paper 1", "Paper 2"와 같이 라벨을 붙이는 것이 중요합니다. ". 본 연구실의 또 다른 관련 후속 작업은 일련의 논문과 이를 요약하는 방법에 대한 지침을 업로드하여 관련 작업을 작성하는 것입니다. 또 다른 흥미로운 작업은 모델에게 최신 LLM 논문을 리뷰에 포함하도록 요청했습니다.
동영상 이해
Gemini 1.5 Pro는 처음부터 다중 모드 데이터에 대해 훈련되었습니다. @elvis는 Andrej Karpathy의 최근 LLM 강의 동영상을 사용하여 몇 가지 프롬프트를 테스트했습니다.
그가 모델에게 완료하도록 요청한 두 번째 작업은 간결하고 간결한 강의 개요(1페이지 길이)를 제공하는 것이었습니다. 답변은 다음과 같습니다(간결하게 편집됨):
Gemini 1.5 Pro에서 제공하는 요약은 매우 간결하며 강의 내용과 핵심 사항을 잘 요약합니다.
특정 세부 사항이 중요한 경우 모델이 여러 가지 이유로 때때로 "환각"을 느끼거나 잘못된 정보를 검색할 수 있다는 점에 유의하세요. 예를 들어 모델이 "강의에서 Llama 2에 대해 보고된 FLOP는 무엇입니까?"라는 질문을 받으면 "강의에서는 Llama 2 70B를 훈련하려면 약 1조 개의 FLOP가 필요하다고 보고합니다."라고 대답하며 이는 정확하지 않습니다. 정답은 "~1e24 FLOPs"입니다. 기술 보고서에는 비디오에 대한 특정 질문을 받을 때 이러한 긴 컨텍스트 모델이 실수하는 사례가 많이 포함되어 있습니다.
다음 작업은 영상에서 테이블 정보를 추출하는 것입니다. 테스트 결과에 따르면 모델은 일부 세부정보는 정확하고 일부는 부정확한 테이블을 생성할 수 있는 것으로 나타났습니다. 예를 들어, 테이블의 열은 정확하지만 행 중 하나의 레이블이 잘못되었습니다(즉, 개념 해결은 Coref 해결이어야 함). 테스터는 다른 테이블 및 다른 요소(예: 텍스트 상자)를 사용하여 이러한 추출 작업 중 일부를 테스트한 결과 유사한 불일치를 발견했습니다.
기술 보고서에 기록된 흥미로운 예는 특정 장면이나 타임스탬프를 기반으로 비디오에서 세부 정보를 검색하는 모델의 기능입니다. 첫 번째 예에서 테스터는 모델에 특정 부분이 시작되는 위치를 묻습니다. 모델이 올바르게 대답했습니다.
다음 예에서는 모델에게 슬라이드의 그래프를 설명해달라고 요청했습니다. 모델은 제공된 정보를 그래프의 결과를 설명하기 위해 잘 활용하는 것 같습니다.
아래는 해당 슬라이드쇼의 스냅샷입니다.
@elvis는 2차 테스트를 시작했으며 관심 있는 학생들은 X 플랫폼으로 가서 시청할 수 있다고 말했습니다.
위 내용은 Google의 10M 컨텍스트 창이 RAG를 죽이고 있습니까? 쌍둥이 자리는 소라의 주목을받지 못한 후 과소 평가됩니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!