많은 실제 응용 프로그램에서 데이터는 순전히 텍스트가 아닙니다. 이미지, 테이블 및 이야기를 강화하는 데 도움이되는 차트가 포함될 수 있습니다. 멀티 모달 보고서 생성기를 사용하면 텍스트와 이미지를 최종 출력에 통합하여 보고서를보다 역동적이고 시각적으로 풍부하게 만듭니다. 이 기사는 다음을 사용하여 이러한 파이프 라인을 구축하는 방법을 간략하게 설명합니다.
문서 구문 분석 및 쿼리 엔진을 조정하려면 llamaindex
Openai
텍스트 분석을위한 언어 모델, PDF 문서에서 텍스트와 이미지를 모두 추출하려면Llamaparse로 문서를 구문 분석 : 6 단계 : 6 단계 : 텍스트와 이미지를 준수 7 단계 : 요약 색인 구축
llama-index
예를 들어 :
PDF 슬라이드 데크가 데이터 폴더에 있는지 확인하십시오. 데이터 폴더에 배치하지 않으면 원하는대로 이름을 지정하십시오.
!pip install -U llama-index-callbacks-arize-phoenix import nest_asyncio nest_asyncio.apply()
!pip install -U llama-index-callbacks-arize-phoenix import nest_asyncio nest_asyncio.apply()
6 단계 : 텍스트와 이미지를 연결합니다
우리는 각 페이지에 대해
7 단계 : 요약 인덱스 구축
이 텍스트 노드를 손에 들면 SummaryIndex를 만들 수 있습니다.
PHOENIX_API_KEY = "<PHOENIX_API_KEY>" os.environ["OTEL_EXPORTER_OTLP_HEADERS"] = f"api_key={PHOENIX_API_KEY}" llama_index.core.set_global_handler( "arize_phoenix", endpoint="https://llamatrace.com/v1/traces" )reportOutput
최소한 하나의 이미지 블록이 필요하므로 최종 답변이 멀티 모달이되도록합니다.
9 단계 : 구조화 된 쿼리 엔진을 만듭니다
import os import requests # Create the directories (ignore errors if they already exist) os.makedirs("data", exist_ok=True) os.makedirs("data_images", exist_ok=True) # URL of the PDF url = "https://static.conocophillips.com/files/2023-conocophillips-aim-presentation.pdf" # Download and save to data/conocophillips.pdf response = requests.get(url) with open("data/conocophillips.pdf", "wb") as f: f.write(response.content) print("PDF downloaded to data/conocophillips.pdf")
결론
시각적 구문 분석 개선, 차트 별 분석을 통합하고 더 깊은 통찰력을위한 텍스트 및 이미지 처리를위한 모델을 결합하십시오.
위 내용은 llamaindex를 사용한 멀티 모달 재무 보고서 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!