집 >기술 주변기기 >일체 포함 >구글, 최신 '화면 읽기' AI 출시! PaLM 2-S는 자동으로 데이터를 생성하고 여러 이해 작업이 SOTA를 새로 고칩니다.

구글, 최신 '화면 읽기' AI 출시! PaLM 2-S는 자동으로 데이터를 생성하고 여러 이해 작업이 SOTA를 새로 고칩니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2024-03-06 18:30:03882검색

모두가 원하는 빅 모델은 진정한 지능을 갖춘 모델입니다...

아니요, Google 팀은 강력한 '화면 읽기' AI를 만들었습니다.

연구원들은 이를 사용자 인터페이스와 인포그래픽을 이해하기 위한 새로운 시각적 언어 모델인 ScreenAI라고 부릅니다.

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

문서 주소: https://arxiv.org/pdf/2402.04615.pdf ScreenAI의 핵심은 UI 요소의 유형과 위치를 식별할 수 있는 새로운 스크린샷 텍스트 표현 방법입니다.

연구원들은 Google 언어 모델 PaLM 2-S를 사용하여 합성 훈련 데이터를 생성했습니다. 이 데이터는 화면 정보, 화면 탐색 및 화면 콘텐츠 요약과 관련된 질문에 답하기 위해 모델을 훈련하는 데 사용되었습니다. 이 방법은 화면 관련 작업을 처리할 때 모델의 성능을 향상시키기 위한 새로운 아이디어를 제공한다는 점은 언급할 가치가 있습니다.

예를 들어 음악 APP 페이지를 열면 "길이가 30초 미만인 노래는 몇 곡입니까?"라고 물어볼 수 있습니다. 谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

ScreenAI는 간단한 답변을 제공합니다: 1.

또 다른 예는 ScreenAI에 명령을 내려 메뉴를 열면 메뉴를 선택할 수 있는 것입니다. 谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA 건축 영감의 원천 - PaLI

그림 1은 ScreenAI 모델 아키텍처를 보여줍니다. 연구원들은 다중 모드 인코더 블록으로 구성된 PaLI 모델 제품군의 아키텍처에서 영감을 받았습니다.

인코더 블록에는 ViT와 유사한 시각적 인코더와 이미지 및 텍스트 입력을 소비하는 mT5 언어 인코더, 자동 회귀 디코더가 포함되어 있습니다.

입력 이미지는 시각적 인코더에 의해 일련의 임베딩으로 변환되며, 이는 입력 텍스트 임베딩과 결합되어 mT5 언어 인코더에 공급됩니다.

인코더의 출력은 텍스트 출력을 생성하는 디코더로 전달됩니다.

이 일반화된 공식은 동일한 모델 아키텍처를 사용하여 다양한 시각적 및 다중 모드 작업을 해결할 수 있습니다. 이러한 작업은 텍스트(출력) 문제에 대한 텍스트+이미지(입력)로 재구성될 수 있습니다.

텍스트 입력과 비교하여 이미지 임베딩은 다중 모달 인코더의 입력 길이에서 중요한 부분을 차지합니다.

간단히 말하면 이 모델은 이미지 인코더와 언어 인코더를 사용하여 이미지와 텍스트 특징을 추출하고 두 가지를 융합한 다음 디코더에 입력하여 텍스트를 생성합니다.

이 구축 방법은 이미지 이해와 같은 다중 모드 작업에 널리 적용될 수 있습니다.

또한 연구원들은 PaLI의 인코더-디코더 아키텍처를 더욱 확장하여 다양한 이미지 차단 모드를 수용했습니다. 谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

원래 PaLI 아키텍처는 입력 이미지를 처리하기 위해 고정된 격자 패턴의 이미지 패치만 허용합니다. 그러나 화면 관련 분야의 연구자들은 다양한 해상도와 종횡비에 걸친 데이터를 접하게 됩니다.

단일 모델이 모든 화면 모양에 적응하려면 다양한 모양의 이미지에 적합한 타일링 전략을 사용해야 합니다.

이를 위해 Google 팀은 그림 1과 같이 입력 이미지 모양과 사전 정의된 최대 블록 수를 기반으로 임의의 격자 모양 이미지 블록을 생성할 수 있는 Pix2Struct에 도입된 기술을 차용했습니다.

모양을 고정하기 위해 이미지를 채우거나 늘릴 필요 없이 다양한 형식과 종횡비의 입력 이미지에 적응할 수 있어 모델이 더욱 다양해지고 모바일(예: 세로)과 데스크탑(예: 세로)을 모두 처리할 수 있습니다. 가로) 이미지 형식입니다.

모델 구성

연구원들은 670M, 2B 및 5B 매개변수를 포함하는 다양한 크기의 3개 모델을 훈련했습니다.

670M 및 2B 매개변수 모델의 경우 연구원들은 시각적 인코더 및 인코더-디코더 언어 모델의 사전 훈련된 단봉 체크포인트로 시작했습니다.

5B 매개변수 모델의 경우 ViT가 UL2 기반 인코더-디코더 언어 모델로 교육되는 PaLI-3의 다중 모드 사전 교육 체크포인트에서 시작하세요.

시각 모델과 언어 모델 간의 매개변수 분포는 표 1에서 볼 수 있습니다.

자동 데이터 생성

연구원들은 모델 개발의 사전 훈련 단계가 크고 다양한 데이터 세트에 대한 액세스에 크게 좌우된다고 말합니다.

그러나 광범위한 데이터 세트에 수동으로 라벨을 지정하는 것은 비현실적이므로 Google 팀의 전략은 자동 데이터 생성입니다.

이 접근 방식은 특수한 소형 모델을 활용하며 각 모델은 효율적이고 높은 정확도로 데이터를 생성하고 레이블을 지정하는 데 능숙합니다.

수동 주석에 비해 이 자동화된 접근 방식은 효율적이고 확장성이 있을 뿐만 아니라 일정 수준의 데이터 다양성과 복잡성을 보장합니다.

첫 번째 단계는 모델에 텍스트 요소, 다양한 화면 구성 요소, 전체 구조 및 계층 구조에 대한 포괄적인 이해를 제공하는 것입니다. 이러한 근본적인 이해는 다양한 사용자 인터페이스를 정확하게 해석하고 상호 작용하는 모델의 능력에 매우 중요합니다.

여기서 연구원들은 크롤링 애플리케이션과 웹페이지를 통해 데스크톱, 모바일 장치, 태블릿을 포함한 다양한 장치에서 대량의 스크린샷을 수집했습니다.

이 스크린샷에는 UI 요소, 공간 관계 및 기타 설명 정보를 설명하는 자세한 태그가 주석으로 추가됩니다.

또한 사전 훈련 데이터에 더 큰 다양성을 주입하기 위해 연구원들은 언어 모델, 특히 PaLM 2-S의 기능을 활용하여 두 단계로 QA 쌍을 생성했습니다.

앞서 설명한 화면 패턴을 생성하는 것부터 시작하세요. 그런 다음 저자는 언어 모델이 합성 데이터를 생성하도록 안내하는 화면 패턴이 포함된 프롬프트를 디자인합니다.

몇 번의 반복 후에 부록 C에 표시된 것처럼 필요한 작업을 효과적으로 생성하는 팁을 식별할 수 있습니다.

이렇게 생성된 응답의 품질을 평가하기 위해 연구원들은 미리 결정된 품질 요구 사항이 충족되었는지 확인하기 위해 데이터 하위 집합에 대해 수동 검증을 수행했습니다.

이 방법은 그림 2에 설명되어 있으며 사전 훈련 데이터 세트의 깊이와 폭을 크게 향상시킵니다.

구조화된 화면 패턴과 결합된 이러한 모델의 자연어 처리 기능을 활용하여 다양한 사용자 상호 작용 및 시나리오를 시뮬레이션할 수 있습니다.

두 가지 작업 세트

다음으로 연구원들은 모델에 대해 두 가지 다른 작업 세트, 즉 초기 사전 학습 작업 세트와 후속 미세 조정 작업 세트를 정의했습니다.

두 그룹은 주로 두 가지 측면에서 다릅니다.

- 실제 데이터 소스: 미세 조정 작업의 경우 인간 평가자가 라벨을 제공하거나 검증합니다. 사전 훈련 작업의 경우 레이블은 자기 지도 학습 방법을 사용하여 추론되거나 다른 모델을 사용하여 생성됩니다.

- 데이터 세트 크기: 일반적으로 사전 학습 작업에는 많은 수의 샘플이 포함되어 있으므로 이러한 작업은 보다 확장된 일련의 단계를 통해 모델을 학습하는 데 사용됩니다.

표 2는 모든 사전 훈련 작업을 요약한 것입니다.

혼합 데이터에서 데이터 세트는 크기에 비례하여 가중치가 부여되며 각 작업에 허용되는 최대 가중치가 적용됩니다.

언어 처리부터 시각적 이해 및 웹 콘텐츠 분석에 이르기까지 다중 모드 소스를 다중 작업 교육에 통합하면 모델이 다양한 시나리오를 효과적으로 처리하고 전반적인 다양성과 성능을 향상시킬 수 있습니다.

연구원들은 다양한 작업과 벤치마크를 사용하여 미세 조정 중에 모델의 품질을 추정합니다. 표 3에는 기존 기본 화면, 인포그래픽, 문서 이해 벤치마크를 포함한 이러한 벤치마크가 요약되어 있습니다.

실험 결과

그림 4는 ScreenAI 모델의 성능을 보여주고 이를 다양한 화면 및 정보 그래픽 관련 작업에 대한 최신 SOT 결과와 비교합니다.

다양한 작업에서 ScreenAI의 앞선 성능을 확인하실 수 있습니다.

표 4에서 연구진은 OCR 데이터를 활용한 단일 작업 미세 조정 결과를 제시합니다.

QA 작업의 경우 OCR을 추가하면 성능이 향상될 수 있습니다(예: Complex ScreenQA, MPDocVQA 및 InfoVQA에서 최대 4.5%).

그러나 OCR을 사용하면 입력 길이가 약간 늘어나서 전체적으로 훈련 속도가 느려집니다. 또한 추론 시 OCR 결과를 얻어야 합니다.

또한 연구진은 6억 7천만 개의 매개변수, 20억 개의 매개변수, 50억 개의 매개변수 등 모델 크기를 사용하여 단일 작업 실험을 수행했습니다.

그림 4에서 볼 수 있듯이 모든 작업에 대해 모델 크기를 늘리면 성능이 향상되며 최대 규모의 개선은 아직 포화되지 않았습니다.

더 복잡한 시각적 텍스트와 산술 추론이 필요한 작업(예: InfoVQA, ChartQA 및 Complex ScreenQA)의 경우 20억 매개변수 모델과 50억 매개변수 모델 간의 개선이 6억 7천만 매개변수 모델보다 훨씬 더 큽니다. 그리고 20억 개의 매개변수 모델.

마지막으로 그림 5는 종횡비가 1.0보다 큰 이미지(가로 모드 이미지)의 경우 pix2struct 분할 전략이 고정 그리드 분할보다 훨씬 우수하다는 것을 보여줍니다.

세로 모드 이미지의 경우 추세는 반대이지만 고정 그리드 분할이 약간 더 좋습니다.

연구원들은 ScreenAI 모델이 다양한 종횡비의 이미지에서 작동하기를 원했기 때문에 pix2struct 분할 전략을 사용하기로 결정했습니다.

Google 연구원들은 ScreenAI 모델이 GPT-4 및 Gemini와 같은 대형 모델과의 격차를 줄이기 위해 일부 작업에 대한 더 많은 연구가 필요하다고 말했습니다.

위 내용은 구글, 최신 '화면 읽기' AI 출시! PaLM 2-S는 자동으로 데이터를 생성하고 여러 이해 작업이 SOTA를 새로 고칩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 ocr https ui 自动化 gpt palm

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：ICLR 2024 | 오디오 및 비디오 분리에 대한 새로운 관점을 제공하는 Tsinghua University의 Hu Xiaolin 팀은 RTFS-Net을 출시했습니다.다음 기사：ICLR 2024 | 오디오 및 비디오 분리에 대한 새로운 관점을 제공하는 Tsinghua University의 Hu Xiaolin 팀은 RTFS-Net을 출시했습니다.