먼저 멀티모달 콘텐츠에 대한 우리의 인식을 소개하겠습니다.
콘텐츠 이해 기능을 향상하여 광고 시스템이 세분화된 시나리오에서 콘텐츠를 더 잘 이해할 수 있도록 합니다.
콘텐츠 이해 능력을 향상시키면 많은 실질적인 문제에 직면하게 됩니다.
좋은 다중 모드 기본 표현이란 무엇입니까?
좋은 다중 모드 표현이란 무엇입니까?
폭 측면에서는 데이터 활용 범위가 확장되어야 하고, 깊이 측면에서는 시각적 효과가 향상되어야 하며, 동시에 장면의 데이터 미세 조정이 보장되어야 합니다.
이전의 기존 아이디어는 모델을 훈련시켜 그림의 모달성, 자동 회귀 작업을 학습한 다음 텍스트 작업을 수행하고 몇 가지 트윈 타워 패턴을 적용하여 둘 사이의 모달 관계를 닫는 것이었습니다. 그 당시에는 텍스트 모델링이 상대적으로 단순했고, 모두가 비전을 모델링하는 방법을 더 많이 연구하고 있었습니다. CNN으로 시작하여 나중에 시각적 표현을 향상시키기 위해 bbox 방법과 같은 타겟 감지 기반의 몇 가지 방법이 포함되었습니다. 그러나 이 방법은 감지 기능이 제한적이고 너무 무거워서 대규모 데이터 학습에 도움이 되지 않습니다.
2020년과 2021년쯤에는 VIT 방식이 주류가 되었습니다. 여기서 꼭 언급해야 할 가장 유명한 모델 중 하나는 OpenAI가 2020년에 출시한 모델인 CLIP입니다. 텍스트와 시각적 표현을 위한 트윈 타워 아키텍처를 기반으로 합니다. 그런 다음 코사인을 사용하여 둘 사이의 거리를 좁힙니다. 이 모델은 검색 능력은 매우 뛰어나지만 VQA 작업과 같이 논리적 추론이 필요한 일부 작업에서는 성능이 약간 떨어집니다.
표상 학습: 시각에 대한 자연어의 기본 인식 능력을 향상시킵니다.
우리의 목표는 자연어에 대한 기본적인 시각적 인식을 향상시키는 것입니다. 데이터 측면에서 볼 때, 우리 비즈니스 도메인에는 수십억 개의 데이터가 있지만 아직 충분하지 않습니다. 비즈니스 도메인에서 과거 데이터를 추가로 도입하고 정리하고 정리해야 합니다. 수백억개 수준의 훈련 세트가 구축되었습니다.
우리는 생성 작업을 사용하여 비전이 텍스트를 복원할 수 있도록 VICAN-12B 다중 모드 표현 + 생성 모델을 구축했으며, 텍스트에 대한 시각적 표현의 융합 효과를 더욱 보장하고 비전에 대한 자연어의 기본 인식을 향상시켰습니다. . 위 사진을 보시면 모델의 전체적인 구조를 보시면 트윈타워+싱글타워의 복합구조임을 알 수 있습니다. 가장 먼저 해결해야 할 것이 대규모 이미지 검색 작업이기 때문입니다. 왼쪽 상자에 있는 부분은 우리가 시각적 퍼셉트론이라고 부르는 부분으로, 20억 개의 매개변수 규모를 가진 ViT 구조입니다. 오른쪽은 두 개의 레이어로 볼 수 있습니다. 아래쪽 부분은 검색용 텍스트 변환기 스택이고 위쪽 부분은 생성용입니다. 모델은 세 가지 작업으로 나누어져 있는데, 하나는 생성 작업, 하나는 분류 작업, 다른 하나는 그림 비교 작업입니다. 모델은 이 세 가지 다른 목표를 기반으로 훈련되었으므로 비교적 좋은 결과를 얻었습니다. 더욱 최적화하겠습니다.
효율적이고 통합되었으며 전송 가능한 다중 시나리오 글로벌 표현 체계 세트입니다.
비즈니스 시나리오 데이터와 결합하여 모델 이해 능력을 향상시키기 위해 LLM 모델을 도입했습니다. CV 모델은 퍼셉트론이고 LLM 모델은 이해자입니다. 우리의 접근 방식은 그에 따라 시각적 특징을 전달하는 것입니다. 왜냐하면 지금 언급한 것처럼 표현은 다중 모드이고 대형 모델은 텍스트를 기반으로 하기 때문입니다. Wenxin LLM의 대형 모델에만 적용하면 되므로 Combo attention을 사용하여 해당 기능 융합을 수행해야 합니다. 대형 모델의 논리적 추론 기능을 유지해야 하므로 대형 모델을 그대로 두지 않고 비즈니스 시나리오 피드백 데이터만 추가하여 시각적 기능을 대형 모델에 통합하도록 노력합니다. 작업을 지원하기 위해 몇 장의 샷을 사용할 수 있습니다. 주요 작업은 다음과 같습니다.
이제 장면 기반 미세 조정에 집중해 보겠습니다.
시각 검색 장면, 기본 표현 기반의 트윈 타워 미세 조정.
기본 표현을 기반으로 대형 텍스트 모델과 결합하여 다양한 비즈니스 장면의 그림 클릭 피드백 신호를 라벨러로 사용하여 다양한 장면에서 그림과 텍스트 간의 부분 순서 관계를 구체화합니다. 우리는 7개의 주요 데이터 세트에 대한 평가를 수행했으며 모두 SOTA 결과를 달성할 수 있습니다.
텍스트 분할에서 영감을 받은 정렬 시나리오는 다중 모드 기능의 의미를 정량화합니다.
표현 외에 또 다른 문제는 분류 장면에서 시각적 효과를 어떻게 향상시킬 것인가입니다. 먼저 현장 배경을 살펴보겠습니다. 대규모 이산 DNN은 업계 순위 모델의 주류 개발 방향이며 이산 기능도 순위 모델 최적화의 핵심입니다. 텍스트는 모델에 입력되고 단어 분할을 기반으로 토큰화되며 다른 개별 기능과 결합되어 좋은 결과를 얻습니다. 비전에 관해서도 토큰화를 희망하고 있습니다.
ID 유형 기능은 실제로 매우 개인화된 기능이지만, 일반화된 기능이 다양해질수록 특성화 정확도가 떨어질 수 있습니다. 우리는 데이터와 작업을 통해 이 균형점을 동적으로 조정해야 합니다. 즉, 우리는 데이터와 가장 관련성이 높은 척도를 찾고, 그에 따라 기능을 ID로 "분할"하고, 텍스트와 같은 다중 모드 기능을 분할하기를 희망합니다. 따라서 우리는 이러한 문제를 해결하기 위해 다중 규모, 다단계 콘텐츠 수량화 학습 방법을 제안했다.
장면 정렬, 다중 모드 기능 및 모델 MmDict의 융합.
크게 2단계로 나누어져 있는데, 1단계는 이산성을 익히고, 2단계는 융합을 익히게 됩니다.
① 희소 활성화를 사용하여 여러 이산 신호로 연속 신호를 표현합니다. 즉, 희소 활성화를 사용하여 조밀한 특징을 분할한 다음 해당 다중 모달 코드북에서 ID를 활성화합니다. 실제로는 argmax 연산만 수행하므로 미분 불가능한 문제가 발생합니다. 동시에 특징 공간의 붕괴를 방지하기 위해 활성화된 뉴런과 비활성 뉴런 간의 정보 상호 작용이 추가됩니다.
② 네트워크 비미분성 문제를 해결하고 원래 기능을 다시 구축하며 부분 순서 관계가 변경되지 않도록 보장하기 위한 STE 전략을 도입합니다.
인코더-디코더 방법을 사용하여 밀집된 특징을 순차적으로 양자화한 다음 양자화된 특징을 올바른 방식으로 복원합니다. 복원 전후에 부분 순서 관계가 변하지 않도록 보장해야 하며, 특정 작업에 대한 기능의 양적 손실을 1% 미만으로 거의 제어할 수 있습니다. 이러한 ID는 현재 데이터 배포를 개인화할 수 있을 뿐만 아니라 일반화 속성을 가지고 있습니다.
①과 대규모 이산 융합을 학습합니다.
그런 다음 방금 언급한 숨겨진 레이어 재사용이 바로 위에 배치되지만 효과는 실제로 평균 수준입니다. 이를 식별하고 양자화한 후 희소 피처 레이어 및 기타 유형의 피처와 융합하면 더 나은 효과를 얻을 수 있습니다.
② 중앙 -> 잔여 2레벨 및 S-M-L 3스케일을 통해 손실을 줄입니다.
물론 일부 잔차 및 다중 규모 방법도 사용합니다. 2020년부터 우리는 정량화 손실을 점진적으로 낮추어 지난해 수준 이하로 내려갔습니다. 이를 통해 대형 모델이 특징을 추출한 후 이 학습 가능한 정량화 방법을 사용하여 의미 연관 ID를 사용하여 시각적 콘텐츠를 특성화할 수 있습니다. 특성은 실제로 매우 추천 시스템의 ID에 대한 탐색적 조사 방법을 포함하여 현재 비즈니스 시스템에 적합합니다.
Baidu 마케팅 AIGC 크리에이티브 플랫폼은 영감에서 창작, 전달까지 완벽한 폐쇄 루프를 형성합니다. . 해체, 생성, 피드백까지 AIGC를 홍보하고 최적화하고 있습니다.
좋은 비즈니스 프롬프트에는 다음과 같은 요소가 있습니다.
이제 영상 세대는 비교적 성숙해졌습니다. 그러나 실제로는 여전히 몇 가지 문제가 있습니다.
초기에는 어떤 영상을 만들고 싶은지, 어떤 사람을 선택하고 싶은지, 그 사람이 하고 싶은 말을 모두 프롬프트를 통해 입력하면 정확하게 입력이 됩니다. 요구 사항에 따라 비디오를 제어하여 해당 스크립트를 생성합니다.
다음으로 우리 디지털 휴먼 라이브러리를 통해 해당 디지털 피플을 불러올 수 있지만, AI 기술을 활용하면 얼굴 교체, 배경 교체, 악센트 및 음성 교체 등 디지털 피플의 다양성을 더욱 강화하여 우리의 환경에 적응할 수 있습니다. 프롬프트, 마지막으로 스크립트, 디지털 입술 모양 교체, 배경 교체, 얼굴 교체 및 비디오 억제를 통해 음성 비디오를 얻을 수 있습니다. 고객은 디지털 휴먼을 활용하여 제품에 해당하는 일부 마케팅 판매 포인트를 소개할 수 있습니다. 이런 식으로 3분 만에 디지털 사람이 될 수 있으며, 이는 광고주의 디지털 사람이 되는 능력을 크게 향상시킵니다.
대형 모델은 기업이 마케팅 포스터를 생성하고 제품 배경을 교체하는 데도 도움이 될 수 있습니다. 우리는 이미 수백억 개의 다중 모드 표현을 가지고 있습니다. 중간 계층은 우리가 배운 좋은 동적 표현을 기반으로 한 확산입니다. 빅데이터로 교육한 후 고객은 특히 개인화된 것을 원하므로 몇 가지 미세 조정 방법도 추가해야 합니다.
우리는 고객이 미세 조정하는 데 도움이 되는 솔루션, 즉 업계에서 일반적인 솔루션이기도 한 대형 모델의 작은 매개변수를 동적으로 로드하는 솔루션을 제공합니다.
먼저 고객에게 사진 생성 기능을 제공합니다. 고객은 편집이나 프롬프트를 통해 사진 뒤의 배경을 변경할 수 있습니다.
위 내용은 Baidu 비즈니스 다중 모드 이해 및 AIGC 혁신 실천의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!