1. 리치 미디어 멀티모달 이해
먼저 멀티모달 콘텐츠에 대한 우리의 인식을 소개하겠습니다.
1. 다중 모드 이해
콘텐츠 이해 기능을 향상하여 광고 시스템이 세분화된 시나리오에서 콘텐츠를 더 잘 이해할 수 있도록 합니다.
콘텐츠 이해 능력을 향상시키면 많은 실질적인 문제에 직면하게 됩니다.
- 상업적인 비즈니스 시나리오와 산업이 많고 독립적인 모델링이 중복되어 과적합 및 시나리오 간 배포가 발생합니다. 통합 모델링에서 공통성과 특수성의 균형을 맞추는 방법.
- 상업용 시각 자료 주변의 잘못된 텍스트는 쉽게 나쁜 케이스 일러스트레이션으로 이어질 수 있습니다.
- 시스템은 무의미한 ID 기능으로 가득 차 있으며 일반화가 부족합니다.
- 리치 미디어 시대에 어떻게 시각적 의미론을 효과적으로 활용하고 이러한 콘텐츠 기능, 비디오 기능, 기타 기능을 어떻게 통합할 것인지가 시스템 내 리치 미디어 콘텐츠에 대한 인식 향상을 위해 해결해야 할 문제입니다.
좋은 다중 모드 기본 표현이란 무엇입니까?
좋은 다중 모드 표현이란 무엇입니까?
폭 측면에서는 데이터 활용 범위가 확장되어야 하고, 깊이 측면에서는 시각적 효과가 향상되어야 하며, 동시에 장면의 데이터 미세 조정이 보장되어야 합니다.
이전의 기존 아이디어는 모델을 훈련시켜 그림의 모달성, 자동 회귀 작업을 학습한 다음 텍스트 작업을 수행하고 몇 가지 트윈 타워 패턴을 적용하여 둘 사이의 모달 관계를 닫는 것이었습니다. 그 당시에는 텍스트 모델링이 상대적으로 단순했고, 모두가 비전을 모델링하는 방법을 더 많이 연구하고 있었습니다. CNN으로 시작하여 나중에 시각적 표현을 향상시키기 위해 bbox 방법과 같은 타겟 감지 기반의 몇 가지 방법이 포함되었습니다. 그러나 이 방법은 감지 기능이 제한적이고 너무 무거워서 대규모 데이터 학습에 도움이 되지 않습니다.
2020년과 2021년쯤에는 VIT 방식이 주류가 되었습니다. 여기서 꼭 언급해야 할 가장 유명한 모델 중 하나는 OpenAI가 2020년에 출시한 모델인 CLIP입니다. 텍스트와 시각적 표현을 위한 트윈 타워 아키텍처를 기반으로 합니다. 그런 다음 코사인을 사용하여 둘 사이의 거리를 좁힙니다. 이 모델은 검색 능력은 매우 뛰어나지만 VQA 작업과 같이 논리적 추론이 필요한 일부 작업에서는 성능이 약간 떨어집니다.
표상 학습: 시각에 대한 자연어의 기본 인식 능력을 향상시킵니다.
우리의 목표는 자연어에 대한 기본적인 시각적 인식을 향상시키는 것입니다. 데이터 측면에서 볼 때, 우리 비즈니스 도메인에는 수십억 개의 데이터가 있지만 아직 충분하지 않습니다. 비즈니스 도메인에서 과거 데이터를 추가로 도입하고 정리하고 정리해야 합니다. 수백억개 수준의 훈련 세트가 구축되었습니다.
우리는 생성 작업을 사용하여 비전이 텍스트를 복원할 수 있도록 VICAN-12B 다중 모드 표현 + 생성 모델을 구축했으며, 텍스트에 대한 시각적 표현의 융합 효과를 더욱 보장하고 비전에 대한 자연어의 기본 인식을 향상시켰습니다. . 위 사진을 보시면 모델의 전체적인 구조를 보시면 트윈타워+싱글타워의 복합구조임을 알 수 있습니다. 가장 먼저 해결해야 할 것이 대규모 이미지 검색 작업이기 때문입니다. 왼쪽 상자에 있는 부분은 우리가 시각적 퍼셉트론이라고 부르는 부분으로, 20억 개의 매개변수 규모를 가진 ViT 구조입니다. 오른쪽은 두 개의 레이어로 볼 수 있습니다. 아래쪽 부분은 검색용 텍스트 변환기 스택이고 위쪽 부분은 생성용입니다. 모델은 세 가지 작업으로 나누어져 있는데, 하나는 생성 작업, 하나는 분류 작업, 다른 하나는 그림 비교 작업입니다. 모델은 이 세 가지 다른 목표를 기반으로 훈련되었으므로 비교적 좋은 결과를 얻었습니다. 더욱 최적화하겠습니다.
효율적이고 통합되었으며 전송 가능한 다중 시나리오 글로벌 표현 체계 세트입니다.
비즈니스 시나리오 데이터와 결합하여 모델 이해 능력을 향상시키기 위해 LLM 모델을 도입했습니다. CV 모델은 퍼셉트론이고 LLM 모델은 이해자입니다. 우리의 접근 방식은 그에 따라 시각적 특징을 전달하는 것입니다. 왜냐하면 지금 언급한 것처럼 표현은 다중 모드이고 대형 모델은 텍스트를 기반으로 하기 때문입니다. Wenxin LLM의 대형 모델에만 적용하면 되므로 Combo attention을 사용하여 해당 기능 융합을 수행해야 합니다. 대형 모델의 논리적 추론 기능을 유지해야 하므로 대형 모델을 그대로 두지 않고 비즈니스 시나리오 피드백 데이터만 추가하여 시각적 기능을 대형 모델에 통합하도록 노력합니다. 작업을 지원하기 위해 몇 장의 샷을 사용할 수 있습니다. 주요 작업은 다음과 같습니다.
- 사진 설명은 사실 단순한 설명이 아니라 신속한 역설계를 통해 고품질의 그래픽 및 텍스트 데이터를 더 나은 데이터 소스로 사용할 수 있습니다. 나중에 빈센트 다이어그램.
- 이미지와 텍스트 상관관계 제어, 비즈니스에서는 이미지 정보의 구성과 이해가 필요하기 때문에 광고 이미지의 검색어와 이미지 의미를 실제로 제어해야 합니다. 물론 이는 매우 일반적인 방법이므로 다음과 같이 할 수 있습니다. 사진과 프롬프트에 대한 관련 판단.
- 이미지 위험 및 경험 제어, 이미지의 내용을 비교적 잘 설명할 수 있었고 위험 제어의 작은 샘플 데이터 마이그레이션만 사용하면 위험 문제가 포함되어 있는지 명확하게 알 수 있습니다. .
이제 장면 기반 미세 조정에 집중해 보겠습니다.
2. 시나리오 기반 미세 조정
시각 검색 장면, 기본 표현 기반의 트윈 타워 미세 조정.
기본 표현을 기반으로 대형 텍스트 모델과 결합하여 다양한 비즈니스 장면의 그림 클릭 피드백 신호를 라벨러로 사용하여 다양한 장면에서 그림과 텍스트 간의 부분 순서 관계를 구체화합니다. 우리는 7개의 주요 데이터 세트에 대한 평가를 수행했으며 모두 SOTA 결과를 달성할 수 있습니다.
텍스트 분할에서 영감을 받은 정렬 시나리오는 다중 모드 기능의 의미를 정량화합니다.
표현 외에 또 다른 문제는 분류 장면에서 시각적 효과를 어떻게 향상시킬 것인가입니다. 먼저 현장 배경을 살펴보겠습니다. 대규모 이산 DNN은 업계 순위 모델의 주류 개발 방향이며 이산 기능도 순위 모델 최적화의 핵심입니다. 텍스트는 모델에 입력되고 단어 분할을 기반으로 토큰화되며 다른 개별 기능과 결합되어 좋은 결과를 얻습니다. 비전에 관해서도 토큰화를 희망하고 있습니다.
ID 유형 기능은 실제로 매우 개인화된 기능이지만, 일반화된 기능이 다양해질수록 특성화 정확도가 떨어질 수 있습니다. 우리는 데이터와 작업을 통해 이 균형점을 동적으로 조정해야 합니다. 즉, 우리는 데이터와 가장 관련성이 높은 척도를 찾고, 그에 따라 기능을 ID로 "분할"하고, 텍스트와 같은 다중 모드 기능을 분할하기를 희망합니다. 따라서 우리는 이러한 문제를 해결하기 위해 다중 규모, 다단계 콘텐츠 수량화 학습 방법을 제안했다.
장면 정렬, 다중 모드 기능 및 모델 MmDict의 융합.
크게 2단계로 나누어져 있는데, 1단계는 이산성을 익히고, 2단계는 융합을 익히게 됩니다.
1단계: 이산 학습
① 희소 활성화를 사용하여 여러 이산 신호로 연속 신호를 표현합니다. 즉, 희소 활성화를 사용하여 조밀한 특징을 분할한 다음 해당 다중 모달 코드북에서 ID를 활성화합니다. 실제로는 argmax 연산만 수행하므로 미분 불가능한 문제가 발생합니다. 동시에 특징 공간의 붕괴를 방지하기 위해 활성화된 뉴런과 비활성 뉴런 간의 정보 상호 작용이 추가됩니다.
② 네트워크 비미분성 문제를 해결하고 원래 기능을 다시 구축하며 부분 순서 관계가 변경되지 않도록 보장하기 위한 STE 전략을 도입합니다.
인코더-디코더 방법을 사용하여 밀집된 특징을 순차적으로 양자화한 다음 양자화된 특징을 올바른 방식으로 복원합니다. 복원 전후에 부분 순서 관계가 변하지 않도록 보장해야 하며, 특정 작업에 대한 기능의 양적 손실을 1% 미만으로 거의 제어할 수 있습니다. 이러한 ID는 현재 데이터 배포를 개인화할 수 있을 뿐만 아니라 일반화 속성을 가지고 있습니다.
Step2: Sparse 레이어에서 정렬 모델의 융합
①과 대규모 이산 융합을 학습합니다.
그런 다음 방금 언급한 숨겨진 레이어 재사용이 바로 위에 배치되지만 효과는 실제로 평균 수준입니다. 이를 식별하고 양자화한 후 희소 피처 레이어 및 기타 유형의 피처와 융합하면 더 나은 효과를 얻을 수 있습니다.
② 중앙 -> 잔여 2레벨 및 S-M-L 3스케일을 통해 손실을 줄입니다.
물론 일부 잔차 및 다중 규모 방법도 사용합니다. 2020년부터 우리는 정량화 손실을 점진적으로 낮추어 지난해 수준 이하로 내려갔습니다. 이를 통해 대형 모델이 특징을 추출한 후 이 학습 가능한 정량화 방법을 사용하여 의미 연관 ID를 사용하여 시각적 콘텐츠를 특성화할 수 있습니다. 특성은 실제로 매우 추천 시스템의 ID에 대한 탐색적 조사 방법을 포함하여 현재 비즈니스 시스템에 적합합니다.
2. Qingduo
1. 상업용 AIGC는 마케팅과 긴밀하게 통합되어 콘텐츠 생산성을 향상시키며 효율성과 효과 연계를 최적화합니다.
Baidu 마케팅 AIGC 크리에이티브 플랫폼은 영감에서 창작, 전달까지 완벽한 폐쇄 루프를 형성합니다. . 해체, 생성, 피드백까지 AIGC를 홍보하고 최적화하고 있습니다.
- 영감: AI 이해(콘텐츠 및 사용자 이해). AI가 어떤 종류의 메시지가 좋은지 찾는 데 도움을 줄 수 있나요? 소재에 대한 통찰력부터 크리에이티브 디렉팅까지.
- 창작 : 텍스트 생성, 이미지 생성, 디지털 피플, 비디오 생성 등 AIGC
- 배달: AI 최적화. 경험적 시행착오부터 자동 최적화까지.
2. 마케팅 카피 생성 = 비즈니스 프롬프트 시스템 + Wenxin 대형 모델
좋은 비즈니스 프롬프트에는 다음과 같은 요소가 있습니다.
- 자동차 판매 등 지식 그래프 어떤 상업 요소 포함되어야 하는가? 광고주는 또한 완전한 지식 시스템을 갖기를 원합니다.
- 스타일은 실제로 일부 태그로 추상화되어야 합니다. 어떤 종류의 마케팅 제목이나 마케팅 설명인지 결정합니다.
- 셀링포인트, 셀링포인트는 사실 제품 속성의 특성이고, 이것이 소비를 하는 가장 강력한 이유입니다.
- 사용자 초상화는 대상의 행동관 차이에 따라 여러 유형으로 나누어 빠르게 정리한 후 새로 파생된 유형을 정제하여 사용자 초상화 유형을 형성합니다.
3. 복합 모달 마케팅 디지털 휴먼 영상 세대, 3분 만에 디지털 휴먼 만들기
이제 영상 세대는 비교적 성숙해졌습니다. 그러나 실제로는 여전히 몇 가지 문제가 있습니다.
- 스크립트 작성: 인간의 지식과 경험에 국한되어 고품질의 글쓰기를 유지하기 어렵고 동질성이 심각합니다.
- 재료 준비: "조립 및 합성"에 중점을 두고 전문 팀, 배우, 재료 보유량 및 기타 고비용 도구가 강화됩니다.
- 포스트 프로덕션: 포스트 프로덕션은 수동 시행착오에 의존하며 작업이 번거롭습니다.
초기에는 어떤 영상을 만들고 싶은지, 어떤 사람을 선택하고 싶은지, 그 사람이 하고 싶은 말을 모두 프롬프트를 통해 입력하면 정확하게 입력이 됩니다. 요구 사항에 따라 비디오를 제어하여 해당 스크립트를 생성합니다.
다음으로 우리 디지털 휴먼 라이브러리를 통해 해당 디지털 피플을 불러올 수 있지만, AI 기술을 활용하면 얼굴 교체, 배경 교체, 악센트 및 음성 교체 등 디지털 피플의 다양성을 더욱 강화하여 우리의 환경에 적응할 수 있습니다. 프롬프트, 마지막으로 스크립트, 디지털 입술 모양 교체, 배경 교체, 얼굴 교체 및 비디오 억제를 통해 음성 비디오를 얻을 수 있습니다. 고객은 디지털 휴먼을 활용하여 제품에 해당하는 일부 마케팅 판매 포인트를 소개할 수 있습니다. 이런 식으로 3분 만에 디지털 사람이 될 수 있으며, 이는 광고주의 디지털 사람이 되는 능력을 크게 향상시킵니다.
4. 마케팅 포스터 이미지 생성, 다중 모달 표현과 결합된 마케팅 이미지 생성
대형 모델은 기업이 마케팅 포스터를 생성하고 제품 배경을 교체하는 데도 도움이 될 수 있습니다. 우리는 이미 수백억 개의 다중 모드 표현을 가지고 있습니다. 중간 계층은 우리가 배운 좋은 동적 표현을 기반으로 한 확산입니다. 빅데이터로 교육한 후 고객은 특히 개인화된 것을 원하므로 몇 가지 미세 조정 방법도 추가해야 합니다.
우리는 고객이 미세 조정하는 데 도움이 되는 솔루션, 즉 업계에서 일반적인 솔루션이기도 한 대형 모델의 작은 매개변수를 동적으로 로드하는 솔루션을 제공합니다.
먼저 고객에게 사진 생성 기능을 제공합니다. 고객은 편집이나 프롬프트를 통해 사진 뒤의 배경을 변경할 수 있습니다.
위 내용은 Baidu 비즈니스 다중 모드 이해 및 AIGC 혁신 실천의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

又双叒叕是一个新功能的亮相。你是否会遇见过想要给图片角色换个背景,但是AI总是搞出「物非人也非」的效果。即使在Midjourney、DALL・E这样成熟的生成工具中,保持角色一致性还得有些prompt技巧,不然人物就会变来变去,根本达不到你想要的结果。不过,这次算是让你遇着了。AIGC工具PixVerse的「角色-视频」新功能可以帮你实现这一切。不仅如此,它能生成动态视频,让你的角色更加生动。输入一张图,你就能够得到相应的动态视频结果,在保持角色一致性的基础上,丰富的背景元素和角色动态让生成结果

简介ChatGPT推出后,犹如潘多拉魔盒被打开了。我们现在正观察到许多工作方式的技术转变。人们正在使用ChatGPT创建网站、应用程序,甚至写小说。随着AI生成工具的大肆宣传和引入,我们也已经看到了不良行为者的增加。如果你关注最新消息,你一定曾听说ChatGPT已经通过了沃顿商学院的MBA考试。迄今为止,ChatGPT通过的考试涵盖了从医学到法律学位等多个领域。除了考试之外,学生们正在用它来提交作业,作家们正在提交生成性内容,而研究人员只需输入提示语就能产生高质量的论文。为了打击生成性内容的滥用

3月14日消息,小米官方今日宣布,小米相册AIGC编辑功能正式上线小米14Ultra手机,并将在本月内全量上线小米14、小米14Pro和RedmiK70系列手机。AI大模型为小米相册带来两个新功能:智能扩图与魔法消除Pro。AI智能扩图支持对构图不好的图片进行扩展和自动构图,操作方式为:打开相册编辑-进入裁切旋转-点击智能扩图。魔法消除Pro能够对游客照中的路人进行无痕消除,使用方式为:打开相册编辑-进入魔法消除-点击右上角的Pro。目前,小米14Ultra机器已经上线智能扩图与魔法消除Pro功

经过一年多的发展,AIGC已经从文字对话、图片生成逐步向视频生成迈进。回想四个月前,Sora的诞生让视频生成赛道经历了一场洗牌,大力推动了AIGC在视频创作领域的应用范围和深度。在人人都在谈论大模型的时代,我们一方面惊讶于视频生成带来的视觉震撼,另一方面又面临着落地难问题。诚然,大模型从技术研发到应用实践还处于一个磨合期,仍需结合实际业务场景进行调优,但理想与现实的距离正在被逐步缩小。营销作为人工智能技术的重要落地场景,成为了很多企业及从业者想要突破的方向。掌握了恰当方法,营销视频的创作过程就会

由自然语言处理、语音识别、语音合成、机器学习等技术组成的人工智能技术,应用于各行各业获得广泛认可。置身于AI应用的前沿,从2022年底开始,维音不断见证AIGC技术所带来的惊喜,也有幸参与到这场覆盖全球的技术浪潮。经过训练、测试、调优和应用,维音将其丰富的客户服务行业经验与强大的大模型能力相结合,开发出了适用于坐席端和业务端的生成式AI客服机器人。同时,维音还将底层能力与维音Vision系列智能产品相互连接,最终形成了“1+5”维音生成式AI智能产品矩阵其中,“1”是维音自主训练的大模型服务平台

机器之能报道编辑:杨文谁能成为AI视频圈的King?美剧《权力的游戏》中,有一把「铁王座」。传说,它由巨龙「黑死神」熔掉上千把敌人丢弃的利剑铸成,象征着无上的权威。为了坐上这把铁椅子,各大家族展开了一场场争斗和厮杀。而自Sora出现以来,AI视频圈也掀起了一场轰轰烈烈的「权力的游戏」,这场游戏的玩家主要有大洋彼岸的RunwayGen-3、Luma,国内的快手可灵、字节即梦、智谱清影、Vidu、PixVerseV2等。今天我们就来测评一下,看看究竟谁有资格登上AI视频圈的「铁王座」。-1-文生视频

5月16日,美图公司旗下美图设计室上线“AI海报”功能,该功能旨在降低设计门槛,提高制作效率。在AIGC的加持下,让更多非专业人士也能轻松制作出高质量海报。传统的海报制作方式包括使用Photoshop专业设计工具和使用海报模板这类便捷设计工具。PS需要专业设计师才能熟练操作,但即使是专业设计师,也需要花费较多时间不断调整尺寸、配色等细节,耗费大量时间和精力。没有设计基础的人只能使用现成的海报模板来完成设计,但选择模板、替换图片、替换文本同样消耗时间,而且即便用户花了大量时间,有时候也无法达到理想

文|雷报段轻编辑|努尔哈哈赤2022年末,OpenAI旗下生成式AI工具ChatGPT正式推出,仅过去两个月,官方便公布月活跃用户数突破1亿。其代表的AIGC(人工智能生成内容)技术迅速成为了科技企业重点布局方向。随后,百度文心一言、阿里通义千问等AI大模型争相涌现。这期间,多家企业也宣布自研或接入第三方AI大模型,其中就有不少头部游戏公司,除了很早就布局AIGC的腾讯、网易外,还有昆仑万维、巨人网络等诸多上市企业。游戏行业凭借海量的用户群体、丰富的研发经验,以及契合的应用场景,在融合AI技术方


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

Dreamweaver Mac版
시각적 웹 개발 도구
