>  기사  >  기술 주변기기  >  Kuaishou 오픈 소스 LivePortrait, GitHub 6.6K Star를 통해 표정과 자세를 매우 빠르게 마이그레이션할 수 있습니다.

Kuaishou 오픈 소스 LivePortrait, GitHub 6.6K Star를 통해 표정과 자세를 매우 빠르게 마이그레이션할 수 있습니다.

WBOY
WBOY원래의
2024-07-19 19:04:33710검색
최근 Kuaishou Keling 모델 팀은 LivePortrait라는 제어 가능한 인물 영상 생성 프레임워크를 오픈 소스로 공개했습니다. 이 프레임워크는 영상을 구동하는 표정과 자세를 정적 또는 동적 인물 영상으로 정확하고 실시간으로 마이그레이션하여 매우 표현력이 뛰어난 영상을 생성할 수 있습니다. 결과. 다음 애니메이션과 같습니다.

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

                                                                       ~                     "                        LivePortrait를 테스트하는 네티즌 중에서
快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移
Kuaishou 오픈 소스 LivePortrait의 해당 논문 제목은 다음과 같습니다. 《 효율적인 인물 사진 애니메이션: 스티칭 및 리타겟팅 제어 포함 》

                                      LivePortrait는 출시 후 즉시 사용할 수 있으며 Kuaishou 스타일을 준수하며 한 번의 클릭으로 문서, 홈페이지 및 코드를 연결합니다. LivePortrait가 오픈소스로 공개되자
HuggingFace CEO Clément Delangue
의 관심과 호평을 받았고,
Chief Strategy Officer Thomas Wolf

가 이 기능을 직접 경험하기도 했는데요, 정말 놀랍습니다! 快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

전 세계 네티즌들의 대규모 댓글을 불러일으켰습니다:

동시에 LivePotrait은 오픈 소스 커뮤니티로부터 광범위한 주목을 받았습니다. 이번 주에 GitHub에서 총

6.4K 별, 550개 포크, 140개 이슈 및 PR快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移을 받았습니다. 우리는 광범위한 칭찬을 받았으며 여전히 관심이 높아지고 있습니다.

또한 HuggingFace Space 및 코드 트렌드 목록이 포함된 논문이 있습니다. 快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移 일주일 연속 1위 , 최근 허깅페이스 전체 테마랭킹 1위
1위
:

허깅페이스 스페이스 1위
快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移
코드 목록 1이 포함된 논문
HuggingFace 전체 테마 순위 1위

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移


Untuk maklumat sumber lanjut, anda boleh melihat:

  • Alamat kod: https://github.com/KwaiVGI/LivePortrait
  • pautan: https://github.com/LivePortrait
  • abs /2407.03168
  • Laman utama projek: https://liveportrait.github.io/
HuggingFace Space pengalaman dalam talian satu klik: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Apakah jenis teknologi yang digunakan LivePortrait untuk cepat menjadi popular di seluruh Internet?
Pengenalan Kaedah

Berbeza daripada kaedah berasaskan model resapan arus perdana, LivePortrait meneroka dan mengembangkan potensi kerangka kerja implisit kebolehcapaian yang berpotensi. LivePortrait memfokuskan pada generalisasi, kebolehkawalan dan kecekapan praktikal yang lebih baik. Untuk meningkatkan keupayaan penjanaan dan kebolehkawalan, LivePortrait menggunakan bingkai latihan berkualiti tinggi 69M, strategi latihan hibrid gambar video, menaik taraf struktur rangkaian dan mereka bentuk pemodelan tindakan dan kaedah pengoptimuman yang lebih baik. Selain itu, LivePortrait menganggap perkara utama tersirat sebagai gambaran tersirat yang berkesan bagi ubah bentuk campuran muka (Blendshape), dan dengan berhati-hati mencadangkan modul jahitan dan penyasaran semula berdasarkan perkara ini. Kedua-dua modul ini adalah rangkaian MLP yang ringan, jadi sambil meningkatkan kebolehkawalan, kos pengiraan boleh diabaikan. Walaupun dibandingkan dengan beberapa kaedah berasaskan model penyebaran sedia ada, LivePortrait masih sangat berkesan. Pada masa yang sama, pada GPU RTX4090, kelajuan penjanaan bingkai tunggal LivePortrait boleh mencapai 12.8ms Jika terus dioptimumkan, seperti TensorRT, ia dijangka mencapai kurang daripada 10ms.
Latihan model LivePortrait dibahagikan kepada dua peringkat. Peringkat pertama ialah latihan model asas, dan peringkat kedua ialah latihan modul pemasangan dan pengalihan.
Peringkat pertama latihan model asas

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

🎜🎜模 Peringkat pertama latihan model asas

Dalam latihan model fasa pertama, LivePortrait telah membuat satu siri penambahbaikan pada rangka kerja berasaskan titik tersembunyi, seperti Face vid2vid [1], termasuk:

Pengumpulan data latihan berkualiti tinggi
: LivePortrait menggunakan set data video awam Voxceleb[2], MEAD[3], RAVDESS[4] dan set data gambar yang digayakan AAHQ[5]. Selain itu, video potret beresolusi 4K berskala besar digunakan, termasuk ekspresi dan postur yang berbeza, lebih daripada 200 jam video potret bercakap, set data peribadi LightStage [6] dan beberapa video dan gambar yang digayakan. LivePortrait membahagikan video panjang kepada segmen kurang daripada 30 saat dan memastikan setiap segmen hanya mengandungi satu orang. Untuk memastikan kualiti data latihan, LivePortrait menggunakan KVQ yang dibangunkan sendiri oleh Kuaishou [7] (kaedah penilaian kualiti video yang dibangunkan sendiri oleh Kuaishou, yang boleh melihat secara menyeluruh kualiti, kandungan, pemandangan, estetika, pengekodan, audio dan ciri-ciri lain bagi video untuk melaksanakan penilaian berbilang dimensi ) untuk menapis klip video berkualiti rendah. Jumlah data latihan termasuk 69J video, termasuk 18.9K identiti dan 60K potret bergaya statik.

Latihan Hibrid Imej-Video
: Model yang dilatih menggunakan hanya video orang sebenar menunjukkan prestasi yang baik untuk orang sebenar, tetapi mempunyai keupayaan generalisasi yang tidak mencukupi untuk orang yang digayakan (seperti anime). Video potret bergaya adalah lebih jarang, dengan LivePortrait hanya mengumpul kira-kira 1.3K klip video daripada kurang daripada 100 identiti. Sebaliknya, gambar potret yang digayakan berkualiti tinggi lebih banyak LivePortrait telah mengumpulkan kira-kira 60K gambar dengan identiti yang berbeza, memberikan maklumat identiti yang pelbagai. Untuk memanfaatkan kedua-dua jenis data, LivePortrait menganggap setiap imej sebagai klip video dan melatih model pada kedua-dua video dan imej secara serentak. Latihan hibrid ini meningkatkan keupayaan generalisasi model.

Struktur rangkaian yang dipertingkatkan
: LivePortrait menyatukan rangkaian anggaran titik kunci tersirat kanonik (L), rangkaian anggaran pose kepala (H) dan rangkaian anggaran ubah bentuk ungkapan (Δ) ke dalam model tunggal (M), Dan menggunakan ConvNeXt-V2-Tiny [8] sebagai strukturnya untuk menganggarkan secara langsung perkara utama tersirat kanonik, pose kepala dan ubah bentuk ekspresi imej input. Selain itu, diilhamkan oleh kerja berkaitan face vid2vid, LivePortrait menggunakan penyahkod SPADE [9] yang lebih berkesan sebagai penjana (G). Ciri terpendam (fs) dimasukkan secara halus ke dalam penyahkod SPADE selepas ubah bentuk, di mana setiap saluran ciri terpendam digunakan sebagai peta semantik untuk menjana imej yang didorong. Untuk meningkatkan kecekapan, LivePortrait turut memasukkan lapisan PixelShuffle[10] sebagai lapisan terakhir (G), sekali gus meningkatkan peleraian daripada 256 kepada 512.

Pemodelan transformasi tindakan yang lebih fleksibel
: Kaedah pengiraan dan pemodelan bagi perkara utama tersirat asal mengabaikan pekali penskalaan, yang menyebabkan penskalaan mudah dipelajari ke dalam pekali ungkapan, menjadikan latihan lebih sukar. Untuk menyelesaikan masalah ini, LivePortrait memperkenalkan faktor penskalaan ke dalam pemodelan. LivePortrait mendapati bahawa penskalaan unjuran biasa boleh membawa kepada pekali ekspresi boleh dipelajari yang terlalu fleksibel, menyebabkan lekatan tekstur apabila didorong merentas identiti. Oleh itu, transformasi yang diterima pakai oleh LivePortrait adalah kompromi antara fleksibiliti dan kebolehpanduan. . Khususnya, arah bola mata dan orientasi kepala potret dalam hasil pemanduan cenderung kekal selari. LivePortrait mengaitkan had ini kepada kesukaran pembelajaran ekspresi muka halus tanpa pengawasan. Untuk menyelesaikan masalah ini, LivePortrait memperkenalkan titik kekunci 2D untuk menangkap ekspresi mikro, menggunakan kehilangan berpandukan titik kunci (Lguide) sebagai panduan untuk pengoptimuman titik kunci tersirat.

Fungsi kehilangan lata
: LivePortrait menggunakan kehilangan invarian mata utama vid2vid tersirat (LE), kehilangan sebelum mata utama (LL), kehilangan pose kepala (LH) dan kehilangan sebelum ubah bentuk (LΔ). Untuk meningkatkan lagi kualiti tekstur, LivePortrait menggunakan kehilangan persepsi dan GAN, yang bukan sahaja digunakan pada domain global imej input, tetapi juga pada domain tempatan muka dan mulut, direkodkan sebagai kehilangan persepsi lata (LP, lata) dan lata GAN (LG, lata). Kawasan muka dan mulut ditakrifkan oleh titik kekunci semantik 2D. LivePortrait juga menggunakan kehilangan identiti muka (Lfaceid) untuk mengekalkan identiti imej rujukan.
Semua modul di peringkat pertama dilatih dari awal, dan jumlah fungsi pengoptimuman latihan (Lbase) ialah jumlah wajaran syarat kerugian di atas. Latihan modul pemasangan dan ubah hala peringkat kedua kos pengiraan boleh diabaikan. Mengambil kira keperluan sebenar, LivePortrait mereka bentuk modul yang sesuai, modul ubah hala mata dan modul ubah hala mulut.當參考人像被裁切時,驅動後的人像會從裁圖空間被反貼回原始影像空間,貼合模組的加入是為了避免反貼過程中出現像素錯位,例如肩膀區域。由此,LivePortrait能對更大的圖片尺寸或多人合照進行動作驅動。眼部重定向模組旨在解決跨身分驅動時眼睛閉合不完全的問題,尤其是當眼睛小的人像驅動眼睛大的人像時。嘴部重定向模組的設計想法類似於眼部重定向模組,它透過將參考圖片的嘴部驅動為閉合狀態來規範輸入,從而更好地進行驅動。

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

                               合模組:在訓練過程中,貼合模組(S) 的輸入為參考圖的隱式關鍵點(xs) 和另一個身分驅動影格的隱式關鍵點(xd),並估計驅動隱式關鍵點(xd) 的表情變化量 (Δst)。可以看到,和第一階段不同,LivePortrait採用跨身分的動作取代同身分的動作來增加訓練難度,旨在使貼合模組具有更好的泛化性。接著,驅動隱式關鍵點 (xd) 被更新,對應的驅動輸出為 (Ip,st) 。 LivePortrait在此階段也同時輸出自重建圖片 (Ip,recon)。最後,貼合模組的損失函數 (Lst) 計算兩者肩膀區域的像素一致損失以及貼合變化量的正規損失。

眼部和嘴部重定向模組:眼部重定向模組(Reyes) 的輸入為參考圖隱式關鍵點(xs),參考圖眼部張開條件元組和一個隨機的驅動眼部張開係數,由此估計驅動關鍵點的變形變化量(Δeyes)。眼部張開條件元組表示眼部張開比例,越大表示眼部張開程度越大。類似的,嘴部重定向模組(Rlip) 的輸入為參考圖隱式關鍵點(xs),參考圖嘴部張開條件係數和一個隨機的驅動嘴部張開係數,並由此估計驅動關鍵點的變化量 (Δlip)。接著,驅動關鍵點 (xd) 分別被眼部和嘴部對應的變形變化量更新,對應的驅動輸出為 (Ip,eyes) 和 (Ip,lip) 。最後,眼部和嘴部重定向模組的目標函數分別為(Leyes) 和 (Llip),分別計算眼部和嘴部區域的像素一致性損失,眼部和嘴部變化量的正則損失,以及隨機驅動係數與驅動輸出的張開條件係數之間的損失。眼部和嘴部的變化量 (Δeyes) 和 (Δlip) 是相互獨立的,因此在推理階段,它們可以被線性相加並更新驅動隱式關鍵點。

實驗對比

同身份驅動

:由如上同擴散模型對比的結果,與未上相同的方法比較具有較好的生成品質和驅動精確度,可以捕捉驅動幀的眼部和嘴部細微表情,同時保有參考圖片的紋理和身份。即使在較大的頭部姿態下,LivePortrait也有較穩定的表現。 快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

跨身份驅動:由如上跨身份驅動對比結果可見,與已有的方法相比,LivePortrait可以準確地繼承驅動視頻中細微的眼部和嘴部動作,同時在姿態較大時也比較穩定。 LivePortrait在生成品質上略弱於基於擴散模型的方法AniPortrait[11],但與後者相比,LivePortrait具有極快的推理效率且需要較少的FLOPs。

拓展

多人驅動:驅動得益於LivePortrait的貼合工具多人合照驅動,拓寬了LivePortrait的實際應用。 快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移
動物驅動:LivePortrait不僅對人像具有良好的泛化性,當在動物資料集上微調後,對動物肖像也可進行精準驅動。 

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

ポートレートビデオ編集: ポートレート写真に加えて、ダンスビデオなどのポートレートビデオを指定すると、LivePortrait は運転ビデオを使用して頭部領域のモーション編集を実行できます。 LivePortrait は、フィッティング モジュールのおかげで、非頭部領域の画像に影響を与えることなく、表情や姿勢などの頭部領域の動きを正確に編集できます。 快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移
実装と展望

LivePortraitの関連技術ポイントは、Kuaishouマジックウォッチ、Kuaishouプライベートメッセージング、KuaiyingのAI絵文字ゲームプレイ、クアイショウのライブブロードキャスト、今後もKuaishouがインキュベートした若年層向けプチAPPなど、新たな実装方法を模索し、ユーザーにとっての価値を創造し続けます。さらに、LivePortrait は、Keling 基本モデルに基づいたマルチモーダル駆動のポートレート ビデオ生成をさらに検討し、より高品質な効果を追求します。

参考文献
[1] Ting-Chun Wang、Arun Mallya、Ming-Yu Liu、ビデオ会議用のワンショット フリービュー ニューラル トーキングヘッド合成、2021 年。 .
[2] Arsha Nagrani、Joon Son Chung、Andrew Zisserman、大規模話者識別データセット、Interspeech、2017 年。
[3] Kaisiyuan Wang、Qianyi Wu。 、Linsen Song、Zhuoqian Yang、Wayne Wu、Chen Qian、Ran He、Yu Qiao、Chen Change Mead: 感情的な話し顔生成のための大規模なオーディオビジュアル データセット、2020 年。
[4] Steven R Livingstone と Frank A Russo。感情的なスピーチと歌のライアソン オーディオビジュアル データベース (ravdess): 北米英語の動的で多様な顔と声の表現のセット、2018 年
[5] Mingcong Liu、Qiang Li、Zekui Qin、Guoxin Zhang、Pengfei Wan、Wen Zheng: NeurIPS での暗黙的な gan ブレンディング、2021 年。
[ 6 ] Haotian Yang、Mingwu Zheng、Wanquan Feng、Haibin Huang、Yu-Kun Lai、Pengfei Wan、Zhongyuan Wang、Chongyang Ma 2023 年の SIGGRAPH アジアにて。 [7] Kai Zhao、Kun Yuan、Ming Sun、Mading Li、Xing Wen。ブラインド画質のための品質を意識した事前トレーニング済みモデル
CVPR、2023 年。 8] Sanghyun Woo、Shobhik Debnath、Ronghang Hu、Xinlei Chen、Zhuang Liu、In So Kweon、および Saining Xie: Con-
vnext v2: CVPR での convnet の共同設計とスケーリング。 .
[9] Taesung Park、Ming-Yu Liu、Ting-Chun Wang、Jun-Yan Zhu CVPR にて、2019 年。 [10] Wenzhe Shi、Jose Caballero、Ferenc Husz 'ar、Johannes Totz、Andrew P Aitken、Rob Bishop、Daniel Rueckert、Zehan Wang による、効率的なサブピクセル畳み込みニューラル ネットワークを使用したリアルタイムの単一画像とビデオの超解像度。 CVPR にて、2016 年。
[11] Huawei Wei、Zejun Yang、Zhisheng Wang。arXiv プレプリント:2403.17694、2024。

위 내용은 Kuaishou 오픈 소스 LivePortrait, GitHub 6.6K Star를 통해 표정과 자세를 매우 빠르게 마이그레이션할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.