Rumah >Peranti teknologi >AI >Tencent membuka kod latihan sumber untuk model besar graf Hunyuan Wensheng dan mengeluarkan pemalam LoRA dan ControlNet

Tencent membuka kod latihan sumber untuk model besar graf Hunyuan Wensheng dan mengeluarkan pemalam LoRA dan ControlNet

WBOY
WBOYasal
2024-06-21 20:44:101061semak imbas

Pada 21 Jun, Tencent Hunyuan Wenshengtu Large Model (selepas ini dirujuk sebagai model Hunyuan DiT) mengumumkan bahawa ia akan membuka sumber sepenuhnya kod latihan, dan pada masa yang sama membuka sumber penyelesaian latihan set data skala kecil Hunyuan DiT LoRA dan pemalam yang boleh dikawal ControlNet.

Ini bermakna perusahaan dan pembangun dan pencipta individu di seluruh dunia boleh memperhalusi berdasarkan kod latihan Hunyuan DiT untuk mencipta model eksklusif yang lebih diperibadikan dan mencipta dengan lebih kebebasan atau berdasarkan kod latihan Hunyuan DiT, Ubah suai dan optimumkan Yuan kod DiT, bina aplikasinya sendiri berdasarkan ini, dan menggalakkan lelaran pantas dan inovasi teknologi.

Sebagai model Cina asli, pengguna boleh menggunakan data dan label Cina secara terus apabila menala halus melalui kod latihan Hunyuan DiT, tanpa perlu menterjemah data ke dalam bahasa Inggeris.

Sebelum ini, model besar Tencent Hunyuanwenshengtu mengumumkan peningkatan komprehensif dan sumber terbuka Ia telah dikeluarkan pada platform Hugging Face dan Github, dan boleh digunakan oleh perusahaan dan pembangun individu untuk kegunaan komersial percuma. Ini adalah model sumber terbuka Vincentian seni bina DiT asli Cina yang pertama dalam industri, menyokong input dan pemahaman dwibahasa dalam bahasa Cina dan Inggeris. Model ini hanya menjadi sumber terbuka selama sebulan, dan bilangan bintang Github telah mencapai 2.4k, menjadikannya salah satu model DiT paling popular dalam komuniti sumber terbuka.

Tencent membuka kod latihan sumber untuk model besar graf Hunyuan Wensheng dan mengeluarkan pemalam LoRA dan ControlNet Halaman projek Hunyuan DiT Github

Walaupun kod latihan adalah sumber terbuka, pelepasan penyelesaian latihan set data skala kecil LoRA dan ControlNet plug-in yang boleh dikawal juga menjadikan ekologi sumber terbuka model Hunyuan DiT lebih imaginatif .

Model LoRA, nama penuh Penyesuaian Peringkat Rendah Model Bahasa Besar, ialah teknologi yang digunakan untuk memperhalusi model bahasa besar. Dalam model graf Vincentian, LoRA digunakan sebagai pemalam, membenarkan pengguna menggunakan sejumlah kecil data untuk melatih model dengan gaya lukisan, IP atau ciri watak tertentu tanpa mengubah suai model asal atau meningkatkan saiz model.

Teknologi LoRA sangat popular dalam bidang sumber terbuka Wenshengtu Sebilangan besar pencipta menggunakan teknologi ini untuk mencipta pelbagai model, seperti menggunakan beberapa foto peribadi untuk menghasilkan studio foto berketepatan tinggi yang didedikasikan untuk orang tertentu; atau cipta Kami menghasilkan kotak buta, tanah liat dan model gaya lain.

Tencent membuka kod latihan sumber untuk model besar graf Hunyuan Wensheng dan mengeluarkan pemalam LoRA dan ControlNet

Model LoRA pada komuniti imej AI LiblibAI

Pemalam LoRA eksklusif yang dikeluarkan oleh Hunyuan DiT kali ini membolehkan pembangun mencipta model eksklusif dengan sekurang-kurangnya satu imej. Sebagai contoh, dengan mengimport empat gambar porselin biru dan putih dan perkataan gesaan yang sepadan, latihan model boleh disiapkan dan model penjanaan "porselin biru dan putih" dicipta: pengguna memasukkan perkataan gesaan mudah untuk menghasilkan porselin biru dan putih yang dikehendaki. gambar.

Sebahagian daripada data latihan:

Tencent membuka kod latihan sumber untuk model besar graf Hunyuan Wensheng dan mengeluarkan pemalam LoRA dan ControlNet

Contoh keputusan inferens model terlatih:

Tencent membuka kod latihan sumber untuk model besar graf Hunyuan Wensheng dan mengeluarkan pemalam LoRA dan ControlNet

Menggunakan model generasi porselin biru dan putih porselin Dilatih Di

Lonyuan Kawalan Dilatih

Ra Hunyuan Net terlatih kali ini ialah algoritma penjanaan terkawal yang digunakan dalam bidang imej Vincentian, yang membolehkan pengguna mengawal penjanaan imej dengan lebih baik dengan menambah syarat tambahan.

Pada masa ini, Tencent Hunyuan menyediakan tiga model ControlNet keluaran pertama yang boleh mengekstrak dan menggunakan keadaan seperti tepi (canny), kedalaman (depth) dan postur manusia (pose) imej, membolehkan pembangun menggunakannya secara langsung untuk inferens. Tiga pemalam ControlNet boleh merealisasikan keupayaan untuk menjana imej berwarna penuh melalui lukisan garisan, menjana imej dengan struktur kedalaman yang sama dan menjana orang dengan postur yang sama. Pada masa yang sama, Hunyuan DiT juga telah membuka sumber penyelesaian latihan ControlNet, jadi pembangun dan pencipta boleh melatih model ControlNet tersuai.

Tencent membuka kod latihan sumber untuk model besar graf Hunyuan Wensheng dan mengeluarkan pemalam LoRA dan ControlNet

Demonstrasi kesan tiga pemalam ControlNet yang dilancarkan oleh Tencent Hunyuan DiT

Oleh kerana model Hunyuan DiT adalah sumber terbuka, ia telah menerima sokongan dan maklum balas daripada banyak pembangun, dan pasukan Tencent Hunyuan juga telah berterusan menambah baik dan mengoptimumkan model berdasarkan model Hunyuan DiT komponen sumber terbuka Yuan DiT bekerjasama dengan industri untuk membina ekosistem sumber terbuka generasi visual generasi akan datang. Pada awal bulan ini, Hunyuan DiT mengeluarkan perpustakaan pecutan eksklusif yang boleh meningkatkan lagi kecekapan inferens dan memendekkan masa penjanaan graf sebanyak 75%. Pada masa yang sama, kemudahan penggunaan model telah dipertingkatkan dengan banyaknya. Pengguna boleh menggunakan Hunyuan DiT berdasarkan antara muka grafik ComfyUI, atau menggunakan perpustakaan model am Hugging Face Diffusers untuk memanggil model Hunyuan DiT dengan hanya tiga baris. kod, tanpa memuat turun perpustakaan kod asal.

Difahamkan bahawa keupayaan Hunyuanwenshengtu Tencent telah digunakan secara meluas dalam banyak perniagaan dan senario seperti penciptaan bahan, sintesis produk dan grafik permainan. Pada awal tahun ini, Tencent Advertising mengeluarkan Tencent Advertising Miaosi, platform kreatif pengiklanan AI sehenti berdasarkan model Hunyuan Tencent. Lebih daripada 20 media seperti "Berita CCTV" dan "Xinhua Daily" juga telah menggunakan Tencent Hunyuan Wenshengtu untuk pengeluaran kandungan berita.

Model Besar Rajah Wensheng Sumber Terbuka Tencent Hunyuan

Tapak web rasmi: https://dit.hunyuan.tencent.com/

Kod: https://github.com/Tencent/HunyuanDiT

Model: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Kertas : https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

Proses pengeluaran data: https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

Atas ialah kandungan terperinci Tencent membuka kod latihan sumber untuk model besar graf Hunyuan Wensheng dan mengeluarkan pemalam LoRA dan ControlNet. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn