Rumah  >  Artikel  >  Peranti teknologi  >  HuggingFace mengajar anda cara membuat model visual SOTA

HuggingFace mengajar anda cara membuat model visual SOTA

王林
王林asal
2024-06-05 21:39:58874semak imbas

Sebelum terdapat OpenAI's GPT-4o, dan kemudiannya terdapat beberapa model besar berbilang modal termaju yang melanda satu demi satu.

Pengamal lain terkejut dan mula berfikir tentang bagaimana untuk mengejar model super ini semula.

Dalam kertas kerja oleh HuggingFace dan Universiti Sorbonne di Perancis ini, mereka meringkaskan pengalaman utama dalam membina model visual yang besar dan menunjukkan cara untuk pembangun.

HuggingFace mengajar anda cara membuat model visual SOTAGambar

Pengalaman ini merangkumi banyak aspek seperti pemilihan seni bina model, kaedah latihan, data latihan, dsb. Penulis memberikan ringkasan terperinci selepas beberapa perbandingan Perkara teras termasuk:

  • Jika anda ingin melakukan kerja yang baik dalam model visual yang besar, pilihan seni bina adalah sangat penting.
  • Model bahasa mempunyai impak yang lebih besar pada prestasi keseluruhan berbanding modul visual.
  • Mengguna pakai strategi pra-latihan berperingkat adalah lebih kondusif untuk membina keupayaan model.
  • Data latihan harus mengandungi berbilang jenis, dan perhatikan keseimbangan antara mereka.

Boleh dikatakan bahawa HF ​​dapat mencipta Idefics2, model visual SOTA dengan skala yang sama, bergantung pada pengalaman ini.

Idefics2 adalah berdasarkan Mistral-7B Ia mempunyai volum parameter keseluruhan 8B dan boleh mengecam fon tulisan tangan dengan tepat.

HuggingFace mengajar anda cara membuat model visual SOTAGambar

Ini adalah ulasan yang baik oleh para profesional yang mengatakan bahawa ini adalah laporan tinjauan yang baik dan sangat membantu pembangun model visual, tetapi pada masa yang sama, ia juga diingatkan untuk tidak menganggapnya sebagai ubat penawar. .

HuggingFace mengajar anda cara membuat model visual SOTAGambar

Sudah tentu, sesetengah orang bergurau bahawa mana-mana data seni bina hanyalah awan, dan mempunyai GPU adalah yang paling kritikal.

HuggingFace mengajar anda cara membuat model visual SOTAGambar

Terdapat beberapa kebenaran di dalamnya, tetapi mengetepikan bergurau, mari kita lihat pengalaman yang dibawa oleh HuggingFace kepada kita.

Datang daripada amalan pembangunan model SOTA

Pengalaman dalam kertas HuggingFace ini datang daripada proses pembangunan model visual Idefics2.

Berbanding dengan Idefics1 dan Flamingo generasi sebelumnya, skala ex-SOTA yang sama, Idefics2 berprestasi baik pada berbilang set data, malah mengatasi model 13B yang lebih besar.

Pada masa yang sama, berbanding dengan MM1 yang lebih baik sedikit daripada Idefics2 pada set data COCO, Idefics2 menggunakan token yang jauh lebih sedikit pada setiap gambar.

HuggingFace mengajar anda cara membuat model visual SOTAPictures

Fom perkembangan sebenar IDEFICS2, pengalaman Huggingface membawa kepada kami sekurang -kurangnya termasuk aspek -aspek berikut:

  • Selection of Backbone and Architecture
  • Training Methods and Strategies
  • Data Kepelbagaian dan Strategi Pemprosesan K '
Model bahasa memberi impak yang lebih besar pada prestasi keseluruhan

Model visual besar semasa dibangunkan terutamanya dalam bentuk model bahasa + pengekod visual Pengarang menilai kesan kedua-duanya pada prestasi keseluruhan secara berasingan.

Hasil kajian menunjukkan bahawa kualiti model bahasa adalah lebih penting daripada model visual.

Dengan bilangan parameter yang sama, menggunakan model bahasa yang lebih baik (seperti menggantikan Llama-7B dengan Mistral-7B) boleh meningkatkan prestasi model visual besar pada tugas hiliran dengan ketara.

Peningkatan yang dibawa dengan menaik taraf pengekod visual agak terhad, jadi cara terbaik untuk membuat pertukaran adalah dengan memberi keutamaan kepada model bahasa yang lebih kukuh.

HuggingFace mengajar anda cara membuat model visual SOTAGambar

Sudah tentu, ini tidak bermakna menaik taraf pengekod visual tidak mempunyai kesan Apabila keadaan membenarkan, memilih pengekod visual yang lebih baik juga boleh membawa peningkatan prestasi tertentu.

Selain itu, perhatian harus diberikan kepada pemilihan untuk memadankan tugas hiliran Contohnya, pada tugas pengecaman teks, pengekod visual yang menyokong resolusi berubah-ubah harus digunakan jika tugas memerlukan kelajuan inferens yang tinggi, model yang lebih ringan boleh digunakan dipilih.

Dan dalam aplikasi praktikal, kelajuan inferens dan penggunaan memori juga merupakan faktor yang perlu ditimbang SigLIP-SO400M yang dipilih oleh Idefics2 telah mencapai keseimbangan yang baik antara prestasi dan kecekapan.

Pilih jenis seni bina mengikut keperluan anda

Mengenai pilihan seni bina, kertas kerja ini membincangkan dua yang biasa, autoregresif lengkap dan perhatian silang.

Seni bina autoregresif sepenuhnya menjana setiap output secara autoregresif, dengan mengambil kira kebergantungan keseluruhan jujukan

Yang terakhir ini membolehkan model memfokus secara dinamik pada bahagian lain dari modaliti yang lain apabila memproses satu modaliti, mencapai interaksi yang lebih fleksibel antara; modaliti.

Dalam karya tertentu, penulis mendapati seni bina yang berprestasi lebih baik bergantung pada sama ada tulang belakang yang telah dilatih itu dibekukan.

(Ringkasnya, jika tulang belakang pra-latihan menyertai proses latihan formal, ia tidak dibekukan, dan jika ia tidak mengambil bahagian, ia dibekukan)

Jika ia tidak dibekukan, prestasi autoregresif sepenuhnya seni bina adalah lebih baik, dan sebaliknya, seni bina silang perhatian adalah lebih baik.

HuggingFace mengajar anda cara membuat model visual SOTAGambar

Bagi sama ada tulang belakang perlu dibekukan, ia bergantung kepada fokus keperluan pemaju.

Di bawah keadaan sumber yang terhad, jika anda memerlukan prestasi tinggi dan sangat sensitif terhadap kependaman, pembekuan adalah lebih sesuai

Jika anda mahu model mempunyai fleksibiliti dan kebolehsuaian yang lebih tinggi, anda harus memilih kaedah latihan tanpa pembekuan.

Khusus untuk Idefics2, kami memilih untuk tidak membekukan tulang belakang, jadi kami menggunakan seni bina autoregresif sepenuhnya dengan sewajarnya.

HuggingFace mengajar anda cara membuat model visual SOTAGambar

Pengalaman dalam fasa latihan

Memilih seni bina yang sesuai adalah penting, tetapi proses latihan juga penting semasa proses latihan Idefics2, penulis merumuskan pengalaman ini untuk rujukan kami:

adalah untuk mengguna pakai strategi pra-latihan berperingkat secara keseluruhan, menggunakan imej resolusi rendah pada peringkat awal, dan kemudian memperkenalkan dokumen PDF resolusi lebih tinggi Pendekatan ini boleh membina pelbagai keupayaan model secara beransur-ansur.

Yang kedua ialah menggunakan Learned Pooling dan bukannya memasukkan terus ciri imej ke dalam model bahasa, yang boleh mengurangkan bilangan token imej dengan ketara, meningkatkan kecekapan latihan dan inferens dengan ketara, dan juga membawa peningkatan prestasi.

Yang ketiga ialah peningkatan data Satu kaedah adalah untuk membahagikan imej kepada berbilang sub-imej dan menghantarnya ke model semasa latihan Ini boleh menukar masa pengkomputeran untuk prestasi yang lebih kuat semasa membuat inferens , tetapi tidak Semua imej perlu dirawat dengan cara ini.

Keempat, menggunakan data dan tugasan yang lebih pelbagai dalam fasa penalaan halus arahan boleh meningkatkan generalisasi dan keteguhan model.

Selain itu, untuk menstabilkan latihan, apabila tulang belakang mod tunggal pra-latihan menyertai latihan (bukan beku), penulis juga menggunakan teknologi LoRA untuk menyesuaikan parameter pra-latihan.

Kepelbagaian data dan strategi pemprosesan

Selain proses latihan itu sendiri, data yang dipilih juga akan memberi kesan yang ketara ke atas prestasi model.

Dari awal peringkat pengumpulan, perhatian harus diberikan kepada memilih berbilang jenis data Contohnya, data yang digunakan oleh Idefics2 merangkumi tiga kategori - dokumen dengan penjajaran imej dan teks (seperti halaman web), pasangan teks imej. (seperti tajuk gambar), Dan dokumen PDF dengan anotasi OCR.

Perkadaran pelbagai jenis data juga harus seimbang dengan sewajarnya mengikut keperluan sebenar, bukannya dibahagikan kepada bahagian yang sama.

Bagi saiz data, lebih banyak lebih baik jika keadaan membenarkan, perhatian harus diberikan untuk menapis data berkualiti rendah.

Sudah tentu, pengumpulan hanyalah satu langkah untuk mendapatkan data latihan Jika anda ingin melatih model dengan baik, pemprosesan tertentu diperlukan.

Gunakan strategi prapemprosesan dan peningkatan yang berbeza untuk jenis data yang berbeza Contohnya, untuk data OCR, perlu menggunakan imej dengan resolusi yang lebih tinggi, manakala data lain boleh menggunakan resolusi yang lebih rendah.

Perlu diingatkan bahawa nisbah aspek dan resolusi asal harus dikekalkan semasa memproses imej, yang boleh menjimatkan overhed pengiraan latihan dan inferens sambil meningkatkan kebolehsuaian model.

Jika anda rasa pengalaman ini telah memberi inspirasi kepada anda, anda boleh membaca kertas asal untuk maklumat lanjut Anda juga dialu-alukan untuk berkongsi pengalaman pembangunan anda di ruangan komen.

Alamat kertas:https://www.php.cn/link/52c8b8d56837155b4870fc2658b676f0

Atas ialah kandungan terperinci HuggingFace mengajar anda cara membuat model visual SOTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn