Rumah >Peranti teknologi >AI >AI yang boleh meniru tulisan tangan dan mencipta fon eksklusif untuk anda
Bak kata pepatah, kata-kata seperti muka, dan kata-kata seperti orang. Berbanding dengan fon bercetak tegar, tulisan tangan boleh mencerminkan ciri peribadi penulis dengan lebih baik. Saya percaya ramai orang telah membayangkan mempunyai set fon tulisan tangan mereka sendiri dan menggunakannya dalam perisian sosial untuk menunjukkan gaya peribadi mereka dengan lebih baik.
Walau bagaimanapun, tidak seperti huruf Inggeris, bilangan aksara Cina sangat besar, dan sangat mahal untuk mencipta fon eksklusif anda sendiri. Sebagai contoh, set aksara Cina GB18030-2022 standard kebangsaan yang baru dikeluarkan mengandungi lebih daripada 80,000 aksara Cina. Terdapat laporan bahawa seorang blogger di laman web video menghabiskan 18 jam menulis lebih daripada 7,000 aksara Cina, menggunakan 13 pen semasa proses itu, dan tangannya kebas kerana menulis!
Soalan-soalan di atas mencetuskan pengarang kertas kerja untuk memikirkan sama ada dia boleh mereka bentuk model penjanaan teks automatik untuk membantu menyelesaikan masalah kos tinggi untuk mencipta eksklusif fon? Untuk menyelesaikan masalah ini, penyelidik membayangkan AI yang boleh meniru tulisan tangan Hanya pengguna perlu menyediakan sebilangan kecil sampel tulisan tangan (kira-kira sedozen) untuk mengekstrak gaya tulisan yang terkandung dalam tulisan tangan (seperti saiz tulisan tangan. aksara, tahap kecenderungan, tahap kecenderungan, dsb.) Nisbah aspek, panjang lejang dan kelengkungan, dsb.), dan salin gaya untuk mensintesis lebih banyak teks, dengan itu mensintesis set lengkap fon tulisan tangan untuk pengguna dengan cekap.
Selanjutnya, pengarang kertas kerja menganalisis input dan output model dari perspektif nilai aplikasi dan pengguna pengalaman. Modal telah membuat pemikiran berikut: 1. Memandangkan tulisan tangan dalam talian bagi mod jujukan mengandungi maklumat yang lebih kaya (kedudukan terperinci dan susunan titik trek, seperti yang ditunjukkan dalam rajah di bawah) daripada tulisan tangan luar talian imej mod. (ditunjukkan), menetapkan mod output model kepada teks dalam talian akan mempunyai prospek aplikasi yang lebih luas, seperti penulisan robot dan pendidikan kaligrafi. 2. Dalam kehidupan seharian, adalah lebih mudah bagi orang ramai menggunakan telefon bimbit untuk mengambil gambar bagi mendapatkan teks luar talian daripada mendapatkan teks dalam talian melalui peranti koleksi seperti tablet dan pen sentuh. Oleh itu, menetapkan mod input model yang dijana kepada teks luar talian akan menjadikannya lebih mudah untuk digunakan oleh pengguna!
Ringkasnya, matlamat penyelidikan artikel ini adalah untuk mencadangkan tulisan tangan dalam talian yang digayakan Model penjanaan teks (kaedah penjanaan tulisan tangan dalam talian yang digayakan). Model ini bukan sahaja boleh menyalin gaya penulisan yang terkandung dalam teks luar talian yang disediakan oleh pengguna, tetapi juga menjana tulisan tangan terkawal kandungan dalam talian mengikut keperluan pengguna.
Untuk mencapai matlamat di atas, penyelidik menganalisis dua isu utama: 1. Memandangkan pengguna hanya boleh menyediakan sebilangan kecil sampel aksara, bolehkah gaya penulisan unik pengguna hanya dipelajari daripada bilangan sampel rujukan yang kecil ini. ? Dalam erti kata lain, adakah boleh menyalin gaya penulisan pengguna berdasarkan sebilangan kecil sampel rujukan? 2. Matlamat penyelidikan artikel ini bukan sahaja untuk memastikan gaya teks yang dihasilkan boleh dikawal, tetapi juga kandungannya juga boleh dikawal. Oleh itu, selepas mempelajari gaya penulisan pengguna, bagaimana untuk menggabungkan gaya dengan kandungan teks dengan cekap untuk menghasilkan tulisan tangan yang memenuhi jangkaan pengguna? Seterusnya, mari kita lihat bagaimana kaedah SDT (style disentangled Transformer) yang dicadangkan dalam CVPR 2023 ini menyelesaikan kedua-dua masalah ini.
Motivasi penyelidikan Penyelidik mendapati biasanya terdapat dua gaya penulisan dalam tulisan tangan peribadi: 1. Terdapat persamaan gaya keseluruhan dalam tulisan tangan penulis yang sama, dengan watak individu menunjukkan nisbah aspek dan serong yang serupa, dan persamaan gaya bagi penulis yang berbeza berbeza-beza. Oleh kerana ciri ini boleh digunakan untuk membezakan penulis yang berbeza, penyelidik memanggilnya gaya penulis. 2. Sebagai tambahan kepada persamaan gaya keseluruhan, terdapat ketidakkonsistenan stilistik yang terperinci antara watak yang berbeza daripada penulis yang sama. Sebagai contoh, untuk dua aksara "黑" dan "杰", mereka mempunyai radikal air empat titik yang sama dalam struktur aksara, tetapi terdapat sedikit perbezaan penulisan dalam penulisan radikal ini dalam aksara yang berbeza, yang ditunjukkan dalam panjang daripada pukulan, kedudukan dan kelengkungan. Penyelidik merujuk kepada corak gaya halus ini dalam glif sebagai gaya glif. Diilhamkan oleh pemerhatian di atas, SDT bertujuan untuk memisahkan gaya penulis dan glyph daripada tulisan tangan peribadi, dengan harapan dapat meningkatkan keupayaan untuk meniru gaya tulisan tangan pengguna.
Selepas mempelajari maklumat gaya, tidak seperti kaedah penjanaan teks tulisan tangan sebelumnya yang hanya menggabungkan ciri gaya dan kandungan, SDT akan Ciri kandungan digunakan sebagai vektor pertanyaan untuk menangkap maklumat gaya secara adaptif, dengan itu mencapai integrasi gaya dan kandungan yang cekap serta menghasilkan tulisan tangan yang memenuhi jangkaan pengguna.
Rangka Kerja Kaedah Rangka kerja keseluruhan SDT ditunjukkan dalam rajah di bawah, yang terdiri daripada tiga bahagian: pengekod gaya dwi-cawangan, pengekod kandungan dan penyahkod pengubah. Pertama, kertas kerja ini mencadangkan dua objektif pembelajaran kontrastif pelengkap untuk membimbing cawangan penulis dan cabang glif pengekod gaya untuk mempelajari pengekstrakan gaya yang sepadan masing-masing. Kemudian, SDT menggunakan mekanisme perhatian pengubah (perhatian berbilang kepala) untuk menggabungkan ciri gaya dan ciri kandungan secara dinamik yang diekstrak oleh pengekod kandungan untuk mensintesis teks tulisan tangan dalam talian secara progresif.
(a) Kajian perbandingan penulis styles SDT mencadangkan objektif pembelajaran perbandingan yang diselia (WriterNCE) untuk pengekstrakan gaya penulis, yang menghimpunkan sampel watak milik penulis yang sama, menolak sampel tulisan tangan kepunyaan penulis yang berbeza, dan secara eksplisit membimbing penulis fokus Cawangan pada persamaan gaya dalam tulisan tangan individu.
(b) Pembelajaran kontrastif gaya Glyph Untuk mempelajari gaya glif yang lebih terperinci, SDT mencadangkan matlamat pembelajaran perbandingan tanpa pengawasan (GlyphNCE), digunakan untuk memaksimumkan maklumat bersama antara pandangan berbeza bagi watak yang sama, dan menggalakkan cabang glyph untuk menumpukan pada mempelajari corak terperinci dalam aksara. Seperti yang ditunjukkan dalam rajah di bawah, mula-mula lakukan dua sampel bebas dengan aksara tulisan tangan yang sama untuk mendapatkan sepasang sampel positif
dan
, dan kemudian sampel daripada aksara lain untuk mendapatkan sampel negatif
. Setiap kali sampel diambil, sebilangan kecil blok sampel dipilih secara rawak sebagai perspektif baharu yang mengandungi butiran sampel asal. Persampelan blok sampel mengikut pengedaran seragam untuk mengelakkan pensampelan berlebihan kawasan tertentu aksara. Untuk membimbing cawangan glif dengan lebih baik, proses persampelan bertindak secara langsung pada output jujukan ciri oleh cawangan glif.
(c) Strategi integrasi gaya dan maklumat kandungan Selepas memperoleh dua ciri gaya , bagaimana untuk mengintegrasikannya dengan cekap dengan pengekodan kandungan yang dipelajari oleh pengekod kandungan? Untuk menyelesaikan masalah ini, pada bila-bila masa penyahkodan t, SDT menganggap ciri kandungan sebagai titik awal, dan kemudian menggabungkan q dan output titik trajektori sebelum masa t
Bentuk konteks kandungan baharu
. Seterusnya, konteks kandungan dianggap sebagai vektor pertanyaan dan maklumat gaya sebagai vektor kunci & nilai. Dengan penyepaduan mekanisme perhatian silang, konteks kandungan dan dua maklumat gaya diagregatkan secara dinamik pada gilirannya.
Penilaian kuantitatif SDT dalam Prestasi terbaik telah dicapai pada set data Cina, Jepun, India dan Inggeris, terutamanya dalam indeks skor gaya Berbanding dengan kaedah SOTA sebelumnya, SDT telah mencapai kejayaan besar.
Penilaian kualitatif Dari segi generasi Cina, berbanding kaedah sebelumnya, aksara tulisan tangan yang dihasilkan oleh SDT boleh mengelakkan keruntuhan aksara Ia boleh juga menyalin gaya penulisan pengguna dengan baik. Terima kasih kepada pembelajaran gaya glif, SDT juga boleh melakukan kerja yang baik dalam menjana butiran strok bagi aksara.
SDT juga berprestasi baik dalam bahasa lain. Terutama dari segi penjanaan teks India, kaedah arus perdana sedia ada boleh menjana aksara yang runtuh dengan mudah, tetapi SDT kami masih boleh mengekalkan ketepatan kandungan aksara.
Impak modul berbeza pada prestasi algoritma ditunjukkan dalam jadual di bawah , pelbagai modul yang dicadangkan dalam artikel ini mempunyai kesan sinergi dan berkesan meningkatkan prestasi penyalinan tulisan tangan pengguna. Khususnya, penambahan gaya penulis menambah baik peniruan SDT terhadap keseluruhan gaya watak, seperti kecondongan dan nisbah aspek watak, manakala penambahan gaya glif menambah baik butiran strok bagi aksara yang dihasilkan. Berbanding dengan strategi gabungan mudah kaedah sedia ada, strategi gabungan dinamik adaptif SDT secara komprehensif meningkatkan prestasi penjanaan watak dalam pelbagai penunjuk.
Dua jenis Analisis visual gaya Transformasi Fourier dilakukan pada dua ciri gaya untuk mendapatkan spektrogram berikut Ia boleh diperhatikan daripada rajah bahawa gaya penulis mengandungi lebih banyak komponen frekuensi rendah, manakala gaya glif terutamanya tertumpu pada. komponen frekuensi tinggi. Malah, komponen frekuensi rendah mengandungi garis besar keseluruhan sasaran, manakala komponen frekuensi tinggi memberi lebih perhatian kepada butiran objek. Dapatan ini mengesahkan dan menjelaskan lagi keberkesanan gaya penulisan yang dipisahkan.
Semua orang boleh mencipta fon eksklusif mereka sendiri melalui AI tulisan tangan dan mengekspresikan diri mereka dengan lebih baik di platform sosial!
Atas ialah kandungan terperinci AI yang boleh meniru tulisan tangan dan mencipta fon eksklusif untuk anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!