


Di CCIG2024, Hehe Teknologi analisis dokumen maklumat menyelesaikan masalah 'kebuluran' korpus model besar
Pada tahun 2024, Persidangan Imej dan Grafik China akan dibuka dengan megah di ibu kota purba Xi'an. Persidangan ini telah dihoskan oleh Persatuan Imej dan Grafik Cina dan dihoskan oleh Universiti Perubatan Tentera Udara, Universiti Xi'an Jiaotong, dan Universiti Politeknik Barat Laut Melalui lebih daripada 20 forum dan lebih daripada 100 pencapaian, ia memfokuskan pada memaparkan kecerdasan buatan pengeluaran. model besar, dan pembelajaran mesin , pengkomputeran yang diilhamkan oleh otak dan bidang grafik imej yang lain.
Teknologi model besar sedang digunakan secara meluas dengan inovasi teknologi untuk memenuhi keperluan pemprosesan imej banyak industri. Semasa persidangan itu, Jawatankuasa Khas Analisis dan Pengiktirafan Imej Dokumen CSIG dan Shanghai Hehe Information Technology Co., Ltd. (dirujuk sebagai "Hehe Xinheng") bersama-sama menganjurkan forum "Large Model Technology and Its Frontier Applications", dengan wakil dari Selatan Universiti Teknologi China dan wakil Pakar dari Universiti Shanghai Jiao Tong, Universiti Tsinghua, Universiti Fudan, Makmal Kepintaran Buatan Shanghai, Universiti Hehexin dan universiti lain, institusi penyelidikan dan perusahaan menjalankan perbincangan mendalam tentang pembangunan dan aplikasi teknologi model besar dalam medan imej.
Kapsyen: Pengikut industri mendengar perkongsian forum "Large Model Technology and Its Frontier Applications"
Di sebalik "lonjakan" model besar, terdapat model "Teknologi Model Besar dan Aplikasi Sempadannya" krisis tersembunyi korpus". Epoch Research, sekumpulan penyelidik kecerdasan buatan, menganggarkan bahawa set data pembelajaran mesin boleh kehabisan "data bahasa berkualiti tinggi" menjelang 2026. Pada peringkat ini, sejumlah besar data korpus berkualiti tinggi wujud dalam buku, kertas kerja, laporan penyelidikan, dokumen korporat dan dokumen lain susun atur korpus latihan menyekat. model besar Keupayaan aplikasi untuk pemprosesan dan soal jawab dokumen model besar. Kemajuan penghuraian dokumenteknologi membolehkan mesin mengenal pasti pelbagai elemen dalam dokumen, memproses teks yang lebih baik, jadual, imej, dsb. pelbagai jenis data, membaca semula data, Mempercepatkan latihan dan aplikasi model besar. Di forum tersebut, Chang Yang, Pengarah R&D Bahagian Inovasi Pintar Maklumat Hehe, berkongsi hasil kerja teknologi pemprosesan dokumen pintar Hehe Information dalam bidang penghuraian dokumen, membawa perspektif teknikal baharu kepada para peserta.
🎜"Kesukaran menghurai dokumen ialah bagaimana untuk mengenal pasti pelbagai elemen dalam dokumen dengan tepat dan memahami hubungan logik antara mereka. Anda perlu memberi perhatian kepada 'analisis reka letak fizikal' dan ' Analisis reka letak logik" Menurut Chang Yang, analisis susun atur fizikal memfokuskan pada ciri visual dan susun atur dokumen. Tugas utama adalah untuk mengagregatkan teks yang sangat relevan ke dalam satu kawasan, seperti perenggan, jadual, dsb. Tugas pengesanan sasaran dipilih untuk pemodelan, dan model pengesanan satu peringkat berdasarkan regresi digunakan untuk pemasangan, untuk mendapatkan pelbagai kaedah susun atur dalam dokumen, analisis susun atur logik memberi tumpuan kepada analisis semantik ciri, dan tugas utama adalah untuk menggabungkan blok Teks yang berbeza dimodelkan mengikut semantik, contohnya, melalui hubungan hierarki semantik, membentuk struktur pohon direktori.
Dalam teknologi penghuraian dokumen, tugas seperti pengesanan elemen dokumen, pengecaman jadual teks, dokumen susun atur analisis, dan pemulihan susunan bacaan melibatkan pertimbangan elemen susun atur dan bidang pemprosesan dokumen. Melalui lebih sepuluh tahun pengumpulan teknikal, Hehe Maklumat telah membuka analisis fail elektronik, fail yang diimbasimejmemproses, pengiktirafan teks, pengecaman jadual, analisis susun atur, analisis susun atur dan Typesetting susun atur dan proses pemprosesan pintar dokumen lain, dalam menghadapi dokumen elektronik dan imbasan, boleh mengenal pasti secara fleksibel teks, jadual, , meja tanpa wayar, pengepala muka surat formula, imej, carta alir dan elemen susun atur lain, dengan tepat memulihkan susunan bacaan dokumen, dan menyediakan korpus latihan yang tepat dan dokumenaplikasi soal jawab pengalaman untuk model besar .
Kapsyen: Penyelidik dan pelajar universiti berbaris untuk mengalami teknologi pemprosesan dokumen pintar
"Semasa penyelidikan kami, kami mendapati bahawa dokumen dunia sebenar mempunyai jenis susun atur yang sangat kaya, dan mustahil untuk menggunakan lajur tunggal. "Lajur berganda, tiga lajur dan kategori lain untuk ditakrifkan bahawa dalam beberapa tahun kebelakangan ini, perkembangan canggih seperti pengesanan objek perbendaharaan kata terbuka (OVD), penjajaran semantik visual (Penjajaran), dan model generatif akan membawa aspek-aspek baru kepada analisis reka letak Berdasarkan idea penyelidikan, Pasukan Teknologi Maklumat Hehe juga akan terus mendalami bidang pemprosesan dokumen pintar, supaya teknologi baharu dapat menjana nilai dalam industri dengan lebih cepat.
Atas ialah kandungan terperinci Di CCIG2024, Hehe Teknologi analisis dokumen maklumat menyelesaikan masalah 'kebuluran' korpus model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

OpenAI melancarkan siri GPT-4.1 yang kuat: keluarga tiga model bahasa lanjutan yang direka untuk aplikasi dunia nyata. Lompat penting ini menawarkan masa tindak balas yang lebih cepat, pemahaman yang lebih baik, dan kos yang dikurangkan secara drastik berbanding t

Model bahasa yang besar (LLM) telah menjadi penting untuk aplikasi AI moden, tetapi menilai keupayaan mereka tetap menjadi cabaran. Penanda aras tradisional telah lama menjadi standard untuk mengukur prestasi LLM, tetapi dengan RA

AI Chatbots menjadi lebih bijak dan semakin canggih pada hari itu. Model eksperimen terbaru Google Deepmind, Gemini 2.5 Pro, mewakili lonjakan yang ketara ke hadapan dalam keupayaan AI Chatbot. Dengan contex yang lebih baik

Openai's O3: Lonjakan ke hadapan dalam keupayaan penalaran dan multimodal Model O3 Openai mewakili kemajuan yang signifikan dalam keupayaan penalaran AI. Direka untuk penyelesaian masalah, tugas analisis, dan penggunaan alat autonomi yang kompleks, O3 melepasi

Canva Buat 2025: Reka bentuk Revolusi dengan Kod Canva dan AI Canva's Create 2025 acara melancarkan kemajuan yang signifikan, memperluaskan platformnya ke dalam alat berkuasa AI, penyelesaian perusahaan, dan, terutamanya, alat pemaju. Kemas kini Utama Termasuk Enh

Era apl-hopping untuk tugas mudah berakhir. Bayangkan menempah bercuti dengan satu perbualan, atau mempunyai bil anda dirundingkan secara automatik. Ini adalah kuasa ejen AI - pembantu digital baru anda yang menjangkakan keperluan anda, bukan jus

Model Penaakulan O3 dan O4-Mini Openai: Lompatan Raksasa Ke arah AGI Panas di tumit pelancaran keluarga GPT 4.1, OpenAI telah melancarkan kemajuan terkini dalam AI: model penalaran O3 dan O4-mini. Ini bukan hanya model AI; The

Memanfaatkan kekuatan Llama 4 dan Autogen untuk membina ejen AI pintar META's Llama 4 Keluarga model mengubah landskap AI, yang menawarkan keupayaan multimodal asli untuk merevolusikan pembangunan sistem pintar. Artikel ini meneroka


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

MantisBT
Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma
