Rumah > Artikel > Peranti teknologi > Analisis dan aplikasi acara kewangan berdasarkan model pra-latihan
Analisis acara kewangan Tugas utama boleh dibahagikan kepada tiga bahagian:
① Bahagian pertama ialah penghuraian pintar data tidak berstruktur. Maklumat dalam bidang kewangan mempunyai ciri uniknya sendiri berbanding dengan maklumat Internet. Maklumat dalam bidang kewangan selalunya wujud dalam bentuk tidak berstruktur, dan terdapat beberapa format fail khas, seperti PDF, yang menimbulkan cabaran yang lebih besar untuk mengekstrak data yang bersih dan tepat daripada fail atau data. Format PDF ialah format tetapan huruf dan cetakan dan tidak mempunyai perenggan yang jelas seperti jenis fail lain. PDF lebih kepada penetapan taip, jadi hanya terdapat beberapa maklumat lokasi dalam fail. Adalah lebih mencabar untuk menghuraikan teks yang diformat dengan tepat dan jelas secara semantik daripada data tidak berstruktur. Selain itu, apabila semantik format dalam dokumen tidak jelas, analisis peristiwa akan membawa bunyi, dan data kotor ini akan menyebabkan banyak gangguan dalam latihan model dan inferens. Oleh itu, untuk meningkatkan ketepatan model, data tidak berstruktur harus dihuraikan terlebih dahulu.
② Bahagian kedua ialah pemahaman semantik peristiwa, yang merupakan bahagian penting dari segi teknikal. Ini terutamanya melibatkan pengesanan peristiwa, pengekstrakan elemen peristiwa dan pengekstrakan perhubungan peristiwa.
③ Berdasarkan pemahaman peristiwa, modul ketiga yang lebih penting dalam tugasan diperkenalkan, analisis graf peristiwa, yang merangkumi analisis rantaian peristiwa dan ramalan peristiwa.
Untuk menyelesaikan tugasan di atas, dua lagi sistem penting diperkenalkan. Yang pertama ialah sistem acara kewangan Sistem acara kewangan merangkumi entiti yang berkaitan dalam bidang kewangan, dan entiti ini juga mempunyai senario aplikasi yang berbeza. Untuk menyokong subjek dan senario ini dengan lebih baik, sistem acara yang sepadan perlu diwujudkan, yang melibatkan banyak pengetahuan domain dan memerlukan pakar domain untuk memberikan pengetahuan yang sepadan sebagai input. Ini akan membantu kami membina sistem yang lebih lengkap dan saintifik yang boleh merangkumi senario yang sepadan. Sudah tentu, sebagai tambahan kepada pengetahuan pakar, teknologi juga akan diperlukan untuk pembelajaran induktif, yang juga boleh menyediakan sistem acara berasaskan senario dan berskala yang lengkap.
Kerana pengenalan pengetahuan pakar adalah terutamanya untuk acara yang lebih penting di tempat kejadian. Untuk beberapa acara sederhana dan panjang, ia diselesaikan terutamanya oleh beberapa teknologi berdasarkan pembelajaran. Dengan graf peristiwa kewangan, kami menggabungkan teknologi pengekstrakan peristiwa Selepas pengekstrakan peristiwa, klasifikasi hubungan peristiwa dan perwakilan peristiwa pembelajaran, kami boleh membina graf untuk analisis dan ramalan.
Dengan tugas yang jelas dan sokongan teknologi, kami boleh memproses berita atau dokumen dan merumuskan serta menjawab banyak soalan. Sebagai contoh, jenis acara yang berlaku di syarikat mana dan elemen yang terlibat dalam acara tersebut, seperti elemen biasa masa, lokasi, orang atau elemen yang berkaitan dengan jenis acara Contohnya, acara "penerbitan saham syarikat" termasuk harga terbitan unsur, Edaran dsb. Di samping itu, kita juga boleh memberi perhatian kepada maklumat ini, seperti penilaian orang terhadap peristiwa ini (analisis sentimen). dan ramalan tentang apa yang akan berlaku kepada syarikat pada masa hadapan selepas jenis peristiwa tertentu berlaku. Jika anda boleh menjawab soalan di atas, ia akan menjadi berharga dalam banyak senario.
Mari kita lihat contoh khusus.
Angka di atas membahagikan sistem acara kewangan kepada dua peringkat Tahap pertama mempunyai lima kategori, yang kebanyakannya berasaskan pada objek tertentu, seperti acara korporat, acara saham, acara industri dan makro, acara hutang dan acara dana. Jenis acara yang berbeza ditakrifkan untuk objek acara yang berbeza. Ini adalah objek yang paling biasa dalam kewangan. Di peringkat kedua, kami membahagikan lagi setiap jenis objek. Contohnya, jenis acara biasa dalam syarikat, seperti pengurangan pemegang saham, dsb. (rujuk gambar di atas). Ambil peristiwa seperti pemegang saham mengurangkan pegangan mereka sebagai contoh Elemen peristiwa yang terkandung di dalamnya termasuk masa pengurangan, pemegang saham yang mengurangkan pegangan mereka, harga transaksi pada masa pengurangan dan maklumat lain. Mentakrifkan sistem acara lengkap yang disasarkan kepada senario adalah prasyarat penting untuk analisis acara untuk mencapai matlamatnya Tahap perincian dalam definisi sistem acara akan menentukan tahap maklumat acara yang terperinci yang boleh dilakukan oleh analisis acara akhir. capai.
Graf peristiwa diperkenalkan di bawah.
Graf peristiwa ialah graf dan mengandungi nod dan tepi. Dalam graf peristiwa, nod peristiwa boleh menjadi peristiwa atau entiti dalam peristiwa, seperti syarikat. Kelebihan ialah hubungan antara peristiwa, atau antara peristiwa dan entiti, atau antara entiti.
Mari kita lihat contoh. Gambar di atas ialah artikel berita yang memperkenalkan pemerolehan iRobot oleh Amazon. Sebanyak empat peristiwa telah diterangkan dalam laporan berita ini, dua daripadanya adalah pemerolehan, berlaku pada masa yang berbeza. Dua lagi ialah peristiwa penubuhan syarikat dan peristiwa kerjasama. Peristiwa ini dihubungkan dengan urutan kronologi kejadiannya. Sebagai tambahan kepada peristiwa, berita ini juga mengandungi entiti dan masa lain, dan entiti dan masa ini juga dihubungkan oleh hubungan yang sepadan.
Melihat maklumat halaman web yang tidak berstruktur dengan cara ini, dengan menghuraikan teks dan perenggan dalam dokumen, melakukan analisis semantik pada perenggan dan mengekstrak peristiwa entiti dan perhubungan , kita boleh membina graf peristiwa. Iaitu untuk menukar data tidak berstruktur kepada maklumat berstruktur. Dengan maklumat berstruktur, lebih mudah untuk memahami dan memproses maklumat. Maklumat sedemikian boleh digunakan dalam senario pemerolehan maklumat seperti carian dan soal jawab, atau dalam senario perniagaan seperti pemantauan risiko dan pelaburan kuantitatif dalam bidang kewangan.
Rantai peristiwa ialah graf peristiwa khas dan mod dipermudahkan graf peristiwa. Ia terutamanya memberi tumpuan kepada satu siri acara yang berlaku kepada peserta dan hubungan antara acara. Seperti yang dapat dilihat daripada rajah di atas, graf peristiwa di sebelah kiri boleh dipermudahkan kepada dua rantai peristiwa di sebelah kanan. Rantaian peristiwa hanya mengandungi nod yang dipermudahkan, dan elemen lain boleh dianggap sebagai maklumat atribut bagi rantaian peristiwa. Penyederhanaan ini berguna untuk aplikasi praktikal graf peristiwa. Selepas perhubungan dan nod graf peristiwa dipermudahkan, pembelajaran dan pemprosesan model graf hanya tertumpu pada satu jenis nod dan satu jenis hubungan antara peristiwa, yang mengurangkan kerumitan masalah ini. Walaupun dipermudahkan, maklumat utama dalam acara itu akan tetap dikekalkan, seperti jenis acara, subjek acara dan maklumat lain.
Mari kita lihat bagaimana rangkaian acara diramalkan.
Gambar di atas ialah model ramalan bagi rangkaian acara. Ia terutamanya terdiri daripada tiga bahagian Bahagian pertama ialah perwakilan peristiwa, di mana terdapat peristiwa semasa, peristiwa sejarah dan akhirnya peristiwa dalam teks yang ingin kita ramalkan. Peristiwa dan peristiwa sejarah yang akan diramalkan, perkataan pencetus dan elemen peristiwa yang mereka wakili boleh disambungkan bersama untuk menangkap maklumat sejarah dengan lebih baik. Menggabungkan perwakilan konteks dan perwakilan sejarah peristiwa, kami memasuki bahagian kedua, perwakilan urutan peristiwa digunakan di sini, yang boleh menangkap hubungan temporal antara peristiwa dan menyepadukan maklumat jujukan acara ke dalam perwakilan Acara. Akhir sekali, perwakilan acara yang mengandungi perhubungan kronologi dimasukkan ke dalam rangkaian dinamik, yang boleh digunakan untuk meramalkan acara dan acara calon dalam berita yang diberikan. Sebagai contoh, jika terdapat berpuluh-puluh jenis acara calon, maka kita boleh meramalkan acara yang mungkin merupakan jenis acara yang lebih besar yang akan berlaku kepada subjek ini pada masa hadapan berdasarkan jenis acara yang telah kita lihat dalam berita semasa. Hasilnya ialah pengedaran jenis acara.
Satu perkara yang perlu ditekankan di sini ialah keputusan ramalan model ini bukanlah untuk meramalkan peristiwa yang pasti akan berlaku kepada syarikat ini pada masa hadapan, tetapi untuk memberikan maklumat tambahan tersebut. untuk analisis, ramalan, Menyediakan asas untuk penyelidikan dan pertimbangan.
Rantai peristiwa dan ramalan peristiwa yang dinyatakan di atas ialah ramalan dan pertimbangan tentang situasi yang belum berlaku lagi. Ramalan acara sebenarnya boleh memberikan beberapa bantuan berguna untuk peristiwa yang telah berlaku.
Mari kita lihat contoh lain. Contoh ini adalah berdasarkan peristiwa yang telah berlaku untuk memberikan bantuan yang berguna.
Soal jawab acara jenis ini berdasarkan perpustakaan acara boleh menyokong carian bahasa semula jadi untuk acara. Kami mula-mula mengekstrak daripada korpus dan membina perpustakaan acara berstruktur Setiap jenis acara akan membuat jadual Setiap medan dalam jadual mewakili elemen acara yang berbeza Digabungkan dengan teknologi NL2SQL, pernyataan pertanyaan boleh ditukar menjadi pernyataan pertanyaan pangkalan data. Dengan cara ini kita boleh mencari jenis acara yang tepat dalam jadual yang baru kita buat. Ini berbeza daripada pengalaman mencari acara dengan enjin carian umum yang sedang berada di pasaran. Hasil yang dikembalikan oleh enjin carian ialah pelbagai jenis berita tentang jenis acara ini Walaupun berita yang berkaitan ditemui, hasil yang anda lihat ialah laporan lengkap dan bukannya maklumat khusus tentang acara tertentu. Melalui Soal Jawab acara berdasarkan pangkalan data acara, kami boleh menjalankan carian Soal Jawab untuk acara dengan lebih tepat.
Melalui contoh di atas, anda boleh melihat cara analisis peristiwa boleh dilakukan dalam senario tertentu. Turun naik harga saham syarikat menjadi tumpuan pasaran. Turun naik harga saham berasaskan peristiwa juga merupakan senario di mana NLP dan bidang kewangan digabungkan dalam analisis peristiwa, yang boleh merealisasikan transformasi maklumat pasaran dan turun naik harga saham. Rajah di atas menunjukkan dua ciri dalam model Satu jenis mewakili perusahaan tertentu, dan jenis lain mewakili hubungan antara perusahaan. Kami memperkenalkan analisis acara untuk mengekstrak jenis acara dan syarikat berbeza yang terlibat dalam acara tersebut. Jenis acara yang diekstrak dan dua jenis maklumat yang boleh diberikan oleh syarikat, satu ialah perwakilan acara, yang boleh menjadi ciri dan disepadukan dengan ciri syarikat. Hubungan antara perusahaan dan acara boleh membina modul hubungan persatuan antara perusahaan. Kemudian tambahkan ciri sedia ada, seperti penunjuk teknikal khusus perusahaan atau peta perhubungan perusahaan. Menggabungkan kedua-dua kita boleh membina graf dengan maklumat perusahaan dan maklumat perhubungan. Berdasarkan graf ini, kami menggunakan Graph Attention Network untuk menangkap kesan hubungan antara syarikat terhadap prestasi turun naik harga saham syarikat. Menggunakan turun naik harga saham sebagai sasaran pembelajaran model untuk melatih model, struktur rangkaian model yang kami perolehi boleh mencapai pertimbangan tentang ciri masa depan syarikat daripada ciri seperti peta industri berita dan peta hubungan korporat Pada masa yang sama, melalui analisis model Perhatian, kami juga boleh Anda boleh mengetahui modul mana turun naik terutamanya berasal, sama ada modul jenis acara atau modul hubungan acara. Dan pemodelan perhubungan antara perusahaan juga boleh menganalisis cara kesan ini tersebar di kalangan perusahaan berkaitan. Ini juga boleh dipanggil utiliti limpahan momentum dalam bidang kewangan.
Komprehensif pelbagai teknik analisis acara dan senario yang kami perkenalkan sebelum ini . Kami meringkaskan rangka kerja analisis acara yang lengkap. (Seperti yang ditunjukkan di bawah)
Ia menyediakan beberapa keupayaan utama:
① Pertama, ia boleh mencari acara tertentu atau pelbagai acara subjek tertentu.
② Kedua, ia boleh mencari pelbagai acara berkaitan syarikat dalam industri yang sama melalui rantaian industri, yang boleh menjadi rantaian industri atau rantaian syarikat .
③ Rangka kerja ini juga boleh meramalkan kemungkinan peristiwa masa hadapan berdasarkan hasil carian syarikat.
Kelebihan rangka kerja ini ialah ia berdasarkan model pra-latihan, mempunyai keupayaan untuk memindahkan pembelajaran, boleh menyokong zero-shot/beberapa- latihan pukulan, dan mempunyai permulaan sejuk yang cepat. Selain itu, kaedah sistematik ini mempunyai keupayaan yang agak komprehensif dan boleh menyokong pelbagai senario.
Bukan semua senario memerlukan semua modul dalam rangka kerja, dan modul boleh diasingkan dan digunakan secara individu mengikut keperluan.
Dua bahagian yang lebih penting dalam teknologi analisis peristiwa kewangan ialah Pengesanan dan pengekstrakan acara.
Matlamat tugas pengesanan acara adalah untuk mengekstrak peristiwa daripada teks dan mengelaskannya. Biasanya, perkataan pencetus diekstrak untuk pengesanan peristiwa, tetapi terdapat juga beberapa kaedah untuk pengesanan peristiwa tanpa pengekstrakan perkataan pencetus. Cabaran untuk jenis masalah ini ialah pelabelan perkataan pencetus, atau apabila masalah seperti migrasi semantik, pemisahan peristiwa dan perubahan definisi peristiwa berlaku, kami perlu melabel semula data. Masalah jenis ini sering berlaku dalam senario sebenar. Walaupun kami mempunyai set penyelesaian pengesanan acara kami sendiri, apabila digunakan pada bidang yang berbeza atau berdepan dengan keperluan pelanggan yang berbeza, sistem acara mereka sangat berbeza Cara menggabungkan model dan data sedia ada kepada lebih baik Menyokong perubahan dalam sistem acara adalah cabaran terbesar kami sedang dihadapi. Pendekatan semasa ialah pengesanan peristiwa berdasarkan perkataan isyarat dan model pra-latihan. Mengikut gesaan jenis acara, kami boleh melakukan pemindahan data atau latihan model dengan lebih baik dalam senario beberapa tangkapan.
Rajah di atas menunjukkan model dan kaedah berdasarkan perkataan pencetus. Mengikut gesaan jenis acara, input model boleh diberi anotasi pada tahap token, supaya perkataan pencetus peristiwa yang sepadan boleh diekstrak. Jika perkataan pencetus diubah berdasarkan Prompt semasa, jenis acara dan perkataan pencetus yang sepadan boleh ditukar dengan sewajarnya. Melalui perbandingan data pada set data awam, dapat dilihat bahawa dalam jumlah penuh data, prestasi model kami telah bertambah baik berbanding kaedah sebelumnya Walaupun dalam kes few-shot, prestasi model kami adalah lebih baik daripada model lain.
Tugas pengekstrakan acara ialah lanjutan daripada fungsi tugas pengesanan acara. Ia bukan sahaja mengenal pasti jenis acara dan perkataan pencetus, tetapi juga mengekstrak elemen yang sepadan dalam acara tersebut. Ini mempunyai kesan yang lebih besar pada senario di mana analisis peristiwa memerlukan maklumat yang agak lengkap. Contoh dalam rajah di atas boleh mengekstrak maklumat yang lebih terperinci. Cabaran pengekstrakan acara termasuk bahawa dalam sistem acara yang lengkap, akan terdapat banyak elemen acara, anotasi data memerlukan pakar domain untuk diselesaikan, kosnya agak tinggi, dan sukar untuk dikembangkan kepada banyak jenis acara. Penyelesaian semasa kami ialah menggunakan model dan gesaan yang telah dilatih Kaedah generatif berdasarkan
juga boleh mempunyai prestasi model yang baik dalam senario dengan data yang kurang beranotasi, dan mempunyai penggunaan dan fleksibiliti data yang lebih tinggi melanjutkan kepada jenis acara baharu.
Tugas pengekstrakan acara ialah lanjutan daripada fungsi tugas pengesanan acara. Ia bukan sahaja mengenal pasti jenis acara dan perkataan pencetus, tetapi juga mengekstrak elemen yang sepadan dalam acara tersebut. Ini mempunyai kesan yang lebih besar pada senario di mana analisis peristiwa memerlukan maklumat yang agak lengkap. Contoh dalam rajah di atas boleh mengekstrak maklumat yang lebih terperinci. Cabaran pengekstrakan acara termasuk bahawa dalam sistem acara yang lengkap, akan terdapat banyak elemen acara, anotasi data memerlukan pakar domain untuk diselesaikan, kosnya agak tinggi, dan sukar untuk dikembangkan kepada banyak jenis acara. Penyelesaian semasa kami ialah menggunakan model dan gesaan yang telah dilatih Kaedah generatif juga boleh mencapai prestasi model yang baik dalam senario dengan data yang kurang beranotasi, mempunyai penggunaan dan fleksibiliti data yang lebih tinggi serta lebih mudah untuk dikembangkan kepada jenis acara baharu.
Gambar di atas ialah kaedah pengekstrakan acara generatif berasaskan templat. Kaedah pengekstrakan ini mentakrifkan beberapa konsep penting. Pertama, kita perlu mentakrifkan templat sebelum pengekstrakan Dengan templat, ia boleh diberikan kepada model semasa latihan, beberapa elemen berkaitan dengan acara sebelumnya terlebih dahulu. Dengan cara ini, model boleh mempelajari jenis acara baharu dengan jumlah data yang kecil.
Walaupun kaedah di atas boleh menyelesaikan masalah pengekstrakan acara pada tahap tertentu, masih terdapat banyak ruang untuk penambahbaikan. Sebagai contoh, hubungan antara perkataan pencetus dan elemen peristiwa kaedah semasa adalah lemah; semua jenis peristiwa perlu ditinjau semasa inferens, yang memerlukan jumlah pengiraan yang besar dan masa inferens yang panjang diaturkan oleh Pipeline, yang membawa kepada penyebaran ralat.
Kami menambah baik model berdasarkan soalan yang dibangkitkan di atas, Satu lagi kaedah pengekstrakan peristiwa generatif TDE-GTEE berdasarkan peningkatan pengesanan perkataan pencetus dicadangkan.
(Ge Shi, Yunyue Su, Yongliang Ma dan Ming Zhou (2023). Rangka Kerja Pengesanan dan Penjanaan Hibrid dengan Pengekod Berasingan untuk Pengekstrakan Acara. Dalam Prosiding the 17th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume Association for Computational Linguistics.)
Dalam kaedah ini, modul pengesanan acara menyediakan. maklumat tentang perkataan pencetus peristiwa. Kami akan menandakan perkataan pencetus dalam input dan memilih templat yang sepadan berdasarkan maklumat jenis acara. Input dan templat acara ini kemudiannya digabungkan untuk membentuk perwakilan modul pengesanan acara. Perwakilan ini dimasukkan ke dalam model topik dan akhirnya templat yang diisi diperolehi. Perbezaan antara model ini dan model sebelumnya ialah model ini mempunyai perwakilan perkataan pencetus tambahan dan juga menggabungkan maklumat kontekstual. Ini menyelesaikan masalah pertama yang baru disebut, masalah bahawa tidak banyak hubungan antara kata pencetus dan unsur pengekstrakan kata pencetus. Model ini boleh membina hubungan paparan antara keduanya. Pada masa yang sama, melalui input perkataan pencetus, kita boleh mengetahui jenis peristiwa yang berkaitan dengan perkataan pencetus. Dengan cara ini kita boleh menapis jenis acara yang tidak berkaitan. Modul pengesanan acara hanya akan mengekstrak acara untuk jenis acara yang berkaitan. Akhir sekali, modul pengesanan acara dan modul pengekstrakan acara boleh membentuk latihan bersama hujung ke hujung. Model ini boleh menyelesaikan dua masalah lain yang dinyatakan di atas.
Model TDE-GTEE telah mencapai tahap SOTA pada kedua-dua set data awam ACE dan ERE. Dalam percubaan kami menggunakan jumlah data penuh. Untuk mengesahkan prestasi model ini dengan bilangan sampel yang kecil, kami juga membuat beberapa pelarasan pada modul pengesanan peristiwa, seperti menggantikan kaedah berbilang klasifikasi asal dengan kaedah berasaskan Prompt. Model juga boleh mencapai hasil yang baik pada sifar-shot/beberapa-shot. Kami percaya bahawa model ini boleh digunakan secara meluas dalam senario praktikal.
Teknologi analisis acara digunakan secara meluas dalam bidang kewangan dan mempunyai banyak senario. Rangka kerja sistem analisis acara yang komprehensif akan menyediakan sokongan teknikal yang kukuh untuk pemahaman maklumat dalam bidang kewangan.
TDE-GTEE dan kaedah lain yang dicadangkan oleh Lanzhou Technology dalam bidang analisis acara kewangan boleh mencapai tahap SOTA dan juga sangat baik dalam beberapa sampel dan senario sampel sifar. Kami akan terus mempromosikan kemajuan teknologi dan pengeluaran dalam bidang analisis acara kewangan.
J1: Terdapat pangkalan data khusus untuk graf peristiwa Sesetengah penyedia data menyediakan pangkalan data sedemikian. Sebagai contoh, syarikat seperti Lanzhou Technology dan Ant Group juga akan membina pangkalan data mereka sendiri dalam syarikat mereka. Neo4j boleh digunakan untuk menyimpan dan mengurus graf peristiwa. Bergantung pada senario penggunaan, Neo4j lebih sesuai untuk penyimpanan dan pengurusan dalam senario yang kompleks. Jika dipermudahkan menjadi rantaian acara, perwakilan acara boleh menjadi lebih fleksibel Apa yang kami lakukan ialah mengekstrak data daripada teks untuk menjana rantaian acara sebagai data latihan untuk model. Tiada operasi graf yang terlibat dalam latihan.
A2: Terdapat dua cara utama. Dalam proses membina dan menilai model tertentu, kami lebih bergantung kepada maklumat daripada pasaran saham. Ia boleh difahami sebagai ujian belakang dalam perdagangan kuantitatif Kami menggunakan data sejarah untuk latihan dan penilaian. Yang lain ialah dalam senario sebenar, kami akan menggunakan pertimbangan manual, seperti meramalkan turun naik harga saham pada bulan depan berdasarkan berita korporat dan penunjuk teknikal volum saham dan perdagangan harga. Kami akan melihat secara khusus sama ada turun naik harga saham benar-benar akan berlaku pada bulan ini. Jika turun naik berlaku, jenis peristiwa yang sepadan, volum harga saham yang sepadan dan maklumat harga serta elemen lain akan dianalisis untuk menentukan sama ada terdapat hubungan sebab-akibat yang kuat.
Atas ialah kandungan terperinci Analisis dan aplikasi acara kewangan berdasarkan model pra-latihan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!