Rumah  >  Artikel  >  Peranti teknologi  >  Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

WBOY
WBOYke hadapan
2023-04-09 18:01:141234semak imbas

“Masih ada 46 minit lagi, cuti Cikgu Dong akan tamat.”

Ini adalah mesej dengan lebih 100 suka pada video terbaharu Dong Yuhui.

Pada hari-hari apabila dia menghilangkan diri dari bilik siaran langsung Oriental Selection, peminat mencurah-curah ke akaun peribadinya dan bergurau, "Selagi lelaki ini bercuti, ratusan ribu orang akan putus cinta. "

Walau bagaimanapun, bagi penaja teratas, tidak kira betapa berdedikasinya mereka untuk jawatan mereka, akan sentiasa ada masa untuk tidak disiarkan.

Lagipun, bercakap selama berjam-jam, dengan kata-kata jenaka, memakan tenaga mental dan kekuatan fizikal.

Dalam keadaan sedemikian, bukan sahaja "siaran langsung 24 jam" mustahil, malah sembang jangka panjang tanpa syif bukanlah sesuatu yang semua orang boleh tahan.

Tetapi setelah berkata begitu, bagaimana jika ada sokongan mesin...

Terutama dengan ledakan teknologi seperti manusia maya dalam tempoh ini, sukar untuk tidak membuka minda orang——

Dengan keupayaan AI, bolehkah head anchor "dirinya" ditempatkan di bilik siaran langsung 24 jam sehari?

Selain itu, adakah mungkin untuk menukar bahasa dengan lancar dan pergi ke antarabangsa secara langsung tanpa keupayaan dwibahasa Guru Dong?

Siaran langsung 24 jam, apakah kesukarannya?

Berdasarkan pelbagai teknologi AI yang sedang dilaksanakan, "lubang otak" ini tidak mustahil untuk dicapai.

Dari segi teknologi imej, AI tidak lagi sukar untuk menjana secara langsung avatar atau "mengubah" muka untuk sauh.

Contohnya, "Tom Cruise" palsu dari luar negara telah popular di TikTok buat sementara waktu Avatar domestik seperti Liu Yexi dan Li Xinglan juga sangat popular di platform media sosial domestik dan hampir tidak kelihatan dalam. video Dengan bayangan "sintesis AI", terdapat juga banyak suara yang menakjubkan dalam ulasan.

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

Bukan itu sahaja, kesan imej yang dijana AI dan juga video menjadi semakin canggih DALL·E2 OpenAI Asing, Imagen dan Parti terbaru Google, CogVideo Sumber Kebijaksanaan domestik dan Microsoft Asia Research NUWA-Infinity, dsb. adalah semua pencapaian baharu yang telah muncul dalam beberapa bulan lalu.

Banyak teknologi imej yang dinyatakan di atas telah membuka antara muka API atau digunakan untuk percubaan Selain itu, terdapat banyak model sumber terbuka yang serupa, yang pada asasnya menjadikannya "boleh dimainkan oleh semua orang".

Berdasarkan teknologi ini, kini terdapat banyak blogger AI "siaran langsung 24 jam" di pelbagai platform di dalam dan luar negara.

Tetapi apabila anda mengklik padanya, anda akan mendapati bahawa blogger AI ini jauh kurang popular daripada sauh sebenar atau sauh maya yang dimainkan oleh orang sebenar.

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

△Sauh maya AI 24 jam, hanya 167 orang "menonton"nya selama setengah hari

Kesan siaran langsung juga sama seperti "24 jam" kami menjangkakan "Siaran langsung" agak jauh:

Apabila berinteraksi, kebanyakan sauh AI boleh melakukan perkara yang sangat terhad Sesetengahnya hanya boleh menyanyikan beberapa lagu (senarai main terhad) atau membalas mengikut arahan yang ditetapkan, dsb. ;

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

Apabila bercakap, suara sauh maya yang disintesis oleh AI bukan sahaja tidak sejelas sauh sebenar, tetapi juga tidak boleh aktif mencipta beberapa "kejutan" emosi.

Apa yang ditunjukkan oleh perkara ini ialah titik kesakitan kebanyakan penambat AI maya -

Walaupun terdapat penemuan berterusan dalam teknologi penjanaan imej dalam beberapa tahun kebelakangan ini, ambang teknikal untuk AI bahasa suara masih tinggi.

Ambil bilik siaran langsung Dong Yuhui sebagai contoh Walaupun tidak sukar untuk mencipta imej "AI Dong Yuhui" asalkan Encik Dong sanggup

Namun, nadanya suara "Versi AI" Encik Dong Masih sukar untuk menyelesaikan operasi seperti membuat suara lebih seperti suara saya, mengenali suara guru lain di dalam bilik siaran langsung, dan juga memahami "arahan" pembantu di luar bilik siaran langsung.

Apa yang sepadan di sebalik ini ialah keupayaan komprehensif pelbagai AI bahasa pertuturan seperti sintesis pertuturan, pengecaman suara dan pengecaman pertuturan.

Selain itu, jika kami ingin menjadikan bilik siaran langsung ini antarabangsa, kami juga akan mengemukakan keperluan yang lebih tinggi untuk keupayaan suara.

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

Sebagai contoh, sekurang-kurangnya sari kata AI yang boleh diterjemahkan dalam talian dalam masa nyata diperlukan:

Atas dasar ini, jika anda ingin membuat halangan -bilik siaran langsung percuma, anda juga perlu Menguasai lagi keupayaan tafsiran serentak.

Berita baiknya ialah kini, semakin banyak pengeluar teknologi utama telah menyedari landasan ini dan telah meningkatkan pelaburan dalam beberapa tahun kebelakangan ini.

Pengilang utama di dalam dan luar negara telah meningkatkan usaha mereka

Dari perspektif penyelidikan teori sahaja, terdapat banyak kertas kerja dalam bidang pertuturan dan AI bahasa.

Syarikat besar seperti Amazon dan Google telah menerbitkan ratusan atau bahkan ribuan kertas AI mengenai AI perbualan, NLP dan pemprosesan bahasa, kebanyakannya adalah kertas persidangan teratas Meta adalah 2018 sahaja, memenangi kertas terbaik daripada dua persidangan NLP teratas, EMNLP dan ACL...

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

(当然,也有少发论文的,例如苹果更喜欢申请专利)

国内如BAT、华为、京东等公司,这几年也成立了自己的声学或NLP实验室,在NAACL、AAAI和ACL等不少顶会上拿过各种论文奖项。

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

△ACL 2022部分杰出论文奖

以IWSLT(国际口语机器翻译比赛)为例,这是国际上最具影响力的口语机器翻译比赛之一。

就在今年的赛事上,华为在语音到语音翻译、离线语音翻译和等长口语翻译三个任务上,拿到了四个语言方向的TOP 1。

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

但在研究以外,各大厂在语音语言AI技术的落地上却有着不同的思路。

除了基于最新研究优化自身产品(语音助手、搜索引擎等)以外,部分厂商选择直接将模型开源、或是做成AI框架供开发者调用。

这样的AI能力,对于不少没接触过AI的开发者来说又“过于深奥”,甚至连它应该怎么用、用在哪里都难以捉摸清楚。

一定程度上,也导致了不少开发者并没有机会接触到最新的语音语言类AI技术。

尤其是这几年很火的同声传译AI,对于实时性和模型性能都有一定的要求,相应的论文和Workshop也在顶会上出现得越来越多。

对于直播等行业来说,要想扩大受众和影响范围,同传AI也是一项不可或缺的技术。

所以,有没有门槛更低的落地方式呢?

现在就已经有不少厂商开始尝试一种新方法——

以华为为例,就针对移动端开发者,基于华为移动核心服务(HMS Core)打造了一套专门的机器学习服务(ML Kit)工具包。

在这样的基础上,开发者无需掌握AI技术细节,就能在自己开发的移动APP或应用中用上这些语音语言技术。

例如,刚刚我们看到的AI字幕(在线文本翻译)和同声传译,就是基于华为这套工具包中的语音语言AI能力,轻松做出来的效果。

开发门槛越来越低

说了这么多,具体怎么上手用起来,咱们不妨看看前辈们都是怎么做的。

比如,在华为开发者论坛上,就有人基于ML Kit中实时语音识别、实时语音转写等功能,给外婆开发了一个语音搜索购物App。

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

其中语音功能的实现,步骤并不复杂。

首先,你需要做一些开发准备工作,包括:在华为开发者联盟网站上完成实名注册,配置AppGallery Connect,并在工程中配置HMS Core SDK的Maven仓地址。

然后,集成相关服务SDK。以实时语音识别服务为例,代码如下:

dependencies<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">{</span><br><span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">//</span> 引入实时语音识别服务插件<br>implementation <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">'com.huawei.hms:ml-computer-voice-asr-plugin:3.5.0.303'</span><br><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">}</span>

接着,就可以进入接入语音服务的阶段了。

还是以实时语音识别服务为例。在设置完成应用的鉴权信息之后,第一步是参考支持语言列表LANGUAGE,创建intent,用于设置实时语音识别参数。

mSpeechRecognizer<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.getLanguages</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>new MLAsrRecognizer<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.LanguageCallback</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span> <span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">{</span> <br> @Override <br>public void onResult<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>List<span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">String<span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">></span> result<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span> <span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">{</span><br>Log<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.i</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>TAG<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">"support languages=="</span> <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">+</span> result<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.toString</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span><br><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">}</span><br>@Override<br>public void onError<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span><span style="color: rgb(34, 134, 58); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">int</span> errorCode<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> String errorMsg<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span> <span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">{</span><br>Log<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">.e</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>TAG<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">"errorCode:"</span> <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">+</span> errorCode <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">+</span> <span style="color: rgb(102, 153, 0); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">"errorMsg:"</span> <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">+</span> errorMsg<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span><br><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">}</span><br><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">}</span><span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span></span>

第二步是创建activity,传入之前创建的intent,用于拾音,并将结果返回原activity,可实时识别60s内(包括60s)的语音。

private static final <span style="color: rgb(34, 134, 58); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">int</span> REQUEST_CODE_ASR <span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">=</span> <span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">100</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span><br><span style="color: rgb(215, 58, 73); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">//</span> REQUEST_CODE_ASR表示当前Activity和拾音界面Activity之间的请求码,通过该码可以在当前Activity中获取拾音界面的处理结果。<br>startActivityForResult<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">(</span>intent<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> REQUEST_CODE_ASR<span style="color: rgb(153, 153, 119); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">)</span><span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">;</span>

最后,覆写“onActivityResult”方法,用于处理语音识别服务返回结果即可(详细代码见参考链接)。

每一步的开发细节,在HMS Core官网都有详尽的开发指南可供查询,十分新手友好。

另外,HMS Core的机器学习服务也不仅适用于华为手机,Android设备和iOS设备也能用,具体版本要求如下。

Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?

怎么样?简单接入SDK,无需复杂的调参训练,即可获得大厂商用级别的AI算法能力,你是不是已经脑洞大开了?

(Dan bukan sahaja teknologi bahasa pertuturan, ML Kit juga menyediakan pelbagai fungsi algoritma AI seperti teks dan imej. Untuk butiran khusus, anda boleh mengklik "Baca teks asal" di penghujung artikel dan merujuk kepada ML laman web rasmi Kit).

Walau bagaimanapun, bagi penaja teratas, tidak kira betapa berdedikasinya mereka untuk jawatan mereka, akan sentiasa ada masa untuk tidak disiarkan.

Malah, pendekatan melepaskan keupayaan teknikal terkumpul jangka panjang ini kepada pembangun aplikasi mudah alih melalui alatan yang mudah digunakan ini bukanlah unik untuk Huawei.

Sama ada Teras GMS Google atau pelbagai Kit Apple untuk pembangun, tujuan terasnya adalah untuk terus menurunkan ambang pelaksanaan teknologi canggih, supaya lebih ramai pembangun boleh menggunakan lebih banyak teknologi tanpa kebimbangan teknikal Letakkan lebih banyak tenaga dan masa dalam kreativiti.

Akibatnya, pengguna telefon bimbit secara semula jadi akan suka melihat bahawa teknologi terkini boleh dialami secara langsung pada telefon bimbit mereka dalam pelbagai bentuk yang menyeronokkan dan kreatif.

Bagi pengeluar, kemakmuran aplikasi merupakan nod terpenting dalam kitaran ekologi, menarik lebih ramai pengguna secara luaran dan mengumpulkan lebih banyak pembangun yang cemerlang secara dalaman.

Atas ialah kandungan terperinci Bagaimanakah AI menghalang Dong Yuhui daripada berhenti kerja?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam