嘉賓| 王岩
#作者| 雲昭
專欄介紹:「T前線」是51CTO內容中心專為技術人物開設的深度訪談專欄之一,透過邀請技術界內的業務負責人、資深架構師、資深技術專家等對當下的技術熱點、技術實踐和技術趨勢進行深度的解讀與洞察,推動尖端科技的傳播與發展。
#人工智慧被稱為第四次工業革命,被社會各界寄予了無窮大的期望。它在改善人們生活的同時,也提高了整個社會的運作效率。近年來的大模型、多模態也再一次助長了相關研究的火熱。
而在聚光燈下,可能大家更多看到的是,業內正在將AI推向極致的一面,卻往往忽略了它「水利萬物」的另外一面。
技術的發展離不開實際的場景,AI研究熱潮的多次起伏,始終伴隨著應用落地這個難題。如何將「高大上」的技術穩定地推向落地?如何看待AI與細分產業的深度融合?如何看待大模型的研究熱?
懷抱著這些問題,「T前線」訪問了深耕教育場景的科技公司:作業幫。作為一家致力於用科技手段助力教育普惠的企業,運用人工智慧、大數據等前沿技術,不論面向數億規模的C端用戶,還是成千上萬的B端客戶,都提供了一系列高效的學習和教育解決方案與產品。
尤其在教育領域,AI科技的探索與落地,不管是使用者規模和技術選型,作業幫都具有很好的代表性。這也為我們思考如何用人工智慧推動產業變革,也給出了重要的借鏡與參考。 T前線有幸邀請到了作業幫智慧技術實驗室首席架構師王岩先生為我們提供他對這些問題的見解。
教育產品的基座:題庫建立三板斧#########提起作業幫,大家可能印象深刻的還是強大的題庫功能。作業幫是全國最早建立題庫的教育科技公司之一,到目前已經擁有5.4億 的題庫體量。如此龐大的題庫是如何建構起來的?據王岩介紹,題庫建設的成功,得益於三個方面的條件。 ############首先,源自於作業幫的先天優勢:眾所周知,作業幫最開始是百度內部孵化的業務,最初定位於一個問答互助社區,後來推出搜尋答疑業務。為了優化搜尋答疑結果,作業幫透過組成全職教研和兼職老師團隊,搭建起了線上最大的題庫生產平台。這也是源自於百度知道的模式,在崇尚分享交流的社群氛圍中,鼓勵使用者互相解決問題,也非常貼近網友實際的問答與交流場景。而不是當時別家的做法:讓兼職大學生做題庫。這樣透過對使用者產出的內容進行深入的分析挖掘,我們就逐漸清楚了在學習的場景中,使用者到底最關注哪些問題,哪些是問題更難的、哪些問題是多數人都會遇到的。這是一個重要的前提,它明確了我們的建設方向。 ############第二,作業幫非常重視資源的價值與建設,對題庫夠重視。題庫不僅在使用者交流中作用巨大,在答疑和教學中也是非常重要的一環。憑藉著眾包的體系,將題庫的建設拆分成難度較小的獨立工藝環節,使得題庫較好較快,也相對比較全面的建立起來,這樣很好地保證了題庫建設的規模性。 ######第三,光有一道道題目還不夠,還需要將題目關聯起來,例如:所考察的知識點、難易度以及所依賴的其他知識點等標籤術語關聯起來。這就涉及標籤的加工,並與知識圖譜、知識樹等技術基礎設施關聯起來。這樣才能讓題庫具備可被高效檢索篩選的能力,讓題庫的價值得以真正發揮。當然,題庫本身建造過程中有很多環節一開始都使用人工操作,後來不斷引入了AI技術,比如題目拍照等大多數電子化錄入步驟,AI將這些圖像自動識別變成計算機可理解的格式化的數據和語言。透過自動打標籤、格式化公式、AI糾錯技術等AI能力來進行自動化輔助處理,準確率大幅提升,也大大降低了人力成本。由於題庫的建置以及對AI技術的不斷深入與擴大,作業幫透過落地一系列AI加速技術,把搜尋答疑的回應時間優化到1秒,而早期同類產品的反應時間都在8秒左右。
在對接公立學校的計畫中,題庫在輔助教學場景中扮演了很大的角色。一個亮點的場景就是具備個人化精準推題能力的高品質作業系統。此系統的本質是將基於不同的學生狀態,例如做題時長,不同知識點掌握程度進行資料分析進行個人化推題。因為對學生而言,太容易、太難都會讓題目失去價值。同樣一道題目對於不同的學生而言價值就會不同。所以需要對學生有充分的了解,結合題庫本身豐富的標籤維度,精準匹配,題庫在高品質作業產品設計中的輔助作用很大,有利於學生鞏固真正需要鞏固的知識。
作業場景方面,除了題庫,比較重要的就是自動輔助批改技術。相較於客觀題,主觀題的批改就難度很高。以數學的解答為例,利用多年累積的OCR技術對學生的作答內容進行精準的識別,在透過NLP技術進行結構化的分析,例如答題內容的邏輯分析,再根據答題規範識別錯誤點等;此外,也運用了知識圖譜的能力,不僅指出學生哪裡錯了,還可以告訴學生為什麼會錯,再配合使用者畫像和推薦演算法的能力產生學生專屬的學習報告,幫助學生找出學習過程中的薄弱點。同時,仰賴作業幫雲端原生、多雲容災的一套體系,為這套服務體系提供了高穩定性和高可靠性。因此這也保證了即便很多學校同時用,也不會產生宕機的情況,保證了用戶的穩定使用。
據王岩介紹,出於作業幫多年的大規模用戶體量的積累,他們會定期對作業系統進行性能評測,評測結果也處於行業領先的地位,相較於市面上同類的產品,目前作業幫也支援更多的題型,準確率也更高。
1、步驟級自動輔助批改
#知識的學習存在一個閉環:老師透過教學傳授知識,學生透過做練習題檢驗自己哪些知識點是學會的,哪些是不會的,不會的知識又需要不斷的學習與練習。在這個「講題→做題→判題→講題」的教學閉環中,老師反覆批改大量的作業成為了一大痛點,老師過去很難精準地去輔導每個學生。用AI來輔助批改,可以幫教師有效降低批改負擔,大幅減少不必要的時間和精力,同時讓更多的學生有效提升成績。
目前,作業產品系統有著很高的使用率,教師幾乎每天都在使用。而且,這套系統還可以融合老師的教學經驗和風格,並依照老師的不同需求做客製化。目前,主觀題、應用題可以做到基於步驟層級的批改。後期的改進,還是以繼續降低教師在批改作業中的人工佔比為主要方向。
2、圖形題的解答內有乾坤
相較於文字題而言,一般透過OCR、文字檢索等就能在題庫中辨識並配對出正確題目。然而,對於某一類題目比較特殊,那就是圖形題。例如考卷上常會有這樣的題目:求下列圖形的陰影面積,這時候需要提取的特徵就不只是文字了,還需要提取圖片的特徵。因為僅透過文字檢索,題庫背後的檢索系統可以搜到類似的題幹,但得到的結果中每題目的形狀都不一樣。這時候我們就需要對影像進行向量化特徵提取。數位化的向量表達,與大量題庫的特徵聚合起來,就形成了「文字 圖像」的特徵。尤其小學題目中的經常有許多圖像文字混合的題目,不光需要理解題幹文字,還需要理解框與框之間的結構化關係,包括“連線題”提取線條的特徵的起始位置,提取軌跡來進行判定。畫圖題也是這樣。
3、考卷還原:黑科技常根植於現實
在輔助教學場景下,作業幫也累積了許多OCR、語音、影像辨識、作業批改方面的技術專利。例如我們已經公開的人工智慧高效矯正扭曲影像專利,這是一個在非常剛需的場景中研究出來的。眾所周知,「錯誤問題重做」是教學場景下很重要的環節,學生家長與教師需要將試卷還原成未答題的狀態,但給試卷拍照後,經常會出現字跡不平整,試卷題目扭曲的情況,所以需要技術來解決排版矯正的問題。
我們透過採用深度神經網絡,將人的手寫筆跡進行識別並與試卷字體區分開,結合圖像增強的技術等,可以非常有效的還原試卷,目前這項技術已經在作業幫的App裡上線,並且已應用到印表機產品,可以將紙質的試卷還原到初始的狀態,從拍照到還原僅需幾秒鐘。放到以前的做法,一般是需要學生把題目手動抄一篇,再重新做。這可以說是一種功能強大的「黑科技」了。當然,這項技術不僅用於還原試卷,還可以用於網課提交作業之前,對拍照的作業進行矯正和美化,以還原成更好的排版狀態,一方面利於保存,另一方面也是可以提高內容的辨識精度。
4、知識圖譜:專家知識的聚集地
知識圖譜的建構離不開人類的經驗體系,教育場景也是如此。我們的知識圖譜能力更多的是在課程場景中累積起來的。大量的教研老師在教學研究過程中總結知識點的前後關係、依賴關係和學習路徑。這些關係和路徑可以將零散的知識點聯結成網狀,這樣就有了知識圖譜的雛形。教研老師提供了豐富的專家經驗和知識點體系,研發部門在這個過程中採用一系列自動化的AI機器學習能力來進行大範圍的落地。有了圖譜以後,我們就可以做出下一步個人化作業設計,例如推薦與能力相當甚至有一定挑戰的題目,去學習更深層的知識點。目前知識圖譜在作業幫的應用場景十分廣泛:教學場景、作業批改、個別化學習、作業診斷、包括剛才介紹的題庫中有關題目的關聯,本質是讓題目有了更精準的維度去做檢索和推薦。
在過去教學場景中,一方面紙本的書、教師的書本、PPT等都沒有做到數位化,另一方面,學生的作答內容,包括答題的正確與否、作業和考試成績等也需要做數位化。為什麼要做數位化?因為如果沒有把自然物理世界的內容轉化成為計算機可以理解的數據信息,我們在計算機領域相關的先進技術研究不僅無法落地,甚至僅僅是提高效率的技術,比如檢索和推薦等,都會無用武之地。因此,不管說語音或圖像,都是傳遞教學思想與知識的重要媒介與載體,這些都需要做深度的數位化。
近年來,隨著教育資訊化的不斷推進,大部分的教室配備上了數位化大屏,日常上課所用的教學課件已經完成了數位化,而我們現在做的就是要推進作業場景完成數位化。但值得注意的是,現階段使用AI的能力,要尊重教師和學生的原來習慣,不宜輕易改變。例如原有的教學模式,大家都習慣了紙質試卷,如果你取消紙質試卷,全都搬到線上,就會出現「水土不服」的嚴重問題。雖然要求網路答題也可以數位化,但這就改變了習慣。而一改變習慣,就很難大規模使用。
基於此,出於尊重教師批捲和學生作答的真實習慣,作業幫創新了業務思路:在作業系統中引進了「原卷留痕」這個功能。所以,在王岩看來,我們更需要的是進行思路上的創新,去降低科技的使用門檻,以不改變習慣的情況下進行數位化。
從作業場景放大到教育場景,就會發現許多新場景下的新的需求。例如體育場景:體育老師在上課期間非常注重每位學生可以承受的運動強度,例如心率的監控。當學生在運動時心跳過高了,就應該提醒學生停下來休息。再例如“跳繩計數”,我們不用計數器,而是讓攝影機去自動識別和計數會更加便捷。另外,肢體動作類的捕捉也是一個實用的技術,來幫助學生查看動作是否標準和規範,這些AI都可以做輔助糾正。
1、如何為AI尋找落地機會
#作業幫是一家科技驅動的公司。開發團隊常會問這樣的問題:還有哪些技術可以有用武之地?有沒有好的技術可以讓過去沒有滿足的需求現在可以滿足、原來不可完成的現在可以完成?基於此,如何為AI尋找落地機會,王岩總結了背後的邏輯:我們應清楚自己掌握了哪些技術,擁有哪些資源,然後再考慮如何把合適的技術應用到具體場景上。基於已有的技術資源,做場景配對。下一步就是思考和權衡技術能做到什麼程度,然後去做試點和優化。
2、B端精準度要求更嚴苛
作業場景下,相較於C端場景, B端客戶的需求較為特殊,有客製化的要求。例如學校在準確率方面的要求會更高,像批改的環節,更不能出錯。而C端產品更多的是突顯功能的豐富度、使用體驗,對精準度的預期並沒有那麼極致。
1、基礎研究是底座,尖端科技更香
#基礎研究是我們的技術底座,這些技術已經有相當的廣泛的應用場景,對基礎技術的優化,會帶來相當大規模的應用性能的提升,所以對基礎研究的投入,是必不可少的。而尖端技術的研究,帶來的則可能是玩法的變化,隨著技術不斷發展創新,原來不能做的也許突然某一天就可以實現了,鼓勵實驗室的同學分配20%到30%的精力去關注和跟進。對於候選人能力方面,希望具備一定的學術研究能力的同時,也會看重工程化能力。更強的工程化能力就意味著更強的落地能力,而要真正把AI技術推動落地,就需要不斷在應用層面上紮實。當然,理想情況下希望人才具備全端的能力,可以獨立完成實驗設計和應用落地,去快速驗證某些創新點在實際應用中帶來的提升效果。
2、模型不能單純追求大,惠及也要廣
教育領域與一般產業的實務與發展經驗,跟通用的技術還是有一定差別的。 AI現在已經應用到各行各業中,但細分到教育場景,基於通用場景的模型多數不能「普惠」到具體的場景。王岩為我們舉了一個形象的例子,例如手寫輸入法中的手寫字識別,演算法模型有一個假定前提:成年人書寫的字跡。但作業場景中,不同年齡的學生寫的字是不一樣,工整度,整潔度沒有那麼大的要求 。所以對於教育領域來說,AI需要基於具體的場景進行細化,需要下沉到具體場景裡去沉澱,去解決掉通用領域不太好的地方,探索並發現新的業務需求,在解決實際問題的過程中去推動相關技術的發展。
被廣泛使用的,必是大眾可承擔的。 「大模型取得了公認的性能提升,但距離用戶的廣泛使用還是有很遠的距離。」在王岩看來,大模型、多模態的研究確實可以帶來的精度上提升,但往往一個任務的準確率的提升,例如從95提升到96,這一點提升的背後是以巨大的算力犧牲為代價的。現在千億、萬億級參數規模的大模型,都需要非常龐大的集群去支撐和運行,這對於實際場景,如果沒有龐大算力集群去使用,原本一秒內就可以跑出結果的大模型,可能需要相當漫長的運行時間。雖然叢集硬體的效能不斷提升,對應的單位算力成本不斷降低,但能被廣泛應用的技術一定是成本低廉的、可負擔的。把精力全放在算力的追求上某種程度上看,有些捨本逐末。 AI的廣泛落地,更在於思路上的創新,在於追求科技本身的性價比。
如何將科技惠及到成千上萬的用戶,如何將噱頭一樣的功能在實際生活中廣泛使用到,是一個關鍵的問題。我們目前用戶量非常龐大,每秒鐘都有非常多的用戶在使用,所以如果用「堆算力」的方式去做,成本將是難以想像的。目前在可負擔的情況下 ,我們要做的是為用戶提供盡可能豐富的功能和服務。一方面,我們思考如何將算力的使用率提高,讓設備不閒著,另一方面,我們去探索如何在模型和工程架構做改進和優化,用最合理的成本去提供每秒數萬次等級的大型AI服務。更重要的是,如何進行思路創新。只有從解決問題的思維上進行創新,讓更多的人用戶去實際觸摸和感受科技帶來的便利,才能釋放出更大的價值。
王岩,作業幫首席架構師,作業幫智慧科技實驗室負責人。曾任百度知道、百度百科技術負責人,目前擔任作業幫智慧技術實驗室負責人,專注於人工智慧、影像技術、大規模高並發線上架構等技術領域的相關研究及落地應用,主要負責作業幫搜尋答疑、AI批改、題庫等相關業務。
以上是T 前線 | 專訪作業幫首席AI架構師王岩:AI的普惠性在於思路創新的詳細內容。更多資訊請關注PHP中文網其他相關文章!