隨著科技的進步,一個長期存在的問題是它將如何改變或取代人類傳統的工作。從超市的自助結帳到AI在醫學掃描中檢測嚴重疾病的能力,所有領域的工作者都發現自己正在與可以完成他們工作部分的工具一起工作。由於疫情加速了AI工具在課堂上的普及,且這種趨勢並未放緩,教學已成為另一個與AI等工具共享專業工作的領域。
我們對人工智慧在教學中的特定應用產生了濃厚的興趣,那就是評估學生的學習成果。評分和給學生作業回饋往往耗費教師大量的時間,這使得許多教師無法佈置更重要的寫作任務,同時學生也常常需要等待很長時間才能得到成績和回饋。在這種情況下,如果AI能幫助評估學生的作業,無疑能大幅節省時間,提高學習效率。但是,我們也在思考一個問題,那就是AI打分和回饋系統是否真的能像真正的教師一樣有效地幫助學生呢?
教師會問:"你想表達什麼?我不太理解。AI的主要任務是解決寫作過程和格式方面已經出現的問題,而不是努力理解學生真正意圖的含義。
我們最近做了一項AI平台的評估,這個平台讓中學生可以撰寫、提交和修改回應設定作文題的文章。每當學生提交文章時,他們都會立即獲得AI根據他們的掌握程度(1-4分)在四個寫作領域(論點和重點,支持和證據,組織結構,語言和風格)給出的得分和建議,幫助他們改進文章。
#為了比較AI評分和回饋與實際教師的評分和回饋,我們邀請了16位在2021-2022學年使用過這個平台的中學寫作老師進行一次面對面會議。在確保他們對評分標準有準確理解和運用後,我們讓每位教師評估10篇非他們學生的隨機文章,並給予回饋。這樣,我們得到了160篇由教師評估的文章,以便我們與AI的評分和回饋進行比較。
平均而言,我們發現教師給文章的分數比人工智慧低。無論在哪個方面,教師和AI之間都存在顯著差異,除了在主張和焦點方面。總體來看,在四個維度(最低4分,最高16分)的總分方面,教師對這160篇文章的平均分數是7.6,而AI對同一組文章的平均分數是8.8。具體來說,在主張和焦點以及支持和證據方面,教師和AI傾向於對高分(4分)和低分(1分)的文章達成一致,但在中間分數上存在差異。教師更有可能給文章2分,而AI更有可能給文章3分。另一方面,在組織和語言風格方面,教師更有可能給文章1分或2分,而AI的評分分佈在1到4之間,有更多的文章得到3分甚至4分。
在我們與16位教師的會議中,我們給他們機會討論他們在10篇文章上給出的分數和回饋。在具體談論這些文章之前,我們聽到了一個常見的觀察:去年當他們在課堂上使用這個評分程序時,大多數學生需要幫助來理解和解釋AI給出的評論。舉個例子,很多時候,學生們讀到一條評論卻不知道該如何改進自己的寫作。因此,根據老師們的說法,一個明顯的改變是現在他們能夠用更適合學生理解能力水平的語言來表達評論。
#"在我們的討論中,我們反思了AI在評論和反饋方面的友好程度。現在的孩子習慣了直接而真實的回饋。他們並不總是需要安撫自尊,而是希望解決問題。所以,並不總是需要誇誇其談,而是需要直截了當"。
另一個我們發現的差異是教師們更注重整篇文章的品質——流暢性、語調、是否只是簡單總結還是建立了論點,證據是否與論點相符,以及整體是否連貫。教師們解釋說,他們在關注主張和焦點以及支持和證據這兩個方面時更傾向於給文章打2分,這是因為他們能夠看到整篇文章——而這是許多AI無法真正做到的,因為許多AI是在句子級別上進行訓練,而不是針對整篇文章提供訓練。
教師對組織結構進行更嚴格的評估是因為他們與AI有所不同,他們可以理解整篇文章的順序和流程。舉個例子,教師們分享說,AI可能會找到過渡詞或建議學生使用更多過渡詞,並將其作為良好結構的論證,但教師可以看到過渡是否真正流暢,或者只是被插入到一組無關聯的句子中。在語言和風格方面,教師們再次指出了AI更容易受到擾亂的問題,例如透過使用看似複雜的詞彙——這可能會給AI留下深刻印象,但教師們會看出那隻是一串不能構成句子或表達思想的詞語。
評估學生作業在教學中是非常重要且耗時的一部分,特別是當學生在學習寫作時。學生需要經常練習和及時回饋,以成為自信和熟練的作家。然而,大多數教師缺乏規劃和評分的時間,而且他們要教的學生太多,以至於無法安排常規或長篇寫作任務,還要在自己的職業生涯中保持工作和生活的平衡。
AI在減輕教師負擔方面非常重要。儘管我們初步研究發現教師和AI在評估方面有些差異,但我們相信,如果AI系統能像教師一樣全面地看待學生的文章,並以適應學生成長和具體情境的方式給出反饋,讓學生能夠獨立應對這些意見,那麼AI確實有助於教師評分。我們認為改進AI在這些方面非常有價值,不僅可以減輕教師的評分負擔,還可以確保學生有更多寫作機會,並及時獲得有益的回饋,提升他們作為作家的發展。
以上是學生作文評分的新趨勢:教師與AI的合作模式的詳細內容。更多資訊請關注PHP中文網其他相關文章!