一篇200字不到的作文,機(jī)器人用幾十秒時(shí)間找出了8處語(yǔ)法和用詞錯(cuò)誤。最近,在浙江外國(guó)語(yǔ)學(xué)院國(guó)際學(xué)院,來(lái)自俄羅斯、韓國(guó)、贊比亞等6個(gè)國(guó)家的11位外國(guó)留學(xué)生完成了一份特別的中文試卷,他們成為了全球首批用人工智能(AI)來(lái)閱卷的學(xué)生。
在考試前,老師布置了一道名為“請(qǐng)寫(xiě)一寫(xiě)你的愛(ài)好”的命題作文。半個(gè)小時(shí)后,同學(xué)們陸續(xù)交卷。接下來(lái)這個(gè)閱卷機(jī)器人開(kāi)始工作。
先將試卷掃描,在后臺(tái)圖像被轉(zhuǎn)化成文字出現(xiàn)在電腦上,幾十秒之后,迅速在一篇200字不到的作文里圈出了8個(gè)錯(cuò)誤。
這篇作文是這樣寫(xiě)的:我的愛(ài)好是學(xué)中文,中文使我快樂(lè)。但中文的難點(diǎn)并非是字,而且像女朋友一樣善變。比如,我到中國(guó)才知道了大姨媽不是人。而且,有一次我問(wèn)舍友去吃飯不去,他說(shuō):我去,我才不去。我的內(nèi)心是崩潰的。我問(wèn)他“你這是什么意思?”他說(shuō):“沒(méi)什么意思,意思意思?!蔽沂艿搅松系鄣帽簟H欢?,我的不會(huì)放棄的。除非中國(guó)人也放棄我才會(huì)放棄。聽(tīng)說(shuō)這次的試卷是AI老師看的,如果他們會(huì)教給外國(guó)人學(xué)習(xí)中文是很好的消息。
在這份試卷上,阿里AI用代表不同意義的符號(hào)在試卷上,圈出多詞(Redundant)、缺詞(Missing)、錯(cuò)詞(Selection)和詞序錯(cuò)誤(Word Order)等錯(cuò)誤位置,完成了對(duì)作文的批改。
比如AI認(rèn)為,“但中文的難點(diǎn)并非是字,而且像女朋友一樣善變”這句話里有兩個(gè)錯(cuò)誤:“是”多用了,“而且”是錯(cuò)詞。
浙江外國(guó)語(yǔ)學(xué)院外語(yǔ)系李老師說(shuō):“我們希望科技能夠幫助外國(guó)留學(xué)生們理解中文。前兩天正好在報(bào)紙上看到,iDST人工智能在中文語(yǔ)法錯(cuò)誤自動(dòng)診斷大賽上奪得冠軍,我們就試著邀請(qǐng)這個(gè)‘AI老師’幫助外國(guó)留學(xué)生學(xué)中文。沒(méi)想到得到了回應(yīng)。”
工程師透露,這款A(yù)I學(xué)習(xí)了幾十萬(wàn)的中文語(yǔ)言體系,通過(guò)掃描儀讀取試卷信息,使用OCR技術(shù)將其轉(zhuǎn)換成文本,之后啟動(dòng)自然語(yǔ)言處理算法進(jìn)行分析,并識(shí)別出錯(cuò)位類型和位置,最后批注在試卷上。整個(gè)過(guò)程大概只需約5秒。從目前的測(cè)試情況來(lái)看,“AI老師”在準(zhǔn)確率和細(xì)致程度都是接近甚至超乎人類的水平。
事實(shí)上,把AI應(yīng)用到外國(guó)人學(xué)中文試卷批改上,是全球首例。11月24日,iDST在中文語(yǔ)法錯(cuò)誤自動(dòng)診斷大賽(Chinese Grammatical Error Diagnosis,以下簡(jiǎn)稱 CGED)三個(gè)level中全面奪得冠軍。
CGED是自然語(yǔ)言處理領(lǐng)域的權(quán)威賽事。比賽的背景是:學(xué)習(xí)中文的外國(guó)人數(shù)不斷增加,由于中文的博大精深,外國(guó)友人在中文寫(xiě)作中會(huì)出現(xiàn)各種錯(cuò)誤。主辦方挑選了一些外國(guó)友人寫(xiě)的中文作文片段,希望參賽者用人工智能算法自動(dòng)識(shí)別里面的語(yǔ)法語(yǔ)義錯(cuò)誤。
iDST自然語(yǔ)言處理首席科學(xué)家司羅說(shuō),中文語(yǔ)法診斷的挑戰(zhàn)性在于,中文語(yǔ)言知識(shí)豐富、語(yǔ)法多樣;人在判斷一句話是否有錯(cuò)誤的時(shí)候,會(huì)用到長(zhǎng)期積累的知識(shí)體系(比如一句話是否通順、兩個(gè)詞是否可以搭配、語(yǔ)義上是否成立等)。相比之下,比賽提供的訓(xùn)練數(shù)據(jù)非常有限,僅通過(guò)訓(xùn)練數(shù)據(jù)來(lái)識(shí)別錯(cuò)誤是很困難的。