對失傳已久的語言進行破譯,一直是考古學家和語言學家關注的焦點和難點。隨著大型注釋庫的應用以及機器學習技術的發展,人們開始思考,機器能否幫助破譯失傳已久的語言。近日,美國麻省理工學院的羅家明和雷吉娜·巴茲雷以及加州山景城谷歌人工智能實驗室的曹元團隊發明了能夠破譯失傳語言的機器學習系統,并用它破譯了線形文字B。
1886年,英國考古學家阿瑟·埃文斯在地中海的克里特島發現了刻著奇特未知語言銘文的古老石頭。而石頭上所刻的正是線形文字A和線形文字B。
線形文字A可追溯到公元前1800年至1400年間,當時該島被青銅時代的米諾斯文明統治。線形文字B在公元前1400年后出現,當時該島被來自希臘大陸的邁錫尼人征服。多年來,考古學家一直試圖破譯這些古老的文字,但都失敗了。直到1953年,業余語言學家邁克爾·文特里斯破譯了線形文字B。
但破譯更古老的線形文字A至今仍是語言學中令人矚目的難題。
羅家明等人發明的破譯失傳語言的機器學習系統,通過破譯線形文字B證實了這一系統的有效性——這是首次機器完成自動破譯,其實現方式與機器翻譯技術不同。
機器在不知其意的情況下,是如何實現翻譯的呢?
無論機器翻譯哪種語言,原理都是從目的語中尋找與源語詞匯相對應的單詞,因而首先要將特定語言的對應關系映射出來。這一過程需要龐大的文本數據庫。機器通過搜索該文本庫,得出每個單詞和每個與它相鄰單詞出現的頻率。每個單詞可以看做多維參數空間中的一個向量,該向量作為約束條件,限制了對應單詞出現在機器翻譯中的形式,并且這些向量會遵循一些簡單的數學法則。
機器翻譯的關鍵是,不同語言中的單詞在各自參數空間內占據著相同的“點”。這使得從一種語言一對一映射到另一種語言成為可能。因此,翻譯句子的過程變成了在這些空間中尋找相似軌跡的過程。機器甚至無需“知道”這些句子的含義。
羅家明等人研發的機器學習系統,其約束條件與語言發展方式息息相關。該原理是任何語言只能以特定的方式改變——比如,對應語言中的符號以相似的分布出現,對應單詞以相同的字符順序排列,以此類推。有了這些規則約束機器,只要知道源語言,就可以輕松破譯。
為了更好地測試該技術,羅家明等人使用了兩種消失的語言——線形文字B和烏加里特語。線形文字B記錄了古希臘的早期形式,而發現于1929年的烏加里特語則是希伯來語的早期形式。
試驗證明,羅家明等人研究的機器學習系統能非常準確地翻譯這兩種語言。“在破譯過程中,我們能準確地將67.3%的線形文字B的同源詞翻譯成對應的希臘語。”他們說,“我們的實驗是機器自動破譯線形文字B的首次嘗試。”
然而他們卻沒有提到線形文字A的破譯,眾多語言學家都認為線形文字A的研究意義重大。所以,在機器能夠破譯線形文字A之前,仍需取得重大的研究突破。
雖然沒有源語,新技術也行不通,但機器翻譯的最大優點是,它可以不知疲倦地快速檢測一種又一種語言。因此,羅家明和他的團隊很可能會使用粗略近似法破譯線形文字A,試圖把它破譯成機器翻譯已在使用的每種語言。
(田小雨)
《中國科學報》 (2019-07-18 第7版 信息技術)