我們進入了大數據時代(big data era),我國的中文信息處理有了長足的進步,除了傳統的基於規則的中文信息處理之外,在基於統計的中文信息處理、基於神經網絡的中文信息處理以及知識圖譜等方面也取得了顯著的成績。我國的中文信息處理成為了全世界自然語言處理(Natural Language Processing,NLP)的不可分割的組成部分,在全世界自然語言處理的頂級會議中,我國學者都是積極的參與者或會議的組織者。作為《中文信息處理與漢語研究》的姐妹篇,《大數據時代的自然語言處理》結合中文信息處理的實踐,分為四個章節,除了第一章的概述之外,後面三個章節分別介紹了大數據時代的統計機器翻譯、神經網絡模型和神經機器翻譯、知識圖譜等內容。最近,我國正在現有傳統文科的基礎上,進行學科中專業課程的重組,建設文文交叉、文理交叉的“新文科”。中文信息處理把現代信息技術融入到語言學中,是文理交叉的新文科建設的最佳範例,希望本書的出版,能為我國新文科的建設助一臂之力。
針對漢語,本書提出了意合圖語義表示的方案。意合圖可以描述漢語的事件結構和實體結構。其中,事件結構是考察重點,定義了事件的構成要素,包括核心論元、邊緣論元和情態信息等。意合圖可以將句子、段落、篇章等不同層級的語言處理對象進行一致性的形式化描述。基於網格的語言結構分析框架(Grid based Language Structure Parsing Frame Work,GPF),本書採取了構造意合圖的中間結構策略,即從語法的組塊依存結構轉換為語義的意合圖。如何構造意合圖一些典型子任務,本書對此給出了 GPF 實現示例。本書適合自然語言處理、計算語言學,以及與語言學本體研究有關專業的學生當作教材,也可以作為高等院校人工智能、信息科學研究、大數據分析等相關專業的參考書,還適合對漢語句法語義分析與應用感興趣的人員閱讀。