前 言
現在還記得當年剛畢業踏入工作的情景-- 專業知識幾乎一張白紙的我,
學習欲望非常強烈,工作之餘就是看各種書籍,翻閱各種論文,一開始
是在部落格上記筆記,後來轉到印象筆記來記錄。這些筆記都是我成長
的見證,也是我個人的一些歸納和思考,但卻總是零零散散的,所以想
整理成正式一點的文件,方便查閱。這些知識(去除掉不可公開的內容
後)在大家平常的學習和工作中都會用到,整理成文件也可以作為別人的一種參考資料;我也希望除了必不可少的公式外,以更口語化的方式表達,拋棄繁瑣的證明,觸及演算法的核心,盡可能達到深入淺出。當我把文件整理完成後就放到網上,竟然收到網友的一致好評,算是意外的收穫,也令我非常高興。於是,我就加強增補一些內容寫成這本書。站在更高層面來說,自然語言處理還處在初級階段,離人了解語言還是相差好遠,希望本書能喚起更多人的興趣,共同加強自然語言處理技術的功力。
本書的適合讀者群包含電腦相關的學習者、從事機器學習或自然語言處
理的工作人員,當然,我希望更多的人來翻閱,大致了解文字技術的輪
廓並從中受益。
本書主要分兩大部分:理論篇和應用篇。第一部分是理論篇,包含前3
章。第1章和第2章是為第3章打基礎,其中第1章介紹的是一些基礎
的數學知識,第2章介紹最佳化理論知識,第3章實際介紹一些機器學
習的相關知識。
第二部分是應用篇,包含第4章到第8章。第4章介紹計算效能,算是更偏工程的唯一章節;第5章介紹文字處理時的一些基本術語,其中相似度計算的內容非常重要;第6章介紹一個工業搜尋引擎需要哪些技術點;第7章說明的是推薦系統的基礎知識;第8章介紹了解語言的難
點,包含兩大基礎知識--自然語言處理和對話系統,當然也討論到對人工智慧一些看法。
非常感謝我的父母和家人的支援,讓我進入一個蓬勃發展的互聯網企
業,有幸見證這個企業的發展,貢獻一份綿薄之力。感謝我的老闆、同
事和朋友們,和他們的交流對我有很大的啟發和幫助。感謝出版社的編
輯對本書的認真修改。最後,感謝在工作和生活中幫助過我的所有人,謝謝你們!
雖然花了一些時間和精力去核對書中內容,但因為時間倉促,本人水準有限,難免會有一些錯誤和紕漏。如果讀者發現問題,懇請不吝指出,相關資訊可回饋到我的電子郵件
yanxionglu@gmail.com。