序言
在ChatGPT的成功推動下,人工智慧(artificial intelligence,AI)技術的主要研究焦點已從電腦視覺逐漸轉向自然語言處理(natural language processing,NLP)。這使得原本相對邊緣的自然語言處理技術逐漸走向了舞臺中心。儘管自然語言處理的研究者相較於電腦視覺(computer vision,CV)領域來說少,但經過幾十年的發展,其累積的技術成果也十分豐富。以 ChatGPT及其背後的GP(Generative Pretrained Transformer)模型為代表的大型語言模型(LLM)技術的成功,不是一夜之間的突變,而是基於多年技術累積取得的一次重大突破。
但是,並非所有的自然語言處理技術都被大型語言模型的開發所採用。一些技術路線已被放棄,一些雖然獲得了發展,但已被更優秀的技術所取代。在大型語言模型技術的後續發展中,這些被拋棄或替代的技術仍有可能被重新研究和改進。本書旨在是讓讀者了解主流大型語言模型所採用的技術,而非去開發新的大型語言模型。因此,我們主要介紹了 GPT 系列及開放原始碼 Llama 2 模型所採用的技術,對其他技術並未進行探討,例如知名的詞嵌入(word embeddings)技術 Word2Vec。
現在的大型語言模型基本上都是基於Transformer架構。相較於標準的編碼器 - 解碼器(Encoder-Decoder)結構,如今的GPT系列產品及Llama 1、Llama 2都採用了單解碼器結構。本書以Transformer模型架構為基礎,特別注意了純解碼器技術方向,並對相關技術進行了詳細的闡述。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。