| 第 0 章 本書執行環境設定 | 71 |
| 0.1 前言 | 71 |
| 0.2 為什麼選擇這個環境? | 72 |
| 0.3 環境需求 | 72 |
| 0.4 安裝步驟 | 72 |
| 0.5 常見問題排解 | 82 |
| 0.6 本書程式碼結構 | 84 |
| 0.7 執行建議 | 84 |
| 0.8 開始學習 | 85 |
| 第 1 章 複雜動力學第一定律 | 87 |
| 1.1 為什麼這篇文章重要? | 87 |
| 1.2 從一杯咖啡說起 | 88 |
| 1.3 熵與複雜度:兩個不同的概念 | 90 |
| 1.4 Kolmogorov 複雜度:用程式長度衡量複雜性 | 92 |
| 1.5 精密度:捕捉「有意義的」複雜性 | 94 |
| 1.6 細胞自動機:複雜性的實驗室 | 95 |
| 1.7 程式碼解析:PyTorch 實作 | 97 |
| 1.8 與深度學習的深層關聯 | 102 |
| 1.9 實驗:親手驗證 | 104 |
| 1.10 思考題 | 105 |
| 1.11 本章小結 | 105 |
| 第 2 章 循環神經網路的不合理有效性 | 109 |
| 2.1 為什麼這篇文章重要? | 110 |
| 2.2 從一個簡單的問題開始 | 110 |
| 2.3 循環神經網路(RNN)的核心思想 | 111 |
| 2.4 展開的 RNN:理解時間維度 | 113 |
| 2.5 字元級語言模型 | 113 |
| 2.6 反向傳播穿越時間(BPTT) | 115 |
| 2.7 梯度問題與解決方案 | 116 |
| 2.8 從隨機到莎士比亞 | 117 |
| 2.9 其他驚人的應用 | 119 |
| 2.10 採樣策略:溫度參數 | 120 |
| 2.11 程式碼解析:關鍵實作細節 | 121 |
| 2.12 與現代語言模型的關係 | 123 |
| 2.13 實驗:親手訓練一個字元級 RNN | 124 |
| 2.14 思考題 | 126 |
| 2.15 本章小結 | 127 |
| 第 3 章 理解 LSTM 網路 | 129 |
| 3.1 為什麼需要 LSTM? | 129 |
| 3.2 梯度消失問題 | 130 |
| 3.3 LSTM 的解決方案:門控機制 | 131 |
| 3.4 LSTM 的數學公式 | 133 |
| 3.5 為什麼 LSTM 能解決梯度消失? | 135 |
| 3.6 用例子理解 LSTM | 137 |
| 3.7 LSTM vs Vanilla RNN:梯度流動對比 | 138 |
| 3.8 程式碼解析:LSTM Cell 實作 | 139 |
| 3.9 門的視覺化解讀 | 142 |
| 3.10 LSTM 的反向傳播 | 143 |
| 3.11 LSTM 的變體 | 146 |
| 3.11 實際應用 | 147 |
| 3.12 LSTM 的局限性與 Transformer | 147 |
| 3.13 思考題 | 148 |
| 3.14 本章小結 | 148 |
| 第 4 章 循環神經網路的正規化 | 151 |
| 4.1 引言:RNN 的過擬合問題 | 152 |
| 4.2 問題:天真地將 Dropout 應用於RNN 不管用! | 153 |
| 4.3 Zaremba 等人的解決方案 | 154 |
| 4.4 變分 Dropout(Variational Dropout) | 156 |
| 4.5 進階技術:其他 RNN 正規化方法 | 158 |
| 4.6 深入理解:為什麼位置很重要? | 159 |
| 4.7 實驗結果 | 162 |
| 4.8 PyTorch 實作要點 | 164 |
| 4.9 完整實作:帶 Dropout 的 LSTM 語言模型 | 166 |
| 4.10 實驗分析與視覺化 | 173 |
| 4.11 常見問題與解決方案 | 175 |
| 4.12 與後續研究的關係 | 176 |
| 4.13 思考題 | 178 |
| 4.14 總結 | 179 |
| 第 5 章 透過最小化描述長度保持神經網路簡單 | 183 |
| 5.1 引言:為什麼簡單的模型更好? | 184 |
| 5.2 最小描述長度(MDL)原則 | 185 |
| 5.3 網路剪枝(Network Pruning) | 186 |
| 5.4 漸進式剪枝(Iterative Pruning) | 188 |
| 5.5 結構化剪枝vs 非結構化剪枝 | 190 |
| 5.6 與 L1 正規化的關係 | 192 |
| 5.7 彩票假說(Lottery Ticket Hypothesis) | 194 |
| 5.8 現代剪枝技術 | 195 |
| 5.9 PyTorch 實作要點 | 196 |
| 5.10 完整實作:PyTorch 剪枝流程 | 198 |
| 5.11 實際應用案例 | 203 |
| 5.12 思考題 | 207 |
| 5.13 總結 | 208 |
| 第 6 章 指標網路(Pointer Networks) | 211 |
| 6.1 引言 | 212 |
| 6.2 問題定義 | 213 |
| 6.3 模型架構 | 214 |
| 6.4 數學推導 | 216 |
| 6.5 實作細節 | 218 |
| 6.6 訓練策略 | 221 |
| 6.7 應用:凸包問題 | 223 |
| 6.8 應用:旅行推銷員問題 | 225 |
| 6.9 應用:排序任務 | 228 |
| 6.10 進階技術 | 229 |
| 6.11 實驗結果分析 | 232 |
| 6.12 與後續研究的關係 | 234 |
| 6.13 視覺化與解釋 | 235 |
| 6.14 常見問題與解決方案 | 237 |
| 6.15 完整實作範例 | 238 |
| 6.16 思考題 | 240 |
| 6.17 延伸閱讀 | 241 |
| 6.18 本章小結 | 241 |
| 第 7 章 AlexNet 深度學習革命的起點 | 243 |
| 7.1 引言 | 244 |
| 7.2 ImageNet 挑戰賽 | 245 |
| 7.3 AlexNet 架構 | 246 |
| 7.4 關鍵創新技術 | 248 |
| 7.5 資料增強 | 251 |
| 7.6 訓練細節 | 253 |
| 7.7 PyTorch 實作 | 255 |
| 7.8 視覺化分析 | 258 |
| 7.9 實驗與結果分析 | 261 |
| 7.10 資料增強實作 | 262 |
| 7.11 與後續網路的比較 | 264 |
| 7.12 現代視角 | 265 |
| 7.13 常見問題與解決方案 | 266 |
| 7.14 思考題 | 268 |
| 7.15 延伸閱讀 | 268 |
| 7.16 本章小結 | 269 |
| 第 8 章 順序很重要 序列對序列(Sequence-to-Sequence)處理集合 | 271 |
| 8.1 引言 | 272 |
| 8.2 排列不變性 | 273 |
| 8.3 讀取 - 處理 - 寫入架構 | 275 |
| 8.4 輸出順序問題 | 277 |
| 8.5 應用場景 | 279 |
| 8.6 注意力機制詳解 | 280 |
| 8.7 與 DeepSets 的關係 | 282 |
| 8.8 完整模型實作 | 284 |
| 8.9 實驗結果 | 287 |
| 8.10 與其他論文的關聯 | 288 |
| 8.11 進階技術 | 289 |
| 8.12 常見問題與解決方案 | 291 |
| 8.13 思考題 | 292 |
| 8.14 延伸閱讀 | 293 |
| 8.15 本章小結 | 293 |
| 第 9 章 GPipe 使用管線平行化高效訓練巨型神經網路 | 295 |
| 9.1 論文背景與動機 | 295 |
| 9.2 管線平行化的核心概念 | 297 |
| 9.3 微批次策略 | 298 |
| 9.4 梯度累積 | 300 |
| 9.5 重新實體化技術 | 301 |
| 9.6 實作細節 | 302 |
| 9.7 與資料平行化的比較 | 304 |
| 9.8 氣泡時間的視覺化 | 306 |
| 9.9 記憶體與計算的權衡 | 307 |
| 9.10 進階排程策略 | 308 |
| 9.11 實際應用與成果 | 308 |
| 9.12 PyTorch 實作要點 | 309 |
| 9.13 最佳化建議 | 310 |
| 9.14 現代擴展技術 | 311 |
| 9.15 相關論文連結 | 312 |
| 9.16 總結 | 312 |
| 9.17 數學推導補充 | 313 |
| 9.18 常見問題與解決方案 | 315 |
| 9.19 程式碼範例:完整訓練迴圈 | 316 |
| 9.20 效能基準參考 | 318 |
| 第 10 章 ResNet 深度殘差學習 | 321 |
| 10.1 引言 | 321 |
| 10.2 論文資訊 | 322 |
| 10.3 退化問題的本質 | 322 |
| 10.4 殘差學習的核心思想 | 324 |
| 10.5 殘差區塊的設計 | 325 |
| 10.6 跳躍連接的數學分析 | 328 |
| 10.7 ResNet 架構變體 | 329 |
| 10.8 批次正規化的角色 | 331 |
| 10.9 實作細節 | 332 |
| 10.10 PyTorch 完整實作 | 333 |
| 10.11 梯度流動實驗 | 338 |
| 10.12 視覺化分析 | 338 |
| 10.13 ResNet 的影響與變體 | 339 |
| 10.14 訓練技巧 | 340 |
| 10.15 消融實驗 | 341 |
| 10.16 與其他架構的比較 | 341 |
| 10.17 實際應用建議 | 342 |
| 10.18 數學補充 | 343 |
| 10.19 常見問題 | 344 |
| 10.20 總結 | 344 |
| 第 11 章 膨脹卷積 多尺度上下文聚合 | 347 |
| 11.1 引言 | 347 |
| 11.2 論文資訊 | 348 |
| 11.3 密集預測的挑戰 | 348 |
| 11.4 膨脹卷積的核心思想 | 350 |
| 11.5 多尺度上下文聚合 | 353 |
| 11.6 數學分析 | 354 |
| 11.7 PyTorch 實作 | 356 |
| 11.8 完整分割網路 | 359 |
| 11.9 一維膨脹卷積 | 360 |
| 11.10 感受野視覺化 | 362 |
| 11.11 網格效應問題 | 363 |
| 11.12 與其他技術的結合 | 364 |
| 11.13 應用場景 | 365 |
| 11.14 效能比較 | 366 |
| 11.15 實作細節 | 368 |
| 11.16 常見問題 | 369 |
| 11.17 延伸閱讀 | 370 |
| 11.18 總結 | 370 |
| 第 12 章 訊息傳遞神經網路圖神經網路的統一框架 | 373 |
| 12.1 論文資訊 | 373 |
| 12.2 歷史背景與重要性 | 374 |
| 12.3 核心思想 | 374 |
| 12.4 數學框架 | 376 |
| 12.5 統一現有方法 | 378 |
| 12.6 實作細節 | 379 |
| 12.7 與 GCN 的比較 | 381 |
| 12.8 應用:量子化學性質預測 | 382 |
| 12.9 過度平滑問題 | 383 |
| 12.10 表達能力分析 | 384 |
| 12.11 圖級別讀出 | 385 |
| 12.12 現代發展 | 386 |
| 12.13 實際應用 | 387 |
| 12.14 程式碼實作重點 | 388 |
| 12.15 關鍵公式總結 | 389 |
| 12.16 總結 | 390 |
| 12.17 進階主題:批次處理與效率 | 391 |
| 12.18 進階主題:多關係圖 | 392 |
| 12.19 進階主題:圖生成 | 393 |
| 12.20 進階主題:可解釋性 | 394 |
| 12.21 常見錯誤與陷阱 | 395 |
| 12.22 實作檢查清單 | 396 |
| 12.23 論文連結 | 397 |
| 第 13 章 Transformer 注意力就是你所需要的 | 399 |
| 13.1 論文資訊 | 399 |
| 13.2 歷史背景與重要性 | 400 |
| 13.3 核心思想 | 400 |
| 13.4 數學框架 | 401 |
| 13.5 多頭注意力(Multi-Head Attention) | 403 |
| 13.6 位置編碼(Positional Encoding) | 404 |
| 13.7 前饋網路(Feed-Forward Network) | 405 |
| 13.8 層正規化(Layer Normalization) | 406 |
| 13.9 完整 Transformer 架構 | 407 |
| 13.10 注意力的三種用途 | 408 |
| 13.11 訓練細節 | 409 |
| 13.12 計算複雜度分析 | 409 |
| 13.13 架構變體 | 410 |
| 13.14 現代改進 | 410 |
| 13.15 視覺化理解 | 412 |
| 13.16 實作要點 | 413 |
| 13.17 與其他架構的比較 | 414 |
| 13.18 影響與後續發展 | 414 |
| 13.19 關鍵公式總結 | 415 |
| 13.20 總結 | 415 |
| 13.21 深入理解:為什麼 Transformer 能成功? | 416 |
| 13.22 實作細節探討 | 418 |
| 13.23 常見問題與解答 | 419 |
| 13.24 從零實作的檢查清單 | 420 |
| 13.25 延伸閱讀建議 | 421 |
| 13.26 思考題 | 422 |
| 13.27 論文連結 | 423 |
| 第 14 章 Bahdanau 注意力機制 - 神經機器翻譯的突破 | 425 |
| 14.1 論文資訊 | 425 |
| 14.2 歷史背景與重要性 | 426 |
| 14.3 問題背景:固定長度向量的瓶頸 | 426 |
| 14.4 核心思想:注意力機制 | 427 |
| 14.5 數學框架 | 428 |
| 14.6 與傳統 Seq2Seq 的比較 | 430 |
| 14.7 實驗結果 | 431 |
| 14.8 注意力的類型 | 432 |
| 14.9 深入理解:為什麼注意力有效? | 434 |
| 14.10 實作細節 | 434 |
| 14.11 注意力的視覺化與解釋 | 435 |
| 14.12 雙向 RNN 的作用 | 436 |
| 14.13 超越機器翻譯 | 437 |
| 14.14 從 Bahdanau 到 Transformer | 438 |
| 14.15 常見問題 | 439 |
| 14.16 實作要點 | 440 |
| 14.17 總結 | 441 |
| 14.18 深入分析:注意力的數學性質 | 442 |
| 14.19 進階主題:注意力變體 | 443 |
| 14.20 實作進階技巧 | 444 |
| 14.21 與現代架構的連結 | 445 |
| 14.22 思考題 | 446 |
| 14.23 延伸閱讀 | 447 |
| 14.24 論文連結 | 448 |
| 第 15 章 深度殘差網路中的恆等映射 | 449 |
| 15.1 論文資訊 | 449 |
| 15.2 歷史背景與重要性 | 450 |
| 15.3 問題回顧:為什麼需要殘差連接? | 450 |
| 15.4 原始 ResNet 塊的問題 | 451 |
| 15.5 解決方案:預活化殘差塊 | 453 |
| 15.6 數學分析 | 454 |
| 15.7 各種架構變體的比較 | 455 |
| 15.8 實驗結果 | 457 |
| 15.9 為什麼預活化有效? | 458 |
| 15.10 實作要點 | 459 |
| 15.11 與其他技術的關係 | 461 |
| 15.12 直覺理解 | 462 |
| 15.13 常見問題 | 463 |
| 15.14 超深網路的挑戰 | 463 |
| 15.15 現代視角 | 464 |
| 15.16 總結 | 465 |
| 15.17 延伸閱讀 | 466 |
| 15.18 深入分析:恆等映射的理論基礎 | 466 |
| 15.19 進階實作技巧 | 467 |
| 15.20 實驗細節與技巧 | 469 |
| 15.21 思考題 | 470 |
| 15.22 常見錯誤與陷阱 | 471 |
| 15.23 論文連結 | 472 |
| 第 16 章 關係網路 — 讓神經網路學會推理 | 473 |
| 16.1 引言 | 473 |
| 16.2 論文資訊 | 474 |
| 16.3 傳統方法的困境 | 475 |
| 16.4 關係網路的核心思想 | 476 |
| 16.5 為什麼這樣設計有效? | 478 |
| 16.6 排列不變性 | 479 |
| 16.7 與其他架構的比較 | 480 |
| 16.8 Sort-of-CLEVR 資料集 | 481 |
| 16.9 實驗結果 | 482 |
| 16.10 視覺問答的完整流程 | 484 |
| 16.11 PyTorch 實作 | 485 |
| 16.12 座標編碼的重要性 | 489 |
| 16.13 實驗:排列不變性驗證 | 490 |
| 16.14 Sort-of-CLEVR 完整實作 | 491 |
| 16.15 文字推理:bAbI 任務 | 495 |
| 16.16 物理預測任務 | 497 |
| 16.17 訓練技巧 | 498 |
| 16.18 計算效率優化 | 499 |
| 16.19 與後續工作的關係 | 500 |
| 16.20 常見問題與解答 | 501 |
| 16.21 實作檢查清單 | 501 |
| 16.22 延伸閱讀 | 502 |
| 16.23 總結 | 502 |
| 第 17 章 變分自編碼器 — 深度學習遇見貝葉斯推論 | 505 |
| 17.1 引言 | 505 |
| 17.2 論文資訊 | 506 |
| 17.3 從自編碼器到變分自編碼器 | 506 |
| 17.4 數學基礎 | 507 |
| 17.5 重參數化技巧 | 508 |
| 17.6 VAE 架構 | 510 |
| 17.7 KL 散度的閉式解 | 512 |
| 17.8 訓練過程 | 512 |
| 17.9 潛在空間的性質 | 513 |
| 17.10 生成新樣本 | 515 |
| 17.11 PyTorch 完整實作 | 516 |
| 17.12 卷積 VAE | 518 |
| 17.13 後驗崩塌問題 | 519 |
| 17.14 VAE 的變體 | 520 |
| 17.15 應用場景 | 521 |
| 17.16 與其他生成模型的比較 | 523 |
| 17.17 實驗:MNIST VAE | 524 |
| 17.18 常見問題與解答 | 525 |
| 17.19 延伸閱讀 | 526 |
| 17.20 實作檢查清單 | 526 |
| 17.21 總結 | 527 |
| 第 18 章 Relational RNN — 關係型循環神經網路 | 529 |
| 18.1 引言 | 529 |
| 18.2 論文資訊 | 530 |
| 18.3 核心概念:從記憶到關係 | 531 |
| 18.4 架構詳解 | 532 |
| 18.5 數學推導 | 537 |
| 18.6 關鍵創新點 | 539 |
| 18.7 實驗結果分析 | 540 |
| 18.8 實作考量 | 542 |
| 18.9 與其他方法的比較 | 543 |
| 18.10 程式碼架構說明 | 544 |
| 18.11 深入理解:為什麼記憶槽之間需要交互? | 546 |
| 18.12 訓練技巧與最佳實踐 | 548 |
| 18.13 常見問題與解決方案 | 549 |
| 18.14 進階變體與擴展 | 550 |
| 18.15 與現代架構的比較 | 552 |
| 18.16 延伸閱讀與展望 | 553 |
| 18.17 本章小結 | 554 |
| 第 19 章 咖啡自動機與不可逆性的奧秘 | 557 |
| 19.2 論文資訊 | 558 |
| 19.1 引言 | 558 |
| 19.3 核心概念:不可逆性的謎題 | 559 |
| 19.4 擴散過程與熵增加 | 561 |
| 19.5 相空間與 Liouville 定理 | 562 |
| 19.6 Poincaré 回歸 | 564 |
| 19.7 Maxwell 妖精 | 565 |
| 19.8 Landauer 原理 | 567 |
| 19.9 計算不可逆性 | 568 |
| 19.10 資訊瓶頸與機器學習 | 569 |
| 19.11 時間箭頭的三種形式 | 570 |
| 19.12 生命與熱力學第二定律 | 571 |
| 19.13 不可逆性的層次 | 572 |
| 19.14 數學推導 | 573 |
| 19.15 實作要點 | 574 |
| 19.16 深層意義 | 576 |
| 19.17 延伸閱讀 | 579 |
| 19.18 本章小結 | 580 |
| 第 20 章 神經圖靈機 — 可微分的通用計算 | 583 |
| 20.1 引言 | 583 |
| 20.2 論文資訊 | 584 |
| 20.3 從圖靈機到神經圖靈機 | 585 |
| 20.4 記憶體定址機制 | 588 |
| 20.5 讀寫操作 | 591 |
| 20.6 控制器架構 | 593 |
| 20.7 完整的 NTM 架構 | 597 |
| 20.8 訓練與任務 | 601 |
| 20.9 視覺化分析 | 603 |
| 20.10 與其他架構的比較 | 605 |
| 20.11 NTM 的後續發展 | 606 |
| 20.12 實作挑戰與技巧 | 607 |
| 20.13 應用場景 | 609 |
| 20.14 與第十六章的關聯 | 610 |
| 20.15 數學基礎:為什麼這些操作是可微分的? | 610 |
| 20.16 程式碼實作要點 | 611 |
| 20.17 總結 | 612 |
| 第 21 章 Deep Speech 2 與 CTC — 端到端語音辨識的突破 | 615 |
| 21.1 引言 | 616 |
| 21.2 論文資訊 | 617 |
| 21.3 CTC 的起源與核心問題 | 618 |
| 21.4 CTC 的數學原理 | 620 |
| 21.5 CTC 的實作 | 623 |
| 21.6 Deep Speech 2 架構 | 626 |
| 21.7 CTC 解碼 | 634 |
| 21.8 訓練技巧 | 637 |
| 21.9 實驗結果與分析 | 640 |
| 21.10 CTC 的局限性 | 641 |
| 21.11 後續發展 | 642 |
| 21.12 與其他章節的關聯 | 643 |
| 21.13 應用與影響 | 644 |
| 21.14 程式碼實作要點 | 644 |
| 21.15 總結 | 645 |
| 第 22 章 Scaling Laws for Neural Language Models — 神經語言模型的縮放定律 | 647 |
| 22.1 引言:從經驗到定律 | 648 |
| 22.2 論文資訊 | 648 |
| 22.3 什麼是冪律關係 | 649 |
| 22.4 歷史背景:大模型時代的來臨 | 650 |
| 22.5 核心發現:三大冪律關係 | 651 |
| 22.6 數學框架:統一的損失預測模型 | 654 |
| 22.7 實驗設計:系統性的驗證方法 | 657 |
| 22.8 冪律的物理直覺 | 658 |
| 22.9 實作:冪律擬合與預測 | 659 |
| 22.10 架構變化的影響 | 660 |
| 22.11 遷移學習與微調 | 661 |
| 22.12 計算效率與實踐考量 | 662 |
| 22.13 後續發展:Chinchilla 定律 | 663 |
| 22.14 湧現能力與相變 | 664 |
| 22.15 資料質量與縮放定律 | 665 |
| 22.16 多模態縮放定律 | 666 |
| 22.17 縮放定律的局限性 | 667 |
| 22.18 實作:縮放定律實驗框架 | 668 |
| 22.19 與其他 AI 領域的連結 | 669 |
| 22.20 縮放定律的哲學意涵 | 670 |
| 22.21 總結:預測 AI 的未來 | 670 |
| 第 23 章 GPT-3 — 語言模型是少樣本學習者 | 675 |
| 23.1 引言:大型語言模型的里程碑 | 675 |
| 23.2 從 GPT 到 GPT-3:進化之路 | 676 |
| 23.3 模型架構:巨型 Transformer | 678 |
| 23.4 訓練資料與方法 | 679 |
| 23.5 上下文學習:少樣本學習的新範式 | 681 |
| 23.6 實驗結果:全面的能力評估 | 684 |
| 23.7 文本生成:令人印象深刻的創作能力 | 687 |
| 23.8 分析:縮放定律的驗證 | 688 |
| 23.9 技術實作細節 | 689 |
| 23.10 社會影響與倫理考量 | 690 |
| 23.11 與其他模型的比較 | 691 |
| 23.12 後續發展與影響 | 692 |
| 23.13 實作考量 | 693 |
| 23.14 數學基礎:語言建模 | 694 |
| 23.15 與前一章的連結:縮放定律的實現 | 694 |
| 23.16 批評與反思 | 695 |
| 23.17 實作:簡化版 GPT 的關鍵組件 | 696 |
| 23.18 未來展望 | 696 |
| 23.19 總結 | 697 |
| 第 24 章 Vision Transformer — 影像也是一種語言 | 701 |
| 24.1 引言:當 Transformer 遇見電腦視覺 | 702 |
| 24.2 從 CNN 到 Transformer:視覺模型的演進 | 702 |
| 24.3 Vision Transformer 的核心思想 | 703 |
| 24.4 ViT 架構詳解 | 704 |
| 24.5 模型配置與規模 | 707 |
| 24.6 訓練策略與資料需求 | 708 |
| 24.7 關鍵實驗結果 | 710 |
| 24.8 視覺化分析:ViT 學到了什麼? | 712 |
| 24.9 與 CNN 的深入比較 | 713 |
| 24.10 計算效率分析 | 714 |
| 24.11 ViT 的影響與後續發展 | 715 |
| 24.12 PyTorch 實作重點 | 716 |
| 24.13 實作注意事項 | 718 |
| 24.14 常見問題與解答 | 719 |
| 24.15 程式碼實作 | 720 |
| 24.16 延伸閱讀 | 720 |
| 24.17 實驗復現技巧 | 720 |
| 24.18 ViT 的數學推導補充 | 722 |
| 24.19 ViT 變體深入分析 | 724 |
| 24.20 本章總結 | 725 |
| 24.21 關鍵術語中英對照 | 726 |
| 24.22 論文連結 | 727 |
| 第 25 章 DDPM — 擴散模型的奠基之作 | 729 |
| 25.1 引言:生成模型的新範式 | 729 |
| 25.2 論文資訊 | 730 |
| 25.3 擴散模型的歷史背景 | 730 |
| 25.4 前向擴散過程 | 731 |
| 25.5 反向去噪過程 | 733 |
| 25.6 訓練目標推導 | 734 |
| 25.7 採樣演算法 | 735 |
| 25.8 神經網路架構 | 736 |
| 25.9 訓練細節 | 737 |
| 25.10 實驗結果 | 739 |
| 25.11 與其他生成模型的比較 | 741 |
| 25.12 數學推導補充 | 742 |
| 25.13 程式碼實作重點 | 743 |
| 25.14 DDPM 的局限性 | 744 |
| 25.15 DDPM 的後續發展 | 745 |
| 25.16 物理直覺與視覺化 | 746 |
| 25.17 程式碼實作 | 746 |
| 25.18 延伸閱讀 | 747 |
| 25.19 本章總結 | 747 |
| 25.20 實作技巧與常見問題 | 747 |
| 25.21 DDPM 與 Score-based Models 的聯繫 | 750 |
| 25.22 進階主題 | 751 |
| 25.23 關鍵數據回顧 | 751 |
| 25.24 關鍵術語中英對照 | 752 |
| 25.25 論文連結 | 753 |
| 第 26 章 CLIP — 連接視覺與語言的橋樑 | 755 |
| 26.1 引言:從專家系統到通用視覺模型 | 755 |
| 26.2 論文資訊:多模態學習的基石 | 756 |
| 26.3 研究背景與動機 | 757 |
| 26.4 CLIP 的核心方法 | 758 |
| 26.5 模型架構 | 761 |
| 26.6 零樣本分類 | 762 |
| 26.7 實驗結果 | 764 |
| 26.8 CLIP 的能力與局限 | 766 |
| 26.9 對比學習的數學原理 | 767 |
| 26.10 訓練細節 | 767 |
| 26.11 CLIP 的應用 | 769 |
| 26.12 程式碼實作重點 | 770 |
| 26.13 CLIP 的變體與改進 | 771 |
| 26.14 CLIP 的社會影響 | 772 |
| 26.15 CLIP 的歷史意義 | 773 |
| 26.16 程式碼實作 | 774 |
| 26.17 延伸閱讀 | 774 |
| 26.18 本章總結 | 774 |
| 26.19 實作技巧與常見問題 | 775 |
| 26.20 與其他多模態模型的比較 | 777 |
| 26.21 關鍵數據回顧 | 778 |
| 26.22 關鍵術語中英對照 | 779 |
| 26.23 論文連結 | 780 |
| 第 27 章 AlphaFold 2 — 解開生命的摺紙之謎 | 781 |
| 27.1 引言:五十年的科學難題 | 781 |
| 27.2 論文資訊:跨世紀難題的解答 | 782 |
| 27.3 蛋白質摺疊問題的背景 | 783 |
| 27.4 AlphaFold 2 的突破 | 785 |
| 27.5 AlphaFold 2 的架構 | 785 |
| 27.6 輸入特徵 | 786 |
| 27.7 Evoformer:核心創新 | 787 |
| 27.8 Structure Module | 789 |
| 27.9 Recycling 機制 | 790 |
| 27.10 損失函式 | 791 |
| 27.11 訓練細節 | 792 |
| 27.12 實驗結果 | 792 |
| 27.13 AlphaFold 的影響 | 793 |
| 27.14 AlphaFold 2 的局限性 | 794 |
| 27.15 後續發展 | 794 |
| 27.16 程式碼實作重點 | 795 |
| 27.17 程式碼實作 | 797 |
| 27.18 實作注意事項 | 797 |
| 27.19 延伸閱讀 | 799 |
| 27.20 蛋白質結構預測的歷史回顧 | 799 |
| 27.21 本章總結 | 800 |
| 27.22 關鍵術語中英對照 | 801 |
| 27.23 論文連結 | 802 |
| 第 28 章 DALL-E — 文字到圖像的零樣本生成 | 805 |
| 28.1 引言:當語言模型學會畫畫 | 805 |
| 28.2 論文資訊:零樣本生成的開端 | 806 |
| 28.3 DALL-E 之前的文字到圖像生成 | 807 |
| 28.4 核心思想:自迴歸生成 | 807 |
| 28.5 模型架構總覽 | 808 |
| 28.6 第一階段:離散VAE(dVAE) | 809 |
| 28.7 第二階段:自迴歸Transformer | 811 |
| 28.8 訓練流程 | 813 |
| 28.9 推論流程 | 814 |
| 28.10 零樣本能力展示 | 816 |
| 28.11 實作要點 | 817 |
| 28.12 與其他方法的比較 | 820 |
| 28.13 技術挑戰與解決方案 | 820 |
| 28.14 應用場景 | 821 |
| 28.15 局限性 | 822 |
| 28.16 實作建議 | 823 |
| 28.17 實作提示 | 823 |
| 28.18 延伸閱讀 | 824 |
| 28.19 歷史意義 | 824 |
| 28.20 本章總結 | 825 |
| 28.21 關鍵術語中英對照 | 826 |
| 28.22 論文連結 | 827 |
| 第 29 章 Stable Diffusion — 潛在空間中的擴散模型 | 829 |
| 29.1 論文資訊:開源影像生成的基準 | 830 |
| 29.2 從像素擴散到潛在擴散 | 831 |
| 29.3 模型架構總覽 | 832 |
| 29.4 第一階段:感知壓縮模型 | 833 |
| 29.5 第二階段:潛在擴散模型 | 835 |
| 29.6 條件機制:Cross-Attention | 836 |
| 29.7 Classifier-Free Guidance | 837 |
| 29.8 訓練流程 | 839 |
| 29.9 採樣方法 | 840 |
| 29.10 完整推論流程 | 840 |
| 29.11 實作要點 | 841 |
| 29.12 應用場景 | 844 |
| 29.13 Stable Diffusion 的版本演進 | 846 |
| 29.14 技術挑戰與解決方案 | 846 |
| 29.15 與其他方法的比較 | 847 |
| 29.16 實作建議 | 848 |
| 29.17 延伸閱讀 | 849 |
| 29.18 開源生態系統 | 849 |
| 29.19 本章總結 | 850 |
| 29.20 關鍵術語中英對照 | 851 |
| 29.21 論文連結 | 851 |
| 第 30 章 InstructGPT — 用人類回饋對齊語言模型 | 853 |
| 30.1 引言:讓 AI 理解人類意圖 | 853 |
| 30.2 論文資訊:AI 對齊的里程碑 | 854 |
| 30.3 問題背景:為什麼需要對齊? | 855 |
| 30.4 RLHF 方法總覽 | 856 |
| 30.5 階段一:監督式微調(SFT) | 857 |
| 30.6 階段二:獎勵模型訓練(RM) | 859 |
| 30.7 階段三:PPO 強化學習 | 861 |
| 30.8 人類標註指南 | 863 |
| 30.9 實驗結果 | 864 |
| 30.10 實作要點 | 866 |
| 30.11 RLHF 的挑戰與解決方案 | 868 |
| 30.12 後續發展 | 869 |
| 30.13 RLHF 的廣泛影響 | 870 |
| 30.14 實作建議 | 871 |
| 30.15 延伸閱讀 | 872 |
| 30.16 RLHF 與傳統強化學習的差異 | 873 |
| 30.17 本章總結 | 873 |
| 30.18 關鍵術語中英對照 | 874 |
| 30.19 論文連結 | 875 |
| 後記:站在巨人的肩 | 877 |
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。