TOP
經典不再等待!讀懂羅馬人的強大,開啟你的智力冒險
HyRead
Sutskever 大神推薦:建構AI世界最重要的30篇論文:用PyTorch完整實作(電子書)

Sutskever 大神推薦:建構AI世界最重要的30篇論文:用PyTorch完整實作(電子書)

商品資訊

定價
:NT$ 756 元
閱讀器:Hyread電子書
無法訂購
商品簡介
作者簡介
目錄

商品簡介

用 PyTorch、NumPy、Google Colab T4 GPU 最強工具完整實作 Perceptron、CNN、RNN、Transformer、GPT、RLHF 等經典論文 &...

作者簡介

作者簡介胡嘉璽 研究領域為 LLM、Vibe Coding、Agent、量子電腦、虛擬化及容器。 聯絡方式:github/joshhu

目錄

第 0 章 本書執行環境設定71
0.1 前言71
0.2 為什麼選擇這個環境?72
0.3 環境需求72
0.4 安裝步驟72
0.5 常見問題排解82
0.6 本書程式碼結構84
0.7 執行建議84
0.8 開始學習85
第 1 章 複雜動力學第一定律87
1.1 為什麼這篇文章重要?87
1.2 從一杯咖啡說起88
1.3 熵與複雜度:兩個不同的概念90
1.4 Kolmogorov 複雜度:用程式長度衡量複雜性92
1.5 精密度:捕捉「有意義的」複雜性94
1.6 細胞自動機:複雜性的實驗室95
1.7 程式碼解析:PyTorch 實作97
1.8 與深度學習的深層關聯102
1.9 實驗:親手驗證104
1.10 思考題105
1.11 本章小結105
第 2 章 循環神經網路的不合理有效性109
2.1 為什麼這篇文章重要?110
2.2 從一個簡單的問題開始110
2.3 循環神經網路(RNN)的核心思想111
2.4 展開的 RNN:理解時間維度113
2.5 字元級語言模型113
2.6 反向傳播穿越時間(BPTT)115
2.7 梯度問題與解決方案116
2.8 從隨機到莎士比亞117
2.9 其他驚人的應用119
2.10 採樣策略:溫度參數120
2.11 程式碼解析:關鍵實作細節121
2.12 與現代語言模型的關係123
2.13 實驗:親手訓練一個字元級 RNN124
2.14 思考題126
2.15 本章小結127
第 3 章 理解 LSTM 網路129
3.1 為什麼需要 LSTM?129
3.2 梯度消失問題130
3.3 LSTM 的解決方案:門控機制131
3.4 LSTM 的數學公式133
3.5 為什麼 LSTM 能解決梯度消失?135
3.6 用例子理解 LSTM137
3.7 LSTM vs Vanilla RNN:梯度流動對比138
3.8 程式碼解析:LSTM Cell 實作139
3.9 門的視覺化解讀142
3.10 LSTM 的反向傳播143
3.11 LSTM 的變體146
3.11 實際應用147
3.12 LSTM 的局限性與 Transformer147
3.13 思考題148
3.14 本章小結148
第 4 章 循環神經網路的正規化151
4.1 引言:RNN 的過擬合問題152
4.2 問題:天真地將 Dropout 應用於RNN 不管用!153
4.3 Zaremba 等人的解決方案154
4.4 變分 Dropout(Variational Dropout)156
4.5 進階技術:其他 RNN 正規化方法158
4.6 深入理解:為什麼位置很重要?159
4.7 實驗結果162
4.8 PyTorch 實作要點164
4.9 完整實作:帶 Dropout 的 LSTM 語言模型166
4.10 實驗分析與視覺化173
4.11 常見問題與解決方案175
4.12 與後續研究的關係176
4.13 思考題178
4.14 總結179
第 5 章 透過最小化描述長度保持神經網路簡單183
5.1 引言:為什麼簡單的模型更好?184
5.2 最小描述長度(MDL)原則185
5.3 網路剪枝(Network Pruning)186
5.4 漸進式剪枝(Iterative Pruning)188
5.5 結構化剪枝vs 非結構化剪枝190
5.6 與 L1 正規化的關係192
5.7 彩票假說(Lottery Ticket Hypothesis)194
5.8 現代剪枝技術195
5.9 PyTorch 實作要點196
5.10 完整實作:PyTorch 剪枝流程198
5.11 實際應用案例203
5.12 思考題207
5.13 總結208
第 6 章 指標網路(Pointer Networks)211
6.1 引言212
6.2 問題定義213
6.3 模型架構214
6.4 數學推導216
6.5 實作細節218
6.6 訓練策略221
6.7 應用:凸包問題223
6.8 應用:旅行推銷員問題225
6.9 應用:排序任務228
6.10 進階技術229
6.11 實驗結果分析232
6.12 與後續研究的關係234
6.13 視覺化與解釋235
6.14 常見問題與解決方案237
6.15 完整實作範例238
6.16 思考題240
6.17 延伸閱讀241
6.18 本章小結241
第 7 章 AlexNet 深度學習革命的起點243
7.1 引言244
7.2 ImageNet 挑戰賽245
7.3 AlexNet 架構246
7.4 關鍵創新技術248
7.5 資料增強251
7.6 訓練細節253
7.7 PyTorch 實作255
7.8 視覺化分析258
7.9 實驗與結果分析261
7.10 資料增強實作262
7.11 與後續網路的比較264
7.12 現代視角265
7.13 常見問題與解決方案266
7.14 思考題268
7.15 延伸閱讀268
7.16 本章小結269
第 8 章 順序很重要 序列對序列(Sequence-to-Sequence)處理集合271
8.1 引言272
8.2 排列不變性273
8.3 讀取 - 處理 - 寫入架構275
8.4 輸出順序問題277
8.5 應用場景279
8.6 注意力機制詳解280
8.7 與 DeepSets 的關係282
8.8 完整模型實作284
8.9 實驗結果287
8.10 與其他論文的關聯288
8.11 進階技術289
8.12 常見問題與解決方案291
8.13 思考題292
8.14 延伸閱讀293
8.15 本章小結293
第 9 章 GPipe 使用管線平行化高效訓練巨型神經網路295
9.1 論文背景與動機295
9.2 管線平行化的核心概念297
9.3 微批次策略298
9.4 梯度累積300
9.5 重新實體化技術301
9.6 實作細節302
9.7 與資料平行化的比較304
9.8 氣泡時間的視覺化306
9.9 記憶體與計算的權衡307
9.10 進階排程策略308
9.11 實際應用與成果308
9.12 PyTorch 實作要點309
9.13 最佳化建議310
9.14 現代擴展技術311
9.15 相關論文連結312
9.16 總結312
9.17 數學推導補充313
9.18 常見問題與解決方案315
9.19 程式碼範例:完整訓練迴圈316
9.20 效能基準參考318
第 10 章 ResNet 深度殘差學習321
10.1 引言321
10.2 論文資訊322
10.3 退化問題的本質322
10.4 殘差學習的核心思想324
10.5 殘差區塊的設計325
10.6 跳躍連接的數學分析328
10.7 ResNet 架構變體329
10.8 批次正規化的角色331
10.9 實作細節332
10.10 PyTorch 完整實作333
10.11 梯度流動實驗338
10.12 視覺化分析338
10.13 ResNet 的影響與變體339
10.14 訓練技巧340
10.15 消融實驗341
10.16 與其他架構的比較341
10.17 實際應用建議342
10.18 數學補充343
10.19 常見問題344
10.20 總結344
第 11 章 膨脹卷積 多尺度上下文聚合347
11.1 引言347
11.2 論文資訊348
11.3 密集預測的挑戰348
11.4 膨脹卷積的核心思想350
11.5 多尺度上下文聚合353
11.6 數學分析354
11.7 PyTorch 實作356
11.8 完整分割網路359
11.9 一維膨脹卷積360
11.10 感受野視覺化362
11.11 網格效應問題363
11.12 與其他技術的結合364
11.13 應用場景365
11.14 效能比較366
11.15 實作細節368
11.16 常見問題369
11.17 延伸閱讀370
11.18 總結370
第 12 章 訊息傳遞神經網路圖神經網路的統一框架373
12.1 論文資訊373
12.2 歷史背景與重要性374
12.3 核心思想374
12.4 數學框架376
12.5 統一現有方法378
12.6 實作細節379
12.7 與 GCN 的比較381
12.8 應用:量子化學性質預測382
12.9 過度平滑問題383
12.10 表達能力分析384
12.11 圖級別讀出385
12.12 現代發展386
12.13 實際應用387
12.14 程式碼實作重點388
12.15 關鍵公式總結389
12.16 總結390
12.17 進階主題:批次處理與效率391
12.18 進階主題:多關係圖392
12.19 進階主題:圖生成393
12.20 進階主題:可解釋性394
12.21 常見錯誤與陷阱395
12.22 實作檢查清單396
12.23 論文連結397
第 13 章 Transformer 注意力就是你所需要的399
13.1 論文資訊399
13.2 歷史背景與重要性400
13.3 核心思想400
13.4 數學框架401
13.5 多頭注意力(Multi-Head Attention)403
13.6 位置編碼(Positional Encoding)404
13.7 前饋網路(Feed-Forward Network)405
13.8 層正規化(Layer Normalization)406
13.9 完整 Transformer 架構407
13.10 注意力的三種用途408
13.11 訓練細節409
13.12 計算複雜度分析409
13.13 架構變體410
13.14 現代改進410
13.15 視覺化理解412
13.16 實作要點413
13.17 與其他架構的比較414
13.18 影響與後續發展414
13.19 關鍵公式總結415
13.20 總結415
13.21 深入理解:為什麼 Transformer 能成功?416
13.22 實作細節探討418
13.23 常見問題與解答419
13.24 從零實作的檢查清單420
13.25 延伸閱讀建議421
13.26 思考題422
13.27 論文連結423
第 14 章 Bahdanau 注意力機制 - 神經機器翻譯的突破425
14.1 論文資訊425
14.2 歷史背景與重要性426
14.3 問題背景:固定長度向量的瓶頸426
14.4 核心思想:注意力機制427
14.5 數學框架428
14.6 與傳統 Seq2Seq 的比較430
14.7 實驗結果431
14.8 注意力的類型432
14.9 深入理解:為什麼注意力有效?434
14.10 實作細節434
14.11 注意力的視覺化與解釋435
14.12 雙向 RNN 的作用436
14.13 超越機器翻譯437
14.14 從 Bahdanau 到 Transformer438
14.15 常見問題439
14.16 實作要點440
14.17 總結441
14.18 深入分析:注意力的數學性質442
14.19 進階主題:注意力變體443
14.20 實作進階技巧444
14.21 與現代架構的連結445
14.22 思考題446
14.23 延伸閱讀447
14.24 論文連結448
第 15 章 深度殘差網路中的恆等映射449
15.1 論文資訊449
15.2 歷史背景與重要性450
15.3 問題回顧:為什麼需要殘差連接?450
15.4 原始 ResNet 塊的問題451
15.5 解決方案:預活化殘差塊453
15.6 數學分析454
15.7 各種架構變體的比較455
15.8 實驗結果457
15.9 為什麼預活化有效?458
15.10 實作要點459
15.11 與其他技術的關係461
15.12 直覺理解462
15.13 常見問題463
15.14 超深網路的挑戰463
15.15 現代視角464
15.16 總結465
15.17 延伸閱讀466
15.18 深入分析:恆等映射的理論基礎466
15.19 進階實作技巧467
15.20 實驗細節與技巧469
15.21 思考題470
15.22 常見錯誤與陷阱471
15.23 論文連結472
第 16 章 關係網路 — 讓神經網路學會推理473
16.1 引言473
16.2 論文資訊474
16.3 傳統方法的困境475
16.4 關係網路的核心思想476
16.5 為什麼這樣設計有效?478
16.6 排列不變性479
16.7 與其他架構的比較480
16.8 Sort-of-CLEVR 資料集481
16.9 實驗結果482
16.10 視覺問答的完整流程484
16.11 PyTorch 實作485
16.12 座標編碼的重要性489
16.13 實驗:排列不變性驗證490
16.14 Sort-of-CLEVR 完整實作491
16.15 文字推理:bAbI 任務495
16.16 物理預測任務497
16.17 訓練技巧498
16.18 計算效率優化499
16.19 與後續工作的關係500
16.20 常見問題與解答501
16.21 實作檢查清單501
16.22 延伸閱讀502
16.23 總結502
第 17 章 變分自編碼器 — 深度學習遇見貝葉斯推論505
17.1 引言505
17.2 論文資訊506
17.3 從自編碼器到變分自編碼器506
17.4 數學基礎507
17.5 重參數化技巧508
17.6 VAE 架構510
17.7 KL 散度的閉式解512
17.8 訓練過程512
17.9 潛在空間的性質513
17.10 生成新樣本515
17.11 PyTorch 完整實作516
17.12 卷積 VAE518
17.13 後驗崩塌問題519
17.14 VAE 的變體520
17.15 應用場景521
17.16 與其他生成模型的比較523
17.17 實驗:MNIST VAE524
17.18 常見問題與解答525
17.19 延伸閱讀526
17.20 實作檢查清單526
17.21 總結527
第 18 章 Relational RNN — 關係型循環神經網路529
18.1 引言529
18.2 論文資訊530
18.3 核心概念:從記憶到關係531
18.4 架構詳解532
18.5 數學推導537
18.6 關鍵創新點539
18.7 實驗結果分析540
18.8 實作考量542
18.9 與其他方法的比較543
18.10 程式碼架構說明544
18.11 深入理解:為什麼記憶槽之間需要交互?546
18.12 訓練技巧與最佳實踐548
18.13 常見問題與解決方案549
18.14 進階變體與擴展550
18.15 與現代架構的比較552
18.16 延伸閱讀與展望553
18.17 本章小結554
第 19 章 咖啡自動機與不可逆性的奧秘557
19.2 論文資訊558
19.1 引言558
19.3 核心概念:不可逆性的謎題559
19.4 擴散過程與熵增加561
19.5 相空間與 Liouville 定理562
19.6 Poincaré 回歸564
19.7 Maxwell 妖精565
19.8 Landauer 原理567
19.9 計算不可逆性568
19.10 資訊瓶頸與機器學習569
19.11 時間箭頭的三種形式570
19.12 生命與熱力學第二定律571
19.13 不可逆性的層次572
19.14 數學推導573
19.15 實作要點574
19.16 深層意義576
19.17 延伸閱讀579
19.18 本章小結580
第 20 章 神經圖靈機 — 可微分的通用計算583
20.1 引言583
20.2 論文資訊584
20.3 從圖靈機到神經圖靈機585
20.4 記憶體定址機制588
20.5 讀寫操作591
20.6 控制器架構593
20.7 完整的 NTM 架構597
20.8 訓練與任務601
20.9 視覺化分析603
20.10 與其他架構的比較605
20.11 NTM 的後續發展606
20.12 實作挑戰與技巧607
20.13 應用場景609
20.14 與第十六章的關聯610
20.15 數學基礎:為什麼這些操作是可微分的?610
20.16 程式碼實作要點611
20.17 總結612
第 21 章 Deep Speech 2 與 CTC — 端到端語音辨識的突破615
21.1 引言616
21.2 論文資訊617
21.3 CTC 的起源與核心問題618
21.4 CTC 的數學原理620
21.5 CTC 的實作623
21.6 Deep Speech 2 架構626
21.7 CTC 解碼634
21.8 訓練技巧637
21.9 實驗結果與分析640
21.10 CTC 的局限性641
21.11 後續發展642
21.12 與其他章節的關聯643
21.13 應用與影響644
21.14 程式碼實作要點644
21.15 總結645
第 22 章 Scaling Laws for Neural Language Models — 神經語言模型的縮放定律647
22.1 引言:從經驗到定律648
22.2 論文資訊648
22.3 什麼是冪律關係649
22.4 歷史背景:大模型時代的來臨650
22.5 核心發現:三大冪律關係651
22.6 數學框架:統一的損失預測模型654
22.7 實驗設計:系統性的驗證方法657
22.8 冪律的物理直覺658
22.9 實作:冪律擬合與預測659
22.10 架構變化的影響660
22.11 遷移學習與微調661
22.12 計算效率與實踐考量662
22.13 後續發展:Chinchilla 定律663
22.14 湧現能力與相變664
22.15 資料質量與縮放定律665
22.16 多模態縮放定律666
22.17 縮放定律的局限性667
22.18 實作:縮放定律實驗框架668
22.19 與其他 AI 領域的連結669
22.20 縮放定律的哲學意涵670
22.21 總結:預測 AI 的未來670
第 23 章 GPT-3 — 語言模型是少樣本學習者675
23.1 引言:大型語言模型的里程碑675
23.2 從 GPT 到 GPT-3:進化之路676
23.3 模型架構:巨型 Transformer678
23.4 訓練資料與方法679
23.5 上下文學習:少樣本學習的新範式681
23.6 實驗結果:全面的能力評估684
23.7 文本生成:令人印象深刻的創作能力687
23.8 分析:縮放定律的驗證688
23.9 技術實作細節689
23.10 社會影響與倫理考量690
23.11 與其他模型的比較691
23.12 後續發展與影響692
23.13 實作考量693
23.14 數學基礎:語言建模694
23.15 與前一章的連結:縮放定律的實現694
23.16 批評與反思695
23.17 實作:簡化版 GPT 的關鍵組件696
23.18 未來展望696
23.19 總結697
第 24 章 Vision Transformer — 影像也是一種語言701
24.1 引言:當 Transformer 遇見電腦視覺702
24.2 從 CNN 到 Transformer:視覺模型的演進702
24.3 Vision Transformer 的核心思想703
24.4 ViT 架構詳解704
24.5 模型配置與規模707
24.6 訓練策略與資料需求708
24.7 關鍵實驗結果710
24.8 視覺化分析:ViT 學到了什麼?712
24.9 與 CNN 的深入比較713
24.10 計算效率分析714
24.11 ViT 的影響與後續發展715
24.12 PyTorch 實作重點716
24.13 實作注意事項718
24.14 常見問題與解答719
24.15 程式碼實作720
24.16 延伸閱讀720
24.17 實驗復現技巧720
24.18 ViT 的數學推導補充722
24.19 ViT 變體深入分析724
24.20 本章總結725
24.21 關鍵術語中英對照726
24.22 論文連結727
第 25 章 DDPM — 擴散模型的奠基之作729
25.1 引言:生成模型的新範式729
25.2 論文資訊730
25.3 擴散模型的歷史背景730
25.4 前向擴散過程731
25.5 反向去噪過程733
25.6 訓練目標推導734
25.7 採樣演算法735
25.8 神經網路架構736
25.9 訓練細節737
25.10 實驗結果739
25.11 與其他生成模型的比較741
25.12 數學推導補充742
25.13 程式碼實作重點743
25.14 DDPM 的局限性744
25.15 DDPM 的後續發展745
25.16 物理直覺與視覺化746
25.17 程式碼實作746
25.18 延伸閱讀747
25.19 本章總結747
25.20 實作技巧與常見問題747
25.21 DDPM 與 Score-based Models 的聯繫750
25.22 進階主題751
25.23 關鍵數據回顧751
25.24 關鍵術語中英對照752
25.25 論文連結753
第 26 章 CLIP — 連接視覺與語言的橋樑755
26.1 引言:從專家系統到通用視覺模型755
26.2 論文資訊:多模態學習的基石756
26.3 研究背景與動機757
26.4 CLIP 的核心方法758
26.5 模型架構761
26.6 零樣本分類762
26.7 實驗結果764
26.8 CLIP 的能力與局限766
26.9 對比學習的數學原理767
26.10 訓練細節767
26.11 CLIP 的應用769
26.12 程式碼實作重點770
26.13 CLIP 的變體與改進771
26.14 CLIP 的社會影響772
26.15 CLIP 的歷史意義773
26.16 程式碼實作774
26.17 延伸閱讀774
26.18 本章總結774
26.19 實作技巧與常見問題775
26.20 與其他多模態模型的比較777
26.21 關鍵數據回顧778
26.22 關鍵術語中英對照779
26.23 論文連結780
第 27 章 AlphaFold 2 — 解開生命的摺紙之謎781
27.1 引言:五十年的科學難題781
27.2 論文資訊:跨世紀難題的解答782
27.3 蛋白質摺疊問題的背景783
27.4 AlphaFold 2 的突破785
27.5 AlphaFold 2 的架構785
27.6 輸入特徵786
27.7 Evoformer:核心創新787
27.8 Structure Module789
27.9 Recycling 機制790
27.10 損失函式791
27.11 訓練細節792
27.12 實驗結果792
27.13 AlphaFold 的影響793
27.14 AlphaFold 2 的局限性794
27.15 後續發展794
27.16 程式碼實作重點795
27.17 程式碼實作797
27.18 實作注意事項797
27.19 延伸閱讀799
27.20 蛋白質結構預測的歷史回顧799
27.21 本章總結800
27.22 關鍵術語中英對照801
27.23 論文連結802
第 28 章 DALL-E — 文字到圖像的零樣本生成805
28.1 引言:當語言模型學會畫畫805
28.2 論文資訊:零樣本生成的開端806
28.3 DALL-E 之前的文字到圖像生成807
28.4 核心思想:自迴歸生成807
28.5 模型架構總覽808
28.6 第一階段:離散VAE(dVAE)809
28.7 第二階段:自迴歸Transformer811
28.8 訓練流程813
28.9 推論流程814
28.10 零樣本能力展示816
28.11 實作要點817
28.12 與其他方法的比較820
28.13 技術挑戰與解決方案820
28.14 應用場景821
28.15 局限性822
28.16 實作建議823
28.17 實作提示823
28.18 延伸閱讀824
28.19 歷史意義824
28.20 本章總結825
28.21 關鍵術語中英對照826
28.22 論文連結827
第 29 章 Stable Diffusion — 潛在空間中的擴散模型829
29.1 論文資訊:開源影像生成的基準830
29.2 從像素擴散到潛在擴散831
29.3 模型架構總覽832
29.4 第一階段:感知壓縮模型833
29.5 第二階段:潛在擴散模型835
29.6 條件機制:Cross-Attention836
29.7 Classifier-Free Guidance837
29.8 訓練流程839
29.9 採樣方法840
29.10 完整推論流程840
29.11 實作要點841
29.12 應用場景844
29.13 Stable Diffusion 的版本演進846
29.14 技術挑戰與解決方案846
29.15 與其他方法的比較847
29.16 實作建議848
29.17 延伸閱讀849
29.18 開源生態系統849
29.19 本章總結850
29.20 關鍵術語中英對照851
29.21 論文連結851
第 30 章 InstructGPT — 用人類回饋對齊語言模型853
30.1 引言:讓 AI 理解人類意圖853
30.2 論文資訊:AI 對齊的里程碑854
30.3 問題背景:為什麼需要對齊?855
30.4 RLHF 方法總覽856
30.5 階段一:監督式微調(SFT)857
30.6 階段二:獎勵模型訓練(RM)859
30.7 階段三:PPO 強化學習861
30.8 人類標註指南863
30.9 實驗結果864
30.10 實作要點866
30.11 RLHF 的挑戰與解決方案868
30.12 後續發展869
30.13 RLHF 的廣泛影響870
30.14 實作建議871
30.15 延伸閱讀872
30.16 RLHF 與傳統強化學習的差異873
30.17 本章總結873
30.18 關鍵術語中英對照874
30.19 論文連結875
後記:站在巨人的肩877

購物須知

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

定價:100 756
閱讀器:Hyread電子書

暢銷榜

客服中心

收藏

會員專區