商品簡介
名人/編輯推薦
目次
商品簡介
內容簡介
這是一部融合了企業界先進工程實踐經驗和學術界前沿技術和思想的ORC著作。
本書由阿裡巴巴本地生活研究院算法團隊技術專家領銜,從組件、算法、實現、工程應用等維度系統講解基於深度學習的OCR技術的原理和落地。書中一步步剖析了算法背後的數學原理,提供大量簡潔的代碼實現,幫助讀者從零基礎開始構建OCR算法。
全書共9章:
第1章從宏觀角度介紹了ORC技術的發展歷程、概念和產業應用;
第2章講解了OCR的圖像預處理方法;
第3~4章介紹了傳統機器學習方法和深度學習的相關基礎;
第5章講解了基於傳統方法和深度學習方法的OCR的數據生成;
第6章講解了與OCR相關的一些高級深度學習方法,方便讀者理解後續的檢測和識別部分;
第7章講解了文字的檢測技術,從通用的目標檢測到文字的檢測,一步步加深讀者對文字檢測問題的認識;
第8章討論了文字識別的相關技術,定位到文字的位置之後,需要對文字的內容進行進一步的解析;
第9章介紹了一些OCR後處理的方法。
這是一部融合了企業界先進工程實踐經驗和學術界前沿技術和思想的ORC著作。
本書由阿裡巴巴本地生活研究院算法團隊技術專家領銜,從組件、算法、實現、工程應用等維度系統講解基於深度學習的OCR技術的原理和落地。書中一步步剖析了算法背後的數學原理,提供大量簡潔的代碼實現,幫助讀者從零基礎開始構建OCR算法。
全書共9章:
第1章從宏觀角度介紹了ORC技術的發展歷程、概念和產業應用;
第2章講解了OCR的圖像預處理方法;
第3~4章介紹了傳統機器學習方法和深度學習的相關基礎;
第5章講解了基於傳統方法和深度學習方法的OCR的數據生成;
第6章講解了與OCR相關的一些高級深度學習方法,方便讀者理解後續的檢測和識別部分;
第7章講解了文字的檢測技術,從通用的目標檢測到文字的檢測,一步步加深讀者對文字檢測問題的認識;
第8章討論了文字識別的相關技術,定位到文字的位置之後,需要對文字的內容進行進一步的解析;
第9章介紹了一些OCR後處理的方法。
名人/編輯推薦
阿裡巴巴本地生活研究院算法團隊領銜撰寫,達摩院、字節跳動、曠視科技、狗尾草等企業專家聯袂推薦
目次
推薦序
前言
第1章 緒論 1
1.1 人工智能大潮中的OCR發展史 1
1.1.1 傳統OCR方法一般流程 3
1.1.2 基於深度學習OCR方法一般流程 5
1.2 文字檢測 6
1.3 文字識別 8
1.4 產業應用現狀 10
1.5 本章小結 11
1.6 參考文獻 11
第2章 圖像預處理 13
2.1 二值化 13
2.1.1 全域閾值方法 13
2.1.2 局部閾值方法 17
2.1.3 基於深度學習的方法 20
2.1.4 其他方法 22
2.2 平滑去噪 26
2.2.1 空間濾波 26
2.2.2 小波閾值去噪 28
2.2.3 非局部方法 29
2.2.4 基於神經網絡的方法 33
2.3 傾斜角檢測和校正 35
2.3.1 霍夫變換 36
2.3.2 Radon 變換 38
2.3.3 基於 PCA 的方法 38
2.4 實戰 39
2.5 參考文獻 43
第3章 傳統機器學習方法緒論 45
3.1 特徵提取方法 45
3.1.1 基於結構形態的特徵提取 45
3.1.2 基於幾何分佈的特徵提取 61
3.2 分類方法模型 63
3.2.1 支持向量機 63
3.2.2 K近鄰算法 65
3.2.3 多層感知器 70
3.3 實戰:身份證號碼的識別 71
3.3.1 核心代碼 71
3.3.2 測試結果 78
3.4 本章小結 79
3.5 參考文獻 79
第4章 深度學習基礎知識 80
4.1 單層神經網絡 80
4.1.1 神經元 80
4.1.2 感知機 81
4.2 雙層神經網絡 82
4.2.1 雙層神經網絡簡介 82
4.2.2 常用的激活函數 83
4.2.3 反向傳播算法 86
4.3 深度學習 87
4.3.1 卷積神經網絡 88
4.3.2 常用優化算法 90
4.4 訓練網絡技巧 92
4.4.1 權值初始化 92
4.4.2 L1/L2正則化 93
4.4.3 Dropout 94
4.5 實戰 95
4.6 參考文獻 97
第5章 數據生成 99
5.1 背景介紹 99
5.2 傳統單字OCR數據生成 100
5.3 基於深度學習的OCR數據生成 101
5.3.1 文字檢測數據的生成 101
5.3.2 檢測圖片生成 103
5.3.3 其他方法 112
5.3.4 識別數據生成 113
5.4 通過GAN的技術生成數據 114
5.4.1 GAN背景介紹 114
5.4.2 GAN的原理 116
5.4.3 GAN的變種 117
5.5 圖像增廣 123
5.5.1 常用的圖像增強方法 123
5.5.2 深度學習方法 126
5.6 常用的開源數據集 128
5.7 ICDAR的任務和數據集 131
5.8 本章小結 138
5.9 參考文獻 138
第6章 深度學習高級方法 140
6.1 圖像分類模型 140
6.1.1 LeNet5 140
6.1.2 AlexNet 142
6.1.3 VGGNet 143
6.1.4 GoogLeNet 144
6.1.5 ResNet 147
6.1.6 DenseNet 151
6.1.7 SENet 153
6.1.8 輕量化網絡 154
6.2 循環神經網絡 154
6.2.1 RNN網絡 154
6.2.2 GRU 156
6.2.3 GRU的實現 158
6.2.4 LSTM網絡 160
6.3 Seq2Seq 163
6.4 CTC Loss 164
6.4.1 算法詳解 166
6.4.2 前向傳播 168
6.4.3 後向傳播 173
6.4.4 前向/後向算法 173
6.4.5 CTC算法特性 174
6.4.6 代碼解析 175
6.5 Attention 178
6.6 本章小結 181
6.7 參考文獻 182
第7章 文字檢測 183
7.1 研究意義 183
7.2 目標檢測方法 185
7.2.1 目標檢測相關術語 186
7.2.2 傳統檢測方法 189
7.2.3 Two-stage 方法 195
7.2.4 One-stage 方法 210
7.3 文本檢測方法 217
7.3.1 傳統文本檢測方法 217
7.3.2 基於深度學習的文本檢測方法 222
7.4 本章小結 228
7.5 參考文獻 228
第8章 字符識別 232
8.1 任務概覽 232
8.2 數據集說明 233
8.2.1 數據集意義 233
8.2.2 常見識別數據集介紹 234
8.3 評測指標 238
8.3.1 編輯距離 239
8.3.2 歸一化編輯距離 239
8.3.3 字符準確度 239
8.3.4 詞準確率 239
8.3.5 語境相關的評測方式 239
8.4 主流算法介紹 240
8.4.1 傳統光學方法 240
8.4.2 完全基於深度學習的方法 244
8.5 CRNN模型實戰 274
8.5.1 簡介 274
8.5.2 運行環境 274
8.5.3 測試部分講解 274
8.5.4 測試運行結果 279
8.5.5 訓練部分 279
8.5.6 用ICDAR2013數據集訓練CRNN模型 282
8.6 本章小結 284
8.7 參考文獻 285
第9章 OCR後處理方法 288
9.1 文本糾錯 288
9.1.1 BK-tree 289
9.1.2 基於語言模型的中文糾錯 293
9.2 文本結構化 297
9.2.1 模板匹配 298
9.2.2 文本分類 300
9.3 本章小結 304
9.4 參考文獻 304
第10章 版面分析 306
10.1 版面分析詳解 306
10.2 複雜版面識別 309
10.3 文檔恢復 310
10.4 本章小結 311
10.5 參考文獻 311
前言
第1章 緒論 1
1.1 人工智能大潮中的OCR發展史 1
1.1.1 傳統OCR方法一般流程 3
1.1.2 基於深度學習OCR方法一般流程 5
1.2 文字檢測 6
1.3 文字識別 8
1.4 產業應用現狀 10
1.5 本章小結 11
1.6 參考文獻 11
第2章 圖像預處理 13
2.1 二值化 13
2.1.1 全域閾值方法 13
2.1.2 局部閾值方法 17
2.1.3 基於深度學習的方法 20
2.1.4 其他方法 22
2.2 平滑去噪 26
2.2.1 空間濾波 26
2.2.2 小波閾值去噪 28
2.2.3 非局部方法 29
2.2.4 基於神經網絡的方法 33
2.3 傾斜角檢測和校正 35
2.3.1 霍夫變換 36
2.3.2 Radon 變換 38
2.3.3 基於 PCA 的方法 38
2.4 實戰 39
2.5 參考文獻 43
第3章 傳統機器學習方法緒論 45
3.1 特徵提取方法 45
3.1.1 基於結構形態的特徵提取 45
3.1.2 基於幾何分佈的特徵提取 61
3.2 分類方法模型 63
3.2.1 支持向量機 63
3.2.2 K近鄰算法 65
3.2.3 多層感知器 70
3.3 實戰:身份證號碼的識別 71
3.3.1 核心代碼 71
3.3.2 測試結果 78
3.4 本章小結 79
3.5 參考文獻 79
第4章 深度學習基礎知識 80
4.1 單層神經網絡 80
4.1.1 神經元 80
4.1.2 感知機 81
4.2 雙層神經網絡 82
4.2.1 雙層神經網絡簡介 82
4.2.2 常用的激活函數 83
4.2.3 反向傳播算法 86
4.3 深度學習 87
4.3.1 卷積神經網絡 88
4.3.2 常用優化算法 90
4.4 訓練網絡技巧 92
4.4.1 權值初始化 92
4.4.2 L1/L2正則化 93
4.4.3 Dropout 94
4.5 實戰 95
4.6 參考文獻 97
第5章 數據生成 99
5.1 背景介紹 99
5.2 傳統單字OCR數據生成 100
5.3 基於深度學習的OCR數據生成 101
5.3.1 文字檢測數據的生成 101
5.3.2 檢測圖片生成 103
5.3.3 其他方法 112
5.3.4 識別數據生成 113
5.4 通過GAN的技術生成數據 114
5.4.1 GAN背景介紹 114
5.4.2 GAN的原理 116
5.4.3 GAN的變種 117
5.5 圖像增廣 123
5.5.1 常用的圖像增強方法 123
5.5.2 深度學習方法 126
5.6 常用的開源數據集 128
5.7 ICDAR的任務和數據集 131
5.8 本章小結 138
5.9 參考文獻 138
第6章 深度學習高級方法 140
6.1 圖像分類模型 140
6.1.1 LeNet5 140
6.1.2 AlexNet 142
6.1.3 VGGNet 143
6.1.4 GoogLeNet 144
6.1.5 ResNet 147
6.1.6 DenseNet 151
6.1.7 SENet 153
6.1.8 輕量化網絡 154
6.2 循環神經網絡 154
6.2.1 RNN網絡 154
6.2.2 GRU 156
6.2.3 GRU的實現 158
6.2.4 LSTM網絡 160
6.3 Seq2Seq 163
6.4 CTC Loss 164
6.4.1 算法詳解 166
6.4.2 前向傳播 168
6.4.3 後向傳播 173
6.4.4 前向/後向算法 173
6.4.5 CTC算法特性 174
6.4.6 代碼解析 175
6.5 Attention 178
6.6 本章小結 181
6.7 參考文獻 182
第7章 文字檢測 183
7.1 研究意義 183
7.2 目標檢測方法 185
7.2.1 目標檢測相關術語 186
7.2.2 傳統檢測方法 189
7.2.3 Two-stage 方法 195
7.2.4 One-stage 方法 210
7.3 文本檢測方法 217
7.3.1 傳統文本檢測方法 217
7.3.2 基於深度學習的文本檢測方法 222
7.4 本章小結 228
7.5 參考文獻 228
第8章 字符識別 232
8.1 任務概覽 232
8.2 數據集說明 233
8.2.1 數據集意義 233
8.2.2 常見識別數據集介紹 234
8.3 評測指標 238
8.3.1 編輯距離 239
8.3.2 歸一化編輯距離 239
8.3.3 字符準確度 239
8.3.4 詞準確率 239
8.3.5 語境相關的評測方式 239
8.4 主流算法介紹 240
8.4.1 傳統光學方法 240
8.4.2 完全基於深度學習的方法 244
8.5 CRNN模型實戰 274
8.5.1 簡介 274
8.5.2 運行環境 274
8.5.3 測試部分講解 274
8.5.4 測試運行結果 279
8.5.5 訓練部分 279
8.5.6 用ICDAR2013數據集訓練CRNN模型 282
8.6 本章小結 284
8.7 參考文獻 285
第9章 OCR後處理方法 288
9.1 文本糾錯 288
9.1.1 BK-tree 289
9.1.2 基於語言模型的中文糾錯 293
9.2 文本結構化 297
9.2.1 模板匹配 298
9.2.2 文本分類 300
9.3 本章小結 304
9.4 參考文獻 304
第10章 版面分析 306
10.1 版面分析詳解 306
10.2 複雜版面識別 309
10.3 文檔恢復 310
10.4 本章小結 311
10.5 參考文獻 311
主題書展
更多
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

