數據架構:數據科學家的第一本書(原書第2版)(簡體書)
商品資訊
系列名:數據科學與工程技術叢書
ISBN13:9787111679608
出版社:機械工業出版社
作者:因蒙
譯者:黃智瀕
出版日:2021/05/12
裝訂/頁數:平裝/234頁
規格:24cm*17cm (高/寬)
商品簡介
名人/編輯推薦
目次
商品簡介
本書由“數據倉庫之父”Inmon和“Data Vault之父”Linstedt領銜撰寫,帶領讀者從宏觀視角瞭解數據架構的基本概念和原則,是數據科學家、分析師和管理者在入門階段的必備參考讀物。本書創新性地提出終端狀態架構的概念,新增了關於可視化和大數據的章節,以及文本管理和分析等來自不同行業的實例。通過閱讀本書,讀者將通曉數據收集、治理、提取、分析等不同階段的核心技術,進而學會將大數據技術融入現有的信息基礎設施或數據倉庫系統。
名人/編輯推薦
“數據倉庫之父”Inmon和“Data Vault之父”Linstedt領銜撰寫,全面瞭解數據架構的基本概念和原則
目次
獻詞
譯者序
第1章 數據架構與數據類型1
1.1 數據架構簡介1
1.1.1 細分數據1
1.1.2 重複性和非重複性非結構化數據2
1.1.3 數據的“分水嶺”2
1.1.4 文本數據和非文本數據3
1.1.5 各種形式的數據3
1.1.6 商業價值4
1.2 數據基礎設施4
1.2.1 重複性數據的兩種類型4
1.2.2 重複性結構化數據5
1.2.3 重複性大數據6
1.2.4 兩種基礎設施6
1.2.5 基礎設施的優化7
1.2.6 比較兩種基礎設施8
1.3 分水嶺8
1.3.1 企業數據的分類8
1.3.2 什麼是分水嶺9
1.3.3 重複性非結構化數據9
1.3.4 非重複性非結構化數據10
1.3.5 不同的環境12
1.4 企業數據統計圖13
1.5 企業數據分析16
1.6 數據的生命週期:理解時間線上的數據19
1.7 數據簡史23
1.7.1 紙帶和打孔卡23
1.7.2 磁帶23
1.7.3 磁盤存儲器24
1.7.4 數據庫管理系統24
1.7.5 耦合處理器24
1.7.6 在線事務處理24
1.7.7 數據倉庫25
1.7.8 並行數據管理25
1.7.9 數據保險箱25
1.7.10 大數據25
1.7.11 分水嶺26
第2章 終端狀態架構――“世界地圖”27
2.1 架構組件27
2.2 終端狀態架構中不同類型的數據28
2.3 通過模型塑造數據29
2.4 數據倉庫在哪裡30
2.5 不同類型的問題在終端狀態架構中得到不同的回答31
2.6 數據湖中的數據31
2.7 終端狀態架構中的元數據32
2.8 網絡化元數據32
2.9 演變的經驗33
2.10 數據湖架構34
第3章 終端狀態架構中的轉換35
3.1 冗餘數據35
3.2 轉換35
3.3 定制數據36
3.4 轉換文本37
3.5 轉換應用數據37
3.6 將數據轉換為定制狀態38
3.7 將數據轉換為批量存儲38
3.8 自動生成數據的轉換39
3.9 轉換批量數據39
3.10 轉換和冗餘40
第4章 大數據41
4.1 大數據簡史41
4.1.1 類比―佔領制高點41
4.1.2 佔領制高點42
4.1.3 IBM 360的標準化42
4.1.4 在線事務處理42
4.1.5 Teradata和MPP處理43
4.1.6 Hadoop和大數據43
4.1.7 IBM和Hadoop43
4.1.8 堅守制高點43
4.2 何謂大數據43
4.2.1 另一種定義44
4.2.2 大體量44
4.2.3 廉價存儲44
4.2.4 羅馬人口普查方法44
4.2.5 非結構化數據45
4.2.6 大數據中的數據46
4.2.7 重複性數據的語境46
4.2.8 非重複性數據47
4.2.9 非重複性數據的語境47
4.3 並行處理49
4.4 非結構化數據53
4.4.1 無處不在的文本信息53
4.4.2 基於結構化數據的決策53
4.4.3 商業價值建議54
4.4.4 重複性和非重複性非結構化信息54
4.4.5 易於分析55
4.4.6 語境化56
4.4.7 一些語境化方法56
4.4.8 Map Reduce57
4.4.9 手工分析58
4.5 將重複性非結構化數據語境化58
4.5.1 解析重複性非結構化數據59
4.5.2 重鑄輸出數據59
4.6 文本消歧59
4.6.1 從敘述性數據庫到分析性數據庫60
4.6.2 文本消歧的輸入60
4.6.3 映射61
4.6.4 輸入/輸出61
4.6.5 文檔分解和命名值處理62
4.6.6 文檔預處理63
4.6.7 電子郵件63
4.6.8 電子表格64
4.6.9 報告反編譯器64
4.7 分類法65
4.7.1 數據模型和分類法66
4.7.2 分類法的適用性67
4.7.3 什麼是分類法67
4.7.4 多種語言的分類法68
4.7.5 商業分類法還是私人分類法68
4.7.6 分類法和文本消歧的動態過程68
4.7.7 分類法和文本消歧的分離技術68
4.7.8 分類法的不同類型69
4.7.9 分類法―隨著時間的推移進行維護70
第5章 孤島式應用環境71
5.1 孤島式應用的挑戰71
5.2 構建孤島式應用73
5.3 孤島式應用是什麼樣的74
5.4 當前值數據74
5.5 最低限度的歷史數據75
5.6 高可用性76
5.7 孤島式應用之間的重疊76
5.8 凍結業務需求77
5.9 拆除孤島式應用77
第6章 數據保險箱78
6.1 數據保險箱2.0簡介78
6.1.1 數據保險箱的起源和背景78
6.1.2 什麼是數據保險箱2.0建模80
6.1.3 如何定義數據保險箱2.0方法論81
6.1.4 為什麼需要數據保險箱2.0架構81
6.1.5 數據保險箱2.0的實施範圍81
6.1.6 數據保險箱2.0的商業利益81
6.1.7 數據保險箱1.0簡介82
6.2 數據保險箱建模簡介83
6.2.1 數據保險箱模型的概念83
6.2.2 數據保險箱模型的定義83
6.2.3 數據保險箱模型的組成部分83
6.2.4 業務鍵為何如此重要84
6.2.5 數據保險箱和數據倉庫的關係85
6.2.6 如何轉換到數據保險箱建模85
6.2.7 為什麼要對暫存區的數據進行限制86
6.2.8 數據保險箱模型的基本規則86
6.2.9 為什麼需要很多鏈接結構87
6.2.10 數據保險箱2.0的主鍵選項87
6.3 數據保險箱架構簡介93
譯者序
第1章 數據架構與數據類型1
1.1 數據架構簡介1
1.1.1 細分數據1
1.1.2 重複性和非重複性非結構化數據2
1.1.3 數據的“分水嶺”2
1.1.4 文本數據和非文本數據3
1.1.5 各種形式的數據3
1.1.6 商業價值4
1.2 數據基礎設施4
1.2.1 重複性數據的兩種類型4
1.2.2 重複性結構化數據5
1.2.3 重複性大數據6
1.2.4 兩種基礎設施6
1.2.5 基礎設施的優化7
1.2.6 比較兩種基礎設施8
1.3 分水嶺8
1.3.1 企業數據的分類8
1.3.2 什麼是分水嶺9
1.3.3 重複性非結構化數據9
1.3.4 非重複性非結構化數據10
1.3.5 不同的環境12
1.4 企業數據統計圖13
1.5 企業數據分析16
1.6 數據的生命週期:理解時間線上的數據19
1.7 數據簡史23
1.7.1 紙帶和打孔卡23
1.7.2 磁帶23
1.7.3 磁盤存儲器24
1.7.4 數據庫管理系統24
1.7.5 耦合處理器24
1.7.6 在線事務處理24
1.7.7 數據倉庫25
1.7.8 並行數據管理25
1.7.9 數據保險箱25
1.7.10 大數據25
1.7.11 分水嶺26
第2章 終端狀態架構――“世界地圖”27
2.1 架構組件27
2.2 終端狀態架構中不同類型的數據28
2.3 通過模型塑造數據29
2.4 數據倉庫在哪裡30
2.5 不同類型的問題在終端狀態架構中得到不同的回答31
2.6 數據湖中的數據31
2.7 終端狀態架構中的元數據32
2.8 網絡化元數據32
2.9 演變的經驗33
2.10 數據湖架構34
第3章 終端狀態架構中的轉換35
3.1 冗餘數據35
3.2 轉換35
3.3 定制數據36
3.4 轉換文本37
3.5 轉換應用數據37
3.6 將數據轉換為定制狀態38
3.7 將數據轉換為批量存儲38
3.8 自動生成數據的轉換39
3.9 轉換批量數據39
3.10 轉換和冗餘40
第4章 大數據41
4.1 大數據簡史41
4.1.1 類比―佔領制高點41
4.1.2 佔領制高點42
4.1.3 IBM 360的標準化42
4.1.4 在線事務處理42
4.1.5 Teradata和MPP處理43
4.1.6 Hadoop和大數據43
4.1.7 IBM和Hadoop43
4.1.8 堅守制高點43
4.2 何謂大數據43
4.2.1 另一種定義44
4.2.2 大體量44
4.2.3 廉價存儲44
4.2.4 羅馬人口普查方法44
4.2.5 非結構化數據45
4.2.6 大數據中的數據46
4.2.7 重複性數據的語境46
4.2.8 非重複性數據47
4.2.9 非重複性數據的語境47
4.3 並行處理49
4.4 非結構化數據53
4.4.1 無處不在的文本信息53
4.4.2 基於結構化數據的決策53
4.4.3 商業價值建議54
4.4.4 重複性和非重複性非結構化信息54
4.4.5 易於分析55
4.4.6 語境化56
4.4.7 一些語境化方法56
4.4.8 Map Reduce57
4.4.9 手工分析58
4.5 將重複性非結構化數據語境化58
4.5.1 解析重複性非結構化數據59
4.5.2 重鑄輸出數據59
4.6 文本消歧59
4.6.1 從敘述性數據庫到分析性數據庫60
4.6.2 文本消歧的輸入60
4.6.3 映射61
4.6.4 輸入/輸出61
4.6.5 文檔分解和命名值處理62
4.6.6 文檔預處理63
4.6.7 電子郵件63
4.6.8 電子表格64
4.6.9 報告反編譯器64
4.7 分類法65
4.7.1 數據模型和分類法66
4.7.2 分類法的適用性67
4.7.3 什麼是分類法67
4.7.4 多種語言的分類法68
4.7.5 商業分類法還是私人分類法68
4.7.6 分類法和文本消歧的動態過程68
4.7.7 分類法和文本消歧的分離技術68
4.7.8 分類法的不同類型69
4.7.9 分類法―隨著時間的推移進行維護70
第5章 孤島式應用環境71
5.1 孤島式應用的挑戰71
5.2 構建孤島式應用73
5.3 孤島式應用是什麼樣的74
5.4 當前值數據74
5.5 最低限度的歷史數據75
5.6 高可用性76
5.7 孤島式應用之間的重疊76
5.8 凍結業務需求77
5.9 拆除孤島式應用77
第6章 數據保險箱78
6.1 數據保險箱2.0簡介78
6.1.1 數據保險箱的起源和背景78
6.1.2 什麼是數據保險箱2.0建模80
6.1.3 如何定義數據保險箱2.0方法論81
6.1.4 為什麼需要數據保險箱2.0架構81
6.1.5 數據保險箱2.0的實施範圍81
6.1.6 數據保險箱2.0的商業利益81
6.1.7 數據保險箱1.0簡介82
6.2 數據保險箱建模簡介83
6.2.1 數據保險箱模型的概念83
6.2.2 數據保險箱模型的定義83
6.2.3 數據保險箱模型的組成部分83
6.2.4 業務鍵為何如此重要84
6.2.5 數據保險箱和數據倉庫的關係85
6.2.6 如何轉換到數據保險箱建模85
6.2.7 為什麼要對暫存區的數據進行限制86
6.2.8 數據保險箱模型的基本規則86
6.2.9 為什麼需要很多鏈接結構87
6.2.10 數據保險箱2.0的主鍵選項87
6.3 數據保險箱架構簡介93
主題書展
更多
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。
優惠價:87
465
海外經銷商無庫存,到貨日平均30天至45天

