評論

滿額折

大數據技術架構：核心原理與應用實踐（簡體書）

ISBN13：9787121414183
出版社：電子工業出版社
作者：李智慧
裝訂／頁數：平裝／197頁
規格：24cm*17cm (高/寬)
版次：一版
出版日：2021/07/01
關鍵字：大數據技術架構：核心原理與應用實踐（簡體書）、大數據、數據、技術、架構、核心、原理、應用、實踐、簡體、電子工業出版社、李智慧、簡體書、工業技術、自動化技術、計算技術、數據處理、數據處理系統、

中國圖書館分類：數據處理、數據處理系統

人民幣定價：89 元

定價：NT$ 534 元

優惠價：87 折 465 元

領券後再享88折

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：13 點

相關商品

商品簡介

作者簡介

名人/編輯推薦

序

商品簡介

在人工智能時代，不論是否從事大數據開發，掌握大數據的原理和架構早已成為每個工程師的必備技能。本書結合作者多年大數據開發、應用的經驗，深入淺出地闡述大數據的完整知識體系，幫助讀者從不同視角找到大數據方向的突破口，真正從普通開發者晉升為擁有大數據思維並能解決複雜問題的技術專家。

本書一共分為7章，分別是大數據的前世今生與應用場景、Hadoop大數據原理與架構、大數據生態體系主要產品原理與架構、大數據開發實踐、大數據平臺與系統集成、大數據分析與運營、大數據算法與機器學習。

本書既可作為初學者了解大數據技術的入門指南，也可作為有一定經驗的工程師深入理解大數據思維的有益參考。

作者簡介

李智能，同程旅行交通首席架構師。曾任阿裡巴巴、Intel架構師，長期從事分布式系統與大數據開發，Apache Spark 代碼貢獻者，騰訊云 TVP，著有暢銷書《大型網站技術架構：核心原理與案例分析》。

名人/編輯推薦

技術暢銷書《大型網站技術架構：核心原理與案例分析》作者李智能老師的又一本力作。本書沿續了他一貫的寫作風格：用簡單易懂的表達方式，將複雜的技術體系一一拆解、融入有趣的講解當中，剖析學習中的各個疑難點，直接領略技術的本質，不走彎路！

本書既適合零基礎學習大數據技術入門使用，也適合有經驗的工程師，了解大數據技術的思路，掌握心法、舉一反三、更好地運用於實踐工作。

序

為什麼說每個軟件工程師都應該懂大數據

2012年的時候，我從阿裡巴巴跳槽到Intel做大數據開發。當時很多人不理解，我為什麼會從如日中天的互聯網公司跳槽到“傳統”的IT公司。

我是這樣考慮的：軟件編程技術出現已經半個多世紀了，其核心價值就是把現實世界的業務操作搬到計算機上，通過計算機軟件和網絡進行業務和數據處理。我們常見的軟件系統，不管是電子商務還是庫存管理，不管是搜索引擎還是收銀終端，都是如此。這一點價值巨大，可以成百上千倍地提高我們的生活和工作效率。

時至今日，能用計算機軟件提高效率的地方幾乎已經被全部發掘過了，計算機軟件成為人們日常生活的必備品，人們已經習慣了計算機軟件的存在。在這種情況下，如果想讓軟件再成百上千倍地提高我們的生活和工作效率，使用以前的那套“分析用戶需求和業務場景，進行軟件設計和開發”的做法顯然是不可能的了。

那如何走出這個困局呢？我覺得，要想讓計算機軟件（包括互聯網應用）繼續提高我們的生活工作效率，就必須發掘出用戶自己都沒有發現的需求，必須洞悉用戶自己都不了解的自己。

計算機軟件不應該再像以前那樣，等用戶輸入操作，然後根據編寫好的邏輯執行用戶的操作，而是應該能夠預測用戶的期望，在用戶還沒想好要做什麼的情況下，主動提供操作建議和選項，提醒用戶應該做什麼。

這聽起來很科幻，但實際上已經出現了，那就是大數據技術和機器學習技術，也就是我們都耳熟能詳的人工智能技術。

現在回過頭來看，我當時的判斷是正確的。就在我加入Intel從事Hadoop開源軟件開發的第二年，也就是2013年，大數據技術開始火熱起來，從BAT到傳統的商業公司，紛紛在自己的軟件系統中大規模使用大數據技術，有的公司甚至稱自己為大數據公司，而2013年後來也被稱為“大數據元年”。

又過了3年，也就是2016年，Google的AlphaGo橫空出世，讓我們見識到了“大數據 + 機器學習”的巨大威力。

所以，我同意這樣一種說法：在未來，軟件開發將是“面向AI編程”，軟件的核心業務邏輯和價值將圍繞機器學習的結果（也就是AI）展開，軟件工程師的工作就是考慮如何將機器學習的結果更好地呈現出來，如何更好地實現人和AI的交互。

我曾經跟一個同學討論這個觀點，他認同面向AI編程，但是他認為：這並不意味著我一定要懂AI，也不一定要懂大數據和機器學習，我只要懂業務，理解機器學習算出的結果就可以了。

真的是這樣嗎？只需要懂業務就能在“面向AI編程”的時代勝任軟件開發的工作嗎？

在阿西莫夫的科幻經典巨作《銀河帝國：基地》中，描述了一個場景。

在銀河系，隨著戰爭的蔓延，很多星球的科技逐漸退步，到後來，他們雖然還有核電站等高科技產品，但是已經不知道它們是如何運作的了。而在銀河系的邊緣，有一顆小星球，在大戰爆發前從銀河系各處轉移了大量的科技文獻，這顆小星球沒有加入戰爭，並將科學技術一直傳承了下去。

後來，當其他星球的科技產品出現問題的時候，就會向這顆小星球求援，小星球會派工程師前去維修。但是，他們並不管工程師叫“工程師”，而是叫“僧侶”；也不管核電站叫“核電站”，而是叫“聖殿”；維修也不叫“維修”，而是叫“祈禱”。他們的說法是：因為這顆星球上的人做了不該做的事，比如發動戰爭、破壞環境等，觸怒了神，所以神歸罪下來，讓他們失去能源，如果想恢復能源，就必須糾正自己的錯誤行為並向神祈禱贖罪。所以，當工程師進入核電站維修的時候，整個星球的人都跪下祈禱，當電力恢復的時候，大家紛紛稱頌神的偉大。

你看，科學和宗教並不是互斥的，科學也可以成為宗教，當人們面對自己不懂的東西的時候，會傾向於用宗教的原理去解釋。

如果未來是面向AI編程的，希望軟件工程師不要把AI當作什麼萬能的東西。當機器學習結果出現問題的時候，我們既不要陷入某種不可知的“玄學”之中，也不要無謂地抱怨什麼“人工智障”，而是應該積極參與到問題的討論、分析和解決中去。這也是我的觀點，即使自己不做與大數據和機器學習相關的開發，每個程序員也應該懂大數據和機器學習。

將來，數據會逐漸成為公司的核心資產和主要競爭力，公司的業務展開和產品進化也會朝著如何利用好數據價值的方向發展。如果你不懂大數據和機器學習，可能連最基本的產品邏輯和商業意圖都搞不清楚。如果只懂編程，那麼你的生存空間會越來越窄，發展也會處處受限。

如果說大數據技術和應用是一個技術的“殿堂”，那麼希望本書不僅可以帶你找到進入大數據“殿堂”的鑰匙，也能透視“殿堂”裡的結構、裝飾、家具，告訴你為什麼用這些元素可以構建恢弘的“殿堂”，以及如何更好地利用這個“殿堂”的空間與設施，而不是讓你進入“殿堂”看到一張床就舒服地躺下，錯失了更美的風景。

學習大數據最好的時間是十年前，其次就是現在！

1 大數據的前世今生與應用場景 1
大數據的前世今生：大數據簡史與大數據生態體系概述 1
從搜索引擎到人工智能：大數據應用發展史 6
大數據應用的搜索引擎時代 6
大數據應用的數據倉庫時代 7
大數據應用的數據挖掘時代 7
大數據應用的機器學習時代 8
數據驅動一切：大數據全領域應用場景分析 10
大數據在醫療健康領域的應用 10
大數據在社交媒體領域的應用 12
大數據在金融領域的應用 13
大數據在新零售領域的應用 13
大數據在交通領域的應用 13
2 Hadoop大數據原理與架構 15
移動計算比移動數據更劃算 16
從RAID看垂直伸縮到水平伸縮的演化 19
新技術層出不窮，HDFS依然是存儲的王者 23
為什麼說MapReduce既是編程模型又是計算框架 29
MapReduce如何讓數據完成一次旅行 33
MapReduce作業啟動和運行機制 34
MapReduce數據合並與連接機制 37
為什麼把Yarn稱為資源調度框架 39
程序員應該如何學好大數據技術 44
3 大數據生態體系主要產品原理與架構 47
Hive是如何讓MapReduce實現SQL操作的 47
用MapReduce實現SQL數據分析的原理 48
Hive的架構 49
Hive如何實現join操作 51
人們並沒有覺得MapReduce速度慢，直到Spark出現 53
同樣的本質，為何Spark可以更高效 57
Spark的計算階段 57
Spark的作業管理 61
Spark的執行過程 62
BigTable的開源實現：HBase 63
HBase可伸縮架構 64
HBase可擴展數據模型 65
HBase的高性能存儲 66
流式計算的代表：Storm、Spark Streaming、Flink 68
Storm 68
Spark Streaming 70
Flink 71
ZooKeeper是如何保證數據一致性的 74
分布式一致性原理 75
Paxos算法與ZooKeeper架構 76
大數據技術應用場景分析 80
4 大數據開發實踐 82
如何自己開發一個大數據SQL引擎 83
Panthera架構 83
Panthera的SQL語法轉換 84
比如這條SQL 85
Panthera程序設計 85
Spark的性能優化案例分析 89
Apache開源社區的組織和參與方式 90
軟件性能優化 91
大數據開發的性能優化 91
Spark性能優化 92
案例1：Spark任務文件初始化調優 95
案例2：Spark任務調度優化 98
案例3：Spark應用配置優化 102
案例4：操作系統配置優化 102
案例5：硬件優化 103
大數據基準測試可以帶來什麼好處 105
大數據基準測試的應用 105
大數據基準測試工具HiBench 107
從大數據性能測試工具Dew看如何快速開發大數據系統 109
Dew設計與開發 110
Akka的原理與應用 112
大數據開發實踐的啟示 115
5 大數據平臺與系統集成 117
大數據平臺 = 互聯網產品 + 大數據產品 117
數據采集 119
數據處理 119
數據輸出與展示 119
大數據任務調度 120
大數據平臺Lamda架構 120
數據在大數據平臺中的流轉 121
大數據從哪裡來 123
從數據庫導入 123
從日志文件導入 124
前端埋點采集 126
爬蟲系統 128
數據的熵 128
知名大廠如何搭建大數據平臺 129
淘寶大數據平臺 129
美團大數據平臺 130
滴滴大數據平臺 131
學架構就是學架構模式 133
盤點可供中小企業參考的商業大數據平臺 134
大數據解決方案提供商 134
大數據云計算服務商 136
大數據SaaS服務商 138
大數據開放平臺 138
當大數據遇上物聯網 139
物聯網應用場景分析 139
物聯網平臺架構 140
大數據技術在物聯網中的應用 141
6 大數據分析與運營 144
老闆想要監控什麼運營指標 144
互聯網運營的常用數據指標 145
數據可視化圖表與數據監控 147
一個用戶新增下降的數據分析案例 150
數據分析案例 151
數據分析方法 154
AB測試與灰度發布必知必會 156
A/B測試的過程 157
A/B測試的系統架構 158
灰度發布 159
如何利用大數據成為“增長黑客” 160
Hotmail的增長黑客故事 161
AARRR用戶增長模型 161
利用大數據增長用戶數量 163
為什麼說數據驅動運營 164
7 大數據算法與機器學習 168
如何對數據進行分類和預測 168
k近鄰分類算法 169
數據的距離 170
文本的特徵值 171
貝葉斯分類 172
如何發掘數據的關係 174
搜索排序 174
關聯分析 177
聚類 179
如何預測用戶的喜好 181
基於人口統計的推薦 182
基於商品屬性的推薦 183
基於用戶的協同過濾推薦 184
基於商品的協同過濾推薦 185
機器學習的數學原理是什麼 186
樣本 187
模型 187
算法 188
為什麼學機器學習要學數學 189
從感知機到神經網絡 190
感知機 191
神經網絡 192

主題書展

優惠方式：53折起

主題書展

更多書展

本週66折

間歇高效率的三次閱讀法：讀懂一本書只要100分鐘，解決過目就忘、知識無法內化與活用的閱讀煩惱

英語聽&說：高級篇(精)(附CD2片)

JLPT新日檢【N2讀解】滿分衝刺大作戰：64篇擬真試題破解訓練＋8大題型各個擊破！

冷酷復仇

世界第一簡單電路學

逍遙的莊子(二版)─三民叢刊287

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

大數據技術架構：核心原理與應用實踐（簡體書）

商品簡介

作者簡介

名人/編輯推薦

序

目次

主題書展

主題書展

本週66折

您曾經瀏覽過的商品

購物須知

網路書店

復北店

重南店