TOP
0
0
【簡體曬書節】 單本79折,5本7折,優惠只到5/31,點擊此處看更多!
深入理解Flink:實時大數據處理實踐(簡體書)
滿額折

深入理解Flink:實時大數據處理實踐(簡體書)

商品資訊

人民幣定價:89 元
定價
:NT$ 534 元
優惠價
87465
領券後再享88折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:13 點
相關商品
商品簡介
名人/編輯推薦
目次

商品簡介

本書介紹了當下最流行的實時數據處理引擎Flink,講解了流處理API、批處理API、機器學習引擎FlinkML、關系型API、複雜事件處理FLinkCEP,以及指標度量與部署模式。此外,本書展開分析了流式數據處理理論中時間、窗口、水印、觸發器、遲到生存期之間的關聯關係;深入分析了多項式曲線擬合、分類算法SVM、推薦算法ALS-WR的理論和FlinkML實現。希望快速上手Flink以開展實時大數據處理與在線機器學習應用的從業者,本書是不二的選擇:本書首先介紹相關概念引入的原因、解決方案的演進過程、Flink的對應架構、編程案例以及開放式的思考問題。

名人/編輯推薦

批處理|流處理|編程基礎|FlinkML|Flink CEP|實時大數據理論+Flink實踐方法論

實時大數據是與時俱進的變革
從互聯網時代的數據爆炸,到即將大規模鋪開的 5G 通信支撐下的物聯網時代的大數據浩海,作為賦能工具的大規模數據處理,技術架構起到了決定性的作用,反過來也推動了技術架構與時俱進。
在穀歌公司發表的三篇劃時代論文(分別介紹 MapReduce、GFS 和 BigTable)的推動下,開源項目 Hadoop 橫空出世,並於 2008 年 1 月正式成為 Apache 的頂級項目;此後,Hadoop 迅速建立起大數據生態體系,並由此衍生出一系列大數據處理的理論和與之對應的大數據處理框架:從批處理到流處理,從 Hadoop 到 Storm /
Spark,再到 Flink。本書將闡述大數據實時處理理論的變遷,並著重介紹流處理框架 Flink。
數據處理任務往往需要對全量數據進行計算,而全量數據很難使用傳統關係型數據庫進行批量計算,原因如下:
(1)磁盤尋址時間的提升速度遠遠落後於磁盤帶寬的提升速度。如果數據訪問包含大量的磁盤尋址,則大數據處理勢必帶來較大的延遲,因此基於傳輸帶寬設計大數據處理系統更符合現狀。
(2)相比全量數據計算,關係型數據庫適用於在線事務處理(OLTP,On-Line Transaction Processing)場景,查詢和更新是其設計的要點,索引是主要的設計方案。但是在大數據集的場景下,索引的效率往往不如全量掃描。因此,Hadoop 應運而生,借助 MapReduce 計算引擎成功解決了大數據所面臨的可計算(可參考穀歌的論文 MapReduce:Simplified Data Processing on Large Clusters)、伸縮、容錯等困難,成為大數據系統的標配組件。
數據爆炸式增長,以及數據處理的實時性要求越來越高,大數據處理系統越來越複雜。在這種情況下,傳統的 OLTP+OLAP(On-Line Analysis Processing,在線分析處理)系統架構不堪重負:複雜的數據需求實現流程、過載的數據倉庫抽取任務隊列、不同的技術棧帶來的需求理解偏差等將導致數據從 IT 部門到 DT 部門的週期過長;微服務方法的大規模應用,導致在分布式系統中維護全域狀態的一致性異常困難,而以數據流作為中心數據源的流處理方法能有效規避這種困難。
有的學者甚至提出通過合理的架構設計,打破 CAP 定理。因此,低延遲、強一致性、適用於亂序的流處理框架 Flink 正席捲而來,即將成為大數據領域流處理的標配組件。
本書特色
本書將從多個角度講解同一個技術概念:
(1)分析引入 Flink 這個技術概念的原因,使讀者能夠快速理解相關技術的應用場景,如為什麼需要實時數據處理、為什麼需要機器學習架構、為什麼需要關系型 API、為什麼需要複雜事件處理。
(2)剖析 Flink 技術的理論創新過程,使讀者能夠深入理解 Flink 的理論基礎,使 Flink 應用開發架構師或工程師能夠遊刃有餘地解決線上系統遇到的實際問題,如 Flink 一致性保證的異步檢查點屏障的理論創新過程、機器學習中分類和推薦算法的分布式實現的理論創新過程、複雜事件處理的自動機理論創新。
(3)解析 Flink 編程 API 的架構。使讀者可以從理論框架與 Flink 架構實現兩個角度體會這個技術概念的內涵。
(4)總結應用 API 編程解決實際問題的方法。使讀者能夠在理解理論和編程API 的基礎上編程解決實際問題。
(5)在每章的最後一節提出一些開放式的思考題,以便讀者思考這些技術概念之間的關聯。
內容組織概要
本書共分為 8 章,每章的基本內容概要如下。
第 1 章流式數據架構理論 首先,概述大數據處理架構的演進歷程,使讀者瞭解大數據處理架構正在經歷怎樣的變革。以韓國 SK 電信的 Driving Score 技術架構演變和流式數據架構在機器學習領域的應用為例,介紹流式數據架構的產生背景及應用場景;其次,梳理流式數據架構中主要概念間的關聯和關係,並以實例分析根據事件時間開滾動窗口的內在機制;最後,論述流式數據架構中一致性理論的基礎及實現方式。
第 2 章編程基礎 首先,概述 Flink 的特徵,使讀者快速瞭解 Flink 是什麼;其次,搭建流處理和批處理 IDEA 開發環境,使讀者感性地瞭解 Flink 是怎麼解決數據處理問題的;最後,介紹 Flink 的編程模型與運行時結構,如 API 分層關係、應用程序基本結構、運行時結構、任務調度和物理執行計劃。
第 3 章流處理 API 首先,概述流處理 Pipeline、Source 和 Sink 的常見形式;其次,介紹時間特徵設置與水印生成器、算子、窗口機制、連接器、狀態管理與檢查點編程。
第 4 章批處理 API 首先,概述批處理的程序結構,Source、Sink 與連接器的常見形式,以及常見的算子函數;其次,以兩個機器學習的例子來介紹迭代的應用;最後,介紹批處理程序優化的語義注解形式。
第 5 章機器學習引擎架構與應用編程 首先,在總結 Scikit-learn 架構實踐的基礎上,詳細分析 FlinkML 的底層實現代碼;其次,分析多項式曲線擬合、分類算法、推薦算法的理論和代碼實現。本章有大量代碼分析,是流處理與批處理 API編程的實戰部分。
第 6 章關系型 API 首先,介紹 Flink 引入關系型 API 的原因,以及 SQL 解析與優化框架 Calcite;其次,詳述關系型 API 的主要內容;最後,介紹架構在DataStream 上的關系型 API 的背後機制,即動態表。
第 7 章複雜事件處理 首先,以股票異常交易檢測為例講述模式匹配的編程過程,以及流處理 API 和關系型 API 在解決這類問題時遇到的困難;其次,介紹 NFAb模式匹配編程模型;最後,基於 Flink CEP API 編程解決股票異常交易檢測問題。
第 8 章監控與部署 講述指標度量的編程模型和 Flink 集群部署模式。

目次

第 1 章 流式數據架構理論 ............................................................................... 1
1.1 大數據處理架構演進歷程 ......................................................................... 1
1.2 案例分析 ..................................................................................................... 8
1.2.1 SK 電信駕駛安全性評分 ................................................................ 8
1.2.2 流式機器學習應用 ........................................................................ 12
1.3 流式數據架構基本概念 ........................................................................... 17
1.3.1 流 .................................................................................................... 17
1.3.2 時間 ................................................................................................ 18
1.3.3 窗口 ................................................................................................ 21
1.3.4 水印 ................................................................................................ 23
1.3.5 觸發器 ............................................................................................ 23
1.3.6 數據處理模式 ................................................................................ 23
1.3.7 如何理解流式數據架構的內在機制 ............................................ 27
1.4 根據事件時間開滾動窗口 ....................................................................... 28
1.4.1 what:轉換/where:窗口 ........................................................... 29
1.4.2 when:水印 ................................................................................... 29
1.4.3 when:觸發器 ............................................................................... 32
1.4.4 when:遲到生存期 ....................................................................... 34
1.4.5 how:累加模式 ............................................................................. 35
1.5 一致性 ....................................................................................................... 37
1.5.1 有狀態計算 .................................................................................... 37
1.5.2 exactly-once 語義 ........................................................................... 38
1.5.3 異步屏障快照 ................................................................................ 39
1.5.4 保存點 ............................................................................................ 44
1.6 思考題 ....................................................................................................... 45
第 2 章 編程基礎 ........................................................................................... 46
2.1 Flink 概述 ................................................................................................. 46
2.2 讓輪子轉起來 ........................................................................................... 47
2.2.1 本書約定 ........................................................................................ 47
2.2.2 搭建單機版環境 ............................................................................ 48
2.2.3 配置 IDEA ..................................................................................... 51
2.3 編程模型 ................................................................................................... 53
2.3.1 分層組件棧 .................................................................................... 53
2.3.2 流式計算模型 ................................................................................ 54
2.3.3 流處理編程 .................................................................................... 57
2.4 運行時 ....................................................................................................... 62
2.4.1 運行時結構 .................................................................................... 62
2.4.2 任務調度 ........................................................................................ 66
2.4.3 物理執行計劃 ................................................................................ 69
2.5 思考題 ....................................................................................................... 70
第 3 章 流處理 API ................................

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 465
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區