TOP
大數據技術入門:Hadoop + Spark(簡體書)
滿額折

大數據技術入門:Hadoop + Spark(簡體書)

商品資訊

人民幣定價:49.9 元
定價
:NT$ 299 元
優惠價
87260
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點 :7 點
商品簡介
作者簡介
目次

商品簡介

本書基礎理論、應用開發以及實際案例相結合,圍繞Hadoop、Spark生態圈循序漸進地介紹關於大數據技術領域中的基礎知識、應用開發技術和基於Spark的常見機器學習算法,最後以兩個實戰案例全面、系統地應用了本書介紹的基礎知識和應用開發方法。全書共14章,分別為大數據概述、Hadoop簡介及安裝部署、HDFS、MapReduce計算框架、Hive數據倉庫、HBase分布式數據庫、Spark基礎、Spark RDD彈性分布式數據集、Spark SQL、Spark Streaming實時計算框架、Spark Streaming與Flume、Kafka的整合、Spark MLlib 機器學習、實戰案例——分布式優惠券後臺應用系統和實戰案例——新聞話題實時統計分析系統,書中的每個知識點都有相應的實現代碼和實例。 本書主要面向廣大從事大數據分析、應用開發、機器學習、數據挖掘的專業人員以及從事高校信息技術專業的教師和高等院校的在讀學生及相關領域的廣大科研人員。

作者簡介

於海浩,男,1974年1月生,高級工程師,黑龍江工程學院計算機學院教師,主講大數據實踐和人工智能課程,研究方向為大數據處理與挖掘,深度學習。主持或參與國家、省部級、廳局級項目6項。以第一作者發表論文10余篇,作為高級項目經理和企業管理者組織了黑龍江省電力營銷系統、地下管廊運維監管平臺、智能城管、城鎮職工醫療系統的項目管理工作,有任企業技術總監的職務經歷。



前言

近年來,隨著大數據底層設施的逐漸成熟,大數據技術開始結合具體行業,向行業應用延伸。圍繞數據資源、基礎硬件、通用軟件等方面的大數據產業正在逐漸形成。各行各業對大數據人才的需求也日益增強。 鑒於此,國內外一些高校先後開設“數據科學與大數據”專業,旨在培養具備大數據技術的高級人才。

為滿足相關技術人員和高校師生學習大數據技術基礎知識,我們在總結近幾年大數據技術基礎知識和應用案例的基礎上,以理論結合實踐的方式將大數據基本概念、大數據開發技術與實際應用相結合,精心組織並完成了本書的編寫。

本書主要內容

本書為一本夯實大數據基礎知識,以實際應用為導向的書籍,非常適合初、中級學習大數據技術的讀者。讀者可以在短時間內學習本書中介紹的所有知識,掌握大數據技術的開發方法。

作為一本關於大數據技術的入門書籍,本書共有14章。

第1章主要介紹了大數據的研究背景、大數據的定義及其技術特點以及大數據處理的主要技術特點與難點,最後闡述了研究大數據的意義。

第2章主要介紹了Hadoop的起源、生態體系和集群架構,對Hadoop的安裝配置進行了詳細的講解。

第3章主要介紹了Hadoop中非常重要的分布式存儲文件系統——HDFS,分析了HDFS的存儲架構以及常用Shell命令和Java API,並且通過一個具體案例實現了HDFS的Java API的編程。

第4章主要介紹了Hadoop的分布式計算框架MapReduce,分析了MapReduce的核心思想、工作原理、運行機制以及MapReduce的核心過程Shuffle,最後通過單詞計數和倒排索引兩個案例詳細分析MapReduce的編寫過程和思路。

第5章主要介紹了Hive的架構、安裝和相關操作,重點介紹Hive的DDL、DML、DQL操作。

第6章首先介紹了HBase的架構、尋址機制以及HBase的安裝,然後介紹了HBase的Shell操作,包括新建表、插入數據、刪除等操作,最後介紹了HBase常用的Java API,並且進行了案例實現。

第7章主要介紹了Spark的基本概念和主要特點、Spark的安裝、運行架構和運行基本流程,是為學習Spark RDD和 Spark SQL做基礎知識儲備。

第8章主要介紹了RDD的運行原理和運行流程,並對RDD的基本操作進行了詳細的介紹,最後用一個Scala編程案例實現對RDD的操作。

第9章主要介紹了Spark SQL的原理和運行流程,並對DataFrame的基本操作進行了詳細的介紹,最後通過三個Scala編程案例實現了Spark SQL的DataFrame操作、Spark SQL 讀寫MySQL數據庫和Spark SQL讀寫Hive。

第10章主要介紹了Spark Streaming的一些基本概念和原理,介紹了DStream編程模型,最後通過三個Scala編程案例實現了DStream的有狀態狀態操作、無狀態狀態操作、輸出操作。

第11章主要介紹了Spark Streaming與Flume、Kafka的整合,介紹了Flume和Kafka的安裝過程,最後通過一個Scala編程案例實現Spark Streaming與Flume、Kafka的整合與開發。

第12章介紹了機器學習的定義和分類,重點介紹了Spark MLlib目前包含的算法和組件,通過四個具體實例TFIDF、線性回歸、邏輯回歸、協同過濾展示了利用Spark MLlib進行機器學習的方法和步驟。

第13章介紹了分布式優惠券後臺應用系統的開發核心思路,優惠券後臺應用系統包括商戶投放子系統和用戶消費子系統,分別介紹了兩個子系統的核心代碼以及測試調用過程。

第14章介紹了新聞話題實時統計分析系統的開發核心思路和核心代碼以及啟動調用過程。




本書特色

(1)以實戰開發為導向,對基礎理論知識點與開發過程進行詳細講解。

(2)實戰案例豐富,涵蓋16 個完整項目案例和兩個綜合案例,綜合案例可以加深對本書所學的知識點的理解和掌握。

(3)代碼詳盡,避免對 API 的形式展示,規避重復代碼。

(4)語言簡明易懂,由淺入深帶領讀者學會以 Hadoop生態圈為核心的開發技術和大數據常見的機器學習算法。

配套資源

為便於教學,本書配有源代碼、數據集、安裝程序、教學大綱。

(1) 獲取源代碼、數據集方式: 先掃描本書封底的文泉云盤防盜碼,再掃描下方二維碼,即可獲取。




源代碼





數據集




(2) 其他配套資源可以掃描本書封底的“書圈”二維碼下載。

讀者物件

本書主要面向廣大從事大數據分析、應用開發、機器學習、數據挖掘的專業人員以及從事高校信息技術專業的教師和高等院校的在讀學生及相關領域的廣大科研人員。

本書在編寫過程中參考了諸多相關資料,在此對原作者表示衷心的感謝。限於作者水平和時間倉促,書中難免存在疏漏之處,歡迎讀者批評指正。

作者

2022年1月



目次





目錄

第1章大數據概述


1.1大數據的研究背景


1.2大數據的定義及其技術特點


1.2.1大數據的定義


1.2.2大數據的基本特點


1.2.3典型的大數據處理需求與計算特徵


1.3大數據處理的主要技術特點與難點


1.4研究大數據的意義


1.5本章小結


第2章Hadoop簡介及安裝部署


2.1Hadoop簡介及生態體系


2.2Hadoop集群架構


2.3Hadoop集群運行環境搭建


2.3.1Hadoop安裝配置過程


2.3.2驗證Hadoop的安裝


2.4本章小結


第3章HDFS


3.1相關基本概念


3.2HDFS存儲架構


3.2.1HDFS寫入流程


3.2.2HDFS讀取流程


3.3HDFS的優點與缺點


3.3.1HDFS的優點


3.3.2HDFS的缺點


3.4HDFS Shell常用命令


3.5HDFS的Java API


3.6本章小結


第4章MapReduce計算框架


4.1MapReduce核心思想


4.2MapReduce的工作原理


4.3MapReduce的運行機制


4.4MapReduce數據本地化


4.5MapReduce編程


4.5.1MapReduce運行模式


4.5.2MapReduce編程組件與數據類型


4.6MapReduce編程示例


4.6.1單詞計數


4.6.2倒排索引


4.7本章小結







第5章Hive數據倉庫


5.1Hive概述


5.1.1Hive簡介


5.1.2Hive的架構


5.1.3Hive的優缺點


5.2Hive的安裝


5.2.1安裝MySQL


5.2.2安裝Hive


5.3Hive數據庫相關操作


5.3.1Hive的數據類型


5.3.2Hive基礎SQL語法


5.4本章小結


第6章HBase分布式數據庫


6.1HBase概述


6.1.1HBase的架構


6.1.2HBase的特點


6.1.3HBase數據存儲方式


6.1.4HBase尋址機制


6.2HBase的安裝


6.3HBase數據模型


6.4HBase的Shell操作


6.5HBase常用的Java API及示例程序


6.5.1HBase常用的Java API


6.5.2程序示例


6.6本章小結


第7章Spark基礎


7.1Spark概述


7.1.1Spark的主要特點


7.1.2Spark生態系統


7.1.3Spark相對於Hadoop MapReduce的優勢


7.2Spark的安裝


7.2.1Spark的部署方式


7.2.2Spark的安裝


7.3Spark運行架構與原理


7.4Spark運行流程


7.5本章小結


第8章Spark RDD彈性分布式數據集


8.1RDD的設計與運行原理


8.1.1RDD的概念


8.1.2RDD的分區


8.1.3RDD的依賴關係


8.1.4RDD在Spark中的運行流程


8.1.5RDD容錯機制


8.2RDD API編程


8.2.1RDD的創建


8.2.2RDD的操作


8.3程序示例: 倒排索引


8.4本章小結


第9章Spark SQL


9.1Spark SQL概述


9.1.1Spark SQL簡介


9.1.2Spark SQL的架構


9.2DataFrame


9.2.1DataFrame簡介


9.2.2DataFrame的創建


9.2.3DataFrame的常用操作


9.3Dataset


9.4Spark SQL編程


9.4.1DataFrame操作


9.4.2Spark SQL 讀寫MySQL數據庫


9.4.3Spark SQL 讀寫Hive


9.5本章小結


第10章 Spark Streaming實時計算框架


10.1Spark Streaming概述


10.1.1流數據和流計算


10.1.2Spark Streaming簡介


10.1.3DStream簡介


10.2DStream編程


10.2.1DStream轉換操作


10.2.2DStream輸出操作相關的方法


10.3DStream編程示例


10.3.1DStream編程基本步驟——文件流


10.3.2無狀態轉換操作


10.3.3有狀態轉換操作


10.3.4輸出操作


10.4本章小結


第11章Spark Streaming與Flume、Kafka的整合


11.1Flume簡介及安裝


11.1.1Flume簡介


11.1.2Flume的安裝


11.2Kafka簡介及安裝


11.2.1Kafka簡介


11.2.2Kafka的安裝


11.3Flume與Kafka的區別和側重點


11.4Spark Streaming與Flume、Kafka的整合與開發


11.5本章小結


第12章Spark MLlib機器學習


12.1機器學習的概念


12.1.1機器學習的定義


12.1.2機器學習的分類


12.2MLlib簡介


12.3Spark MLlib的數據類型


12.3.1本地向量


12.3.2標注點


12.3.3本地矩陣


12.4Spark MLlib機器學習示例


12.4.1特徵抽取——TFIDF


12.4.2分類與回歸——線性回歸


12.4.3分類與回歸——邏輯回歸


12.4.4協同過濾——電影推薦


12.5本章小結


第13章實戰案例——分布式優惠券後臺應用系統


13.1系統簡介


13.2整體架構


13.3表結構設計


13.4系統實現


13.4.1商戶投放子系統


13.4.2用戶消費子系統


13.5系統運行測試


13.5.1啟動系統


13.5.2商戶投放子系統測試


13.5.3用戶消費子系統測試


13.6本章小結


第14章實戰案例——新聞話題實時統計分析系統


14.1系統簡介


14.2系統總體架構


14.3表結構設計


14.4系統實現


14.4.1模擬日志生成程序


14.4.2Flume配置


14.4.3配置Kafka


14.4.4Spark Streaming開發


14.4.5WebSocket和前端界面開發


14.5系統運行測試


14.6本章小結


參考文獻


購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 260
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區