《大數據原理及實踐》分為八章。首章介紹Hadoop生態系統及其發展歷程。大家可以通過此章內容瞭解到Hadoop是一個開放的生態系統,裡面有很多項目組成,包括數據采集類的項目、數據處理類的項目和數據可視化類的項目等;第二章介紹Hadoop的核心組件,包括HDFS、MapReduce和Yarn,通過此章的學習。大家可以瞭解到Hadoop三大核心組件的基本組成及運行原理;第三章介紹Hadoop集群環境的搭建。 《大數據原理及實踐》選用Cloudera版本(Cloudera's Distribution Including Apache Hadoop,CDH)作為集群安裝,在介紹集群安裝之前普及一些Linux常用的命令,為安裝做技術鋪墊;第四章主要介紹Hadoop生態系統中非常常用、非常實用又簡單易用的Hive組件,介紹其原理及安裝方法;第五章主要介紹Hive的使用,瞭解Hive中DDL和DML語法知識(通過前面五章的學習。大家可以獨立搭建Hadoop集群,並上傳文件到HDFS中,並且利用MapReduce或者Hive對數據文件進行統計分析);第六章進入Hadoop生態系統中內存計算的學習,選用Spark組件,著重介紹Spark的內存計算的原理及運行模式;第七章介紹Spark的編程及SparkSQL的使用。通過這兩部分的學習,大家可以完成Spark的安裝部署,瞭解Spark的適用場合,學會Spark編程和SparkSQL對數據進行分析;第八章為SparkMLLib的內容。通過這一章的學習,大家可以利用SparkMLLib完成較複雜的一些數據分析,例如分類、聚類和關聯分析等。 通過《大數據原理及實踐》的學習,大家可以從零基礎開始瞭解大數據平臺,能夠完成利用相關組件進行簡單或複雜的數據分析的任務。