TOP
紅利積點抵現金,消費購書更貼心
Python爬蟲大數據采集與挖掘(第2版‧微課視頻版)(簡體書)
滿額折

Python爬蟲大數據采集與挖掘(第2版‧微課視頻版)(簡體書)

商品資訊

人民幣定價:59.8 元
定價
:NT$ 359 元
優惠價
87312
庫存:3
下單可得紅利積點:9 點
商品簡介
名人/編輯推薦
目次

商品簡介

本書圍繞大數據採集與挖掘,對採集技術的相關基礎、技術原理、Python實現技術、大數據挖掘與應用方法進行了系統介紹。書中全面、完整地覆蓋了各種類型的網絡爬蟲及相關的信息處理挖掘技術,並提供了45個與爬蟲技術和應用相關的Python程序。全書共分為四部分,即概述、基礎篇、技術與實現篇、大數據挖掘與應用篇。第一部分(第1章)是概述,指出利用Python採集互聯網大數據的重要性,介紹了相關技術研究、技術體系、採集技術的合規性及應用現狀等,分析了大模型對互聯網大數據技術的影響; 第二部分(第2、3章)是基礎篇,包括Web服務器的應用架構以及HTTP、Robots、HTML、頁面編碼等相關協議和規範; 第三部分(第4~10章)是技術與實現篇,全面介紹普通網絡爬蟲技術、動態頁面採集方法、主題爬蟲技術、Deep Web爬蟲、微博信息採集、Web信息提取以及反爬蟲技術等,內容涵蓋各種爬蟲技術實現方法及Python實例; 第四部分(第11、12章)是大數據挖掘與應用篇,介紹文本、情感、社交網絡和時間序列等典型大數據處理與挖掘技術及應用模式,並以新聞輿情監測、Web自動化測試、酒店評論文本挖掘為例介紹Python爬蟲應用構建方法,將本書介紹的一些關鍵技術、模型和工具貫穿在一起。

名人/編輯推薦

本書圍繞大數據采集與挖掘,對采集技術的相關基礎、技術原理、Python實現技術、大數據挖掘與應用方法進行了系統介紹。本書配套資源豐富,包括教學大綱、教學課件、電子教案、程序源碼、習題答案、微課視頻和在線題庫。

黨的二十大報告強調: “加快發展數字經濟,促進數字經濟和實體經濟深度融合”,互聯網大數據在數字經濟中占據著核心地位,是推動經濟社會發展的關鍵生產要素。互聯網數據具有典型的大數據特徵,即數據量大、數據類型多樣化、數據流動性快,並且隨著“互聯網 ”和數字經濟國家戰略的推進,互聯網大數據的應用價值變得多樣化。因此,互聯網大數據成為大數據技術教學和研究應用的重要數據源。

編者於2020年出版的《Python爬蟲大數據采集與挖掘微課視頻版》,以互聯網大數據的采集與挖掘為主題,介紹相關技術基礎、大數據采集技術、大數據挖掘及應用技術。本書(第2版)進一步豐富了多種互聯網大數據的處理,完善了爬蟲技術體系,提升了知識的完整性、邏輯性和實用性。

在內容安排上,本書涵蓋Web應用架構技術、Web頁面及相關技術、各種爬蟲采集技術、Web信息提取技術、大數據處理與挖掘以及應用技術。在爬蟲技術上,本書涵蓋各種不同類型的爬蟲,包括普通爬蟲、動態爬蟲、主題爬蟲、Deep Web爬蟲以及微博爬蟲。在大數據處理方面,本書涵蓋文本、社交網絡、時間序列等不同類型數據處理。在應用方面,本書以三種典型的Web信息采集與處理為例,介紹了爬蟲技術的應用模式與Python實現方法。

本書作為一本產學兼顧的教材,具有如下特色。

(1) 以互聯網大數據技術為主線,將Web應用技術、各種頁面采集的共性技術與特有技術、大數據處理與挖掘以及爬蟲合規性等相關技術有機地結合在一起,涉及當前互聯網Web空間的典型應用,構成完整的大數據采集和挖掘的知識體系。

(2) 在互聯網大數據的采集技術中,完整系統地涵蓋了普通爬蟲、動態爬蟲、主題爬蟲、Deep Web爬蟲以及微博數據采集,既強調爬蟲抓取數據的能力,也凸顯爬蟲采集互聯網大數據的合規性技術,有利於讀者全面理解網絡爬蟲大數據技術及其應用。

(3) 秉承“授人以魚,不如授人以漁”的總體思路,本書將理論與實踐相結合,書中既有相關技術原理的介紹,也包含大量的Python實現技術、開源架構等方面的介紹,提供了45個與大數據采集挖掘相關的Python程序,讀者既能理解技術原理,又能動手實踐。

本書分為四部分,共12章,涵蓋互聯網大數據采集與挖掘的基礎、技術和應用,各章的內容安排如下。

第一部分為概述,包括第1章。

第1章對大數據采集與挖掘的重要性、技術體系、應用現狀、合規性以及技術發展進行概述,強調了互聯網大數據與大模型之間的緊密聯繫。


第二部分為基礎篇,包括第2章和第3章。


第2章介紹Web頁面及相關處理技術,包括HTML規範、編碼體系與規範、正則表達式以及與爬蟲程序設計相關的主要Python程序基礎。

第3章對Web應用架構與協議進行介紹,包括常用的Web服務器軟件、Web應用架構、Robots協議、HTTP協議、狀態保持技術等與爬蟲密切相關的技術。

第三部分為技術與實現篇,包括第4~10章。

第4章對普通爬蟲頁面采集技術與Python實現進行介紹,包括普通爬蟲的體系架構、Web服務器連接器、超鏈接及域名提取與過濾、爬行策略與實現以及爬蟲的多線程技術等。

第5章介紹動態頁面采集技術與Python實現,包括動態頁面內容的生成與交互、動態頁面采集的若干種典型方法和Python實現技術。

第6章針對Web頁面信息提取技術,介紹面向HTML和JSON類型文本的抽取技術原理、典型開源框架應用,同時給出三種Web數據存儲方法。

第7章介紹主題爬蟲頁面采集技術與Python實現,涉及主題爬蟲的使用場景與技術框架、主題表示和建模、主題相關度計算等。

第8章是關於Deep Web的數據采集技術及實現。

第9章是關於微博信息的采集方法及實現,主要包括通過API獲取微博信息和通過爬蟲技術獲取微博信息兩種方法。

第10章介紹反爬蟲的常用技術,以及針對這些反爬蟲技術的一些主要應對措施和爬蟲對抗技術。

第四部分為大數據挖掘與應用篇,包括第11章和第12章。

第11章圍繞互聯網大數據處理與挖掘技術,介紹面向文本、社交網絡、時間序列數據的處理方法,突出文本預處理、文本表示、文本情感分析、文本分類、聚類、主題建模等重點技術。


第12章介紹三種典型的大數據采集技術應用案例,包括新聞輿情監測、Web網站自動化測試和酒店評論文本挖掘。


為便於教學,本書提供豐富的配套資源,包括教學大綱、教學課件、電子教案、程序源碼、習題答案和微課視頻。


資源下載提示

課件等資源: 掃描封底的“圖書資源”二維碼,在公眾號“書圈”下載。

素材(源碼)等資源: 掃描目錄上方的二維碼下載。

微課視頻: 掃描封底的文泉云盤防盜碼,再掃描書中相應章節的視頻講解二維碼,可以在線學習。


全書由曾劍平負責內容安排、統稿,由互聯網大數據處理技術和應用研究領域的一線人員參與編寫。段江嬌參與編寫了
第1、第4、第5章,廖含月編寫了第2章的部分內容,孟元編寫了第12章部分例子的程序及相關文字說明,曾睿編寫了第11章部分例子的程序,肖楊實現了Web網站自動化測試方法,其他部分由曾劍平編寫,曾睿對全書進行了校對。清華大學出版社的編輯們為本書的出版花費了很多心思。
本書的編寫也得到了復旦大學計算機科學技術學院和復旦大學教務處的大力支持。
本書第1版獲得第二屆復旦大學優秀教材獎(2024)。
此外,在本書的編寫過程中也采納了讀者對第1版的反饋意見,在此一並表示衷心的感謝。需要特別提到的是,為了便於讀者理解相關技術,書中選擇若干互聯網網站頁面采集作為實例,特別向這些網站表示感謝。


本次改版完善了爬蟲采集與挖掘的技術體系,但仍難以完美,懇請讀者不吝批評指正,以利於今後繼續修訂完善。

讀者可關注微信公眾號IntBigData(“互聯網大數據處理技術與應用”),訂閱編者在教學中的相關經驗和做法,並與編者互動。


編者2024年10月

目次

源碼下載

額外贈送的資源

第一部分概述

第1章大數據采集與挖掘概述

1.1互聯網大數據與采集

1.1.1互聯網大數據來源

1.1.2互聯網大數據的特徵

1.2Python爬蟲大數據采集技術的重要性

1.3爬蟲技術研究及應用現狀

1.4爬蟲技術的應用場景

1.5爬蟲大數據采集與挖掘的技術體系

1.5.1技術體系構成

1.5.2相關技術

1.5.3爬蟲的5個技術特性

1.5.4技術評價方法

1.6爬蟲大數據采集與挖掘的合規性

1.7爬蟲大數據采集與挖掘技術展望

1.7.1爬蟲采集技術展望

1.7.2大模型對互聯網大數據技術的影響

思考題


第二部分基礎篇

第2章Web頁面及相關處理技術

2.1HTML規範

2.1.1HTML標籤

2.1.2HTML整體結構

2.1.3CSS簡述

2.1.4常用標籤

2.1.5HTML的版本進化

2.2編碼體系與規範

2.2.1ASCII

2.2.2gb2312/gbk

2.2.3unicode

2.2.4utf8

2.2.5網頁中的編碼和Python處理

2.3Python正則表達式

2.4相關的Python程序基礎

思考題

第3章Web應用架構與協議

3.1常用的Web服務器軟件

3.1.1流行的Web服務器軟件

3.1.2在Python中配置Web服務器

3.2Web服務器的應用架構

3.2.1典型應用架構

3.2.2Web頁面的類型

3.2.3頁面文件的組織方式

3.3Robots協議

3.3.1Robots協議的來歷

3.3.2Robots協議的規範與實現

3.4HTTP

3.4.1HTTP版本的技術特性

3.4.2HTTP報文

3.4.3HTTP頭部

3.4.4HTTP狀態碼

3.4.5HTTPS

3.5狀態保持技術

3.5.1Cookie

3.5.2Session

思考題

第三部分技術與實現篇

第4章普通爬蟲頁面采集技術與Python實現

4.1普通爬蟲的體系架構

4.2Web服務器連接器

4.2.1整體處理過程

4.2.2DNS緩存

4.2.3requests/response的使用方法

4.2.4錯誤和異常的處理

4.3超鏈接及域名提取與過濾

4.3.1超鏈接的類型

4.3.2提取方法

4.3.3遵守Robots協議的友好爬蟲

4.4爬行策略與實現

4.4.1爬行策略及設計方法

4.4.2深度優先策略和寬度優先策略

4.4.3基於PageRank的重要性排序

4.4.4其他策略

4.4.5爬行策略設計的綜合考慮

4.5爬蟲的多線程技術

思考題

第5章動態頁面采集技術與Python實現

5.1動態頁面內容的生成與交互

5.1.1頁面內容的生成方式

5.1.2動態頁面交互的實現

5.2動態頁面采集技術類型

5.3使用帶參數的URL

5.4利用Cookie和Session

5.5使用Ajax——以評論型頁面為例

5.5.1獲取URL地址

5.5.2獲取並發送動態請求參數

5.6模擬瀏覽器——以自動登錄郵箱為例

思考題

第6章Web信息提取與Python實現

6.1Web信息提取任務及要求

6.2Web頁面內容提取的思路

6.2.1DOM樹

6.2.2提取方法

6.3基於HTML結構的內容提取方法

6.3.1html.parser

6.3.2lxml

6.3.3html5lib

6.3.4BeautifulSoup

6.3.5PyQuery

6.4基於統計的Web內容提取方法

6.5基於JSON的Web信息提取

6.6Web信息存儲

思考題

第7章主題爬蟲頁面采集技術與Python實現

7.1主題爬蟲的使用場景

7.2主題爬蟲技術框架

7.3主題及其表示

7.4相關度計算

7.4.1主題相關度計算

7.4.2鏈接相關度估算

7.4.3內容相關度計算

7.5實例: 特定新聞主題的采集

思考題

第8章Deep Web爬蟲與Python實現

8.1相關概念

8.2Deep Web的特徵和采集要求

8.3Deep Web內容獲取技術架構

8.3.1領域本體知識庫

8.3.2尋找表單

8.3.3表單處理

8.3.4結果處理

8.4圖書信息采集

思考題

第9章微博信息采集與Python實現

9.1微博信息采集方法概述

9.2微博開放平臺授權與測試

9.3在Python中調用微博API采集數據

9.3.1流程介紹

9.3.2微博API及使用方法

9.3.3采集微博用戶個人信息

9.3.4采集微博博文

9.3.5微博API的限制

9.4通過爬蟲采集微博信息

9.4.1爬蟲采集微博的方法

9.4.2微博熱搜的采集方法與Python實現

思考題

第10章反爬蟲技術與爬蟲對抗技術

10.1兩種技術的概述

10.2反爬蟲技術

10.2.1爬蟲檢測技術

10.2.2爬蟲阻斷技術

10.3爬蟲對抗技術

思考題

第四部分大數據挖掘與應用篇

第11章互聯網大數據處理與挖掘技術

11.1文本預處理

11.1.1詞匯切分

11.1.2停用詞過濾

11.1.3詞形規範化

11.1.4Python開源庫jieba的使用

11.2文本的向量空間模型

11.2.1特徵選擇

11.2.2模型表示

11.2.3使用Python構建向量空間表示

11.3文本的分布式表示

11.3.1相關方法

11.3.2Doc2Vec

11.4文本分類及實現技術

11.4.1分類技術概要

11.4.2分類器技術

11.4.3新聞分類的Python實現

11.5聚類算法


11.6主題及其實現技術

11.6.1主題的定義

11.6.2基於向量空間的主題構建

11.6.3LDA主題模型

11.6.4LDA主題模型的Python實現

11.7文本情感分析

11.7.1基於機器學習的方法

11.7.2基於規則的方法

11.8社交網絡分析

11.8.1社交網絡表示與可視化

11.8.2社區發現算法與使用

11.8.3分析工具Pajek

11.9時間序列挖掘

11.9.1時間序列及其挖掘任務

11.9.2時間序列預測的思路

11.9.3時間序列預測的例子

11.10大數據可視化技術

11.10.1大數據可視化方法概述

11.10.2Python開源庫的使用

思考題

第12章互聯網大數據采集與挖掘技術的應用

12.1常見應用模式

12.2新聞輿情監測

12.2.1目標任務

12.2.2總體思路

12.2.3新聞內容采集與提取

12.2.4新聞分析

12.3Web網站自動化測試

12.3.1目標任務

12.3.2總體思路

12.3.3Python程序設計

12.4酒店評論文本挖掘

12.4.1目標任務

12.4.2總體思路

12.4.3Python程序設計

思考題

附錄A代碼與數據

附錄B相關包索引

附錄C爬蟲框架

參考文獻

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 312
庫存:3

暢銷榜

客服中心

收藏

會員專區