TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
用Python寫網絡爬蟲(簡體書)
滿額折

用Python寫網絡爬蟲(簡體書)

人民幣定價:45 元
定  價:NT$ 270 元
優惠價:87235
絕版無法訂購
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次

商品簡介

《用Python寫網路爬蟲》講解了如何使用Python來編寫網路爬蟲程式,內容包括網路爬蟲簡介,從頁面中抓取資料的三種方法,提取緩存中的資料,使用多個執行緒和進程來進行併發抓取,如何抓取動態頁面中的內容,與表單進行交互,處理頁面中的驗證碼問題,以及使用Scarpy和Portia來進行資料抓取,使用本書介紹的資料抓取技術對幾個真實的網站進行了抓取,旨在幫助讀者活學活用書中介紹的技術。
《用Python寫網路爬蟲》適合有一定Python程式設計經驗,而且對爬蟲技術感興趣的讀者閱讀。

作者簡介

作者:[]理查 勞森(Richard Lawson 譯者:李斌

Richard Lawson來自澳大利亞,畢業于墨爾本大學電腦科學專業。畢業後,他創辦了一家專注於網路爬蟲的公司,為超過50個國家的業務提供遠端工作。他精通於世界語,可以使用漢語和韓語對話,並且積極投身於開源軟體。他目前在牛津大學攻讀研究生學位,並利用業餘時間研發自主無人機。

名人/編輯推薦

編輯推薦

作為一種便捷地收集網上資訊並從中抽取出可用資訊的方式,網路爬蟲技術變得越來越有用。使用Python這樣的簡單程式設計語言,你可以使用少量程式設計技能就可以爬取複雜的網站。

《用Python寫網路爬蟲》作為使用Python來爬取網路資料的傑出指南,講解了從靜態頁面爬取資料的方法以及使用緩存來管理伺服器負載的方法。此外,本書還介紹了如何使用AJAX URLFirebug擴展來爬取資料,以及有關爬取技術的更多真相,比如使用流覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取資料等。本書使用Scrapy創建了一個高級網路爬蟲,並對一些真實的網站進行了爬取。

《用Python寫網路爬蟲》介紹了如下內容:

通過跟蹤連結來爬取網站;

使用lxml從頁面中抽取資料;

構建執行緒爬蟲來並行爬取頁面;

將下載的內容進行緩存,以降低頻寬消耗;

解析依賴於JavaScript的網站;

與表單和會話進行交互;

解決受保護頁面的驗證碼問題;

AJAX調用進行逆向工程;

使用Scrapy創建高級爬蟲。

 

本書讀者對象

本書是為想要構建可靠的資料爬取解決方案的開發人員寫作的,本書假定讀者具有一定的Python程式設計經驗。當然,具備其他程式設計語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原理。

目次

目錄

 

1 網路爬蟲簡介 1

1.1 網路爬蟲何時有用 1

1.2 網路爬蟲是否合法 2

1.3 背景調研 3

1.3.1 檢查robots.txt 3

1.3.2 檢查網站地圖 4

1.3.3 估算網站大小 5

1.3.4 識別網站所用技術 7

1.3.5 尋找網站所有者 7

1.4 編寫第一個網路爬蟲 8

1.4.1 下載網頁 9

1.4.2 網站地圖爬蟲 12

1.4.3 ID遍歷爬蟲 13

1.4.4 連結爬蟲 15

1.5 本章小結 22

 

2章 數據抓取 23

2.1 分析網頁 23

2.2 三種網頁抓取方法 26

2.2.1 規則運算式 26

2.2.2 Beautiful Soup 28

2.2.3 Lxml 30

2.2.4 性能對比 32

2.2.5 結論 35

2.2.6 為連結爬蟲添加抓取回檔 35

2.3 本章小結 38

 

3章 下載緩存 39

3.1 為連結爬蟲添加緩存支援 39

3.2 磁片緩存 42

3.2.1 實現 44

3.2.2 緩存測試 46

3.2.3 節省磁碟空間 46

3.2.4 清理過期資料 47

3.2.5 缺點 48

3.3 資料庫緩存 49

3.3.1 NoSQL是什麼 50

3.3.2 安裝MongoDB 50

3.3.3 MongoDB概述 50

3.3.4 MongoDB緩存實現 52

3.3.5 壓縮 54

3.3.6 緩存測試 54

3.4 本章小結 55

 

4章 併發下載 57

4.1 100萬個網頁 57

4.2 串列爬蟲 60

4.3 多執行緒爬蟲 60

4.3.1 執行緒和進程如何工作 61

4.3.2 實現 61

4.3.3 多進程爬蟲 63

4.4 性能 67

4.5 本章小結 68

 

5章 動態內容 69

5.1 動態網頁示例 69

5.2 對動態網頁進行逆向工程 72

5.3 渲染動態網頁 77

5.3.1 PyQt還是PySide 78

5.3.2 執行JavaScript 78

5.3.3 使用WebKit與網站交互 80

5.3.4 Selenium 85

5.4 本章小結 88

 

6章 表單交互 89

6.1 登錄表單 90

6.2 支援內容更新的登入指令檔擴展 97

6.3 使用Mechanize模組實現自動化表單處理 100

6.4 本章小結 102

 

7章 驗證碼處理 103

7.1 註冊帳號 103

7.2 光學字元辨識 106

7.3 處理複雜驗證碼 111

7.3.1 使用驗證碼處理服務 112

7.3.2 9kw入門 112

7.3.3 與註冊功能集成 119

7.4 本章小結 120

 

8章 Scrapy 121

8.1 安裝 121

8.2 啟動專案 122

8.2.1 定義模型 123

8.2.2 創建爬蟲 124

8.2.3 使用shell命令抓取 128

8.2.4 檢查結果 129

8.2.5 中斷與恢復爬蟲 132

8.3 使用Portia編寫視覺化爬蟲 133

8.3.1 安裝 133

8.3.2 標注 136

8.3.3 優化爬蟲 138

8.3.4 檢查結果 140

8.4 使用Scrapely實現自動化抓取 141

8.5 本章小結 142

 

9章 總結 143

9.1 Google搜尋引擎 143

9.2 Facebook 148

9.2.1 網站 148

9.2.2 API 150

9.3 Gap 151

9.4 寶馬 153

9.5 本章小結 157

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 235
絕版無法訂購

暢銷榜

客服中心

收藏

會員專區