商品簡介
商品簡介
本書介紹了如何開發網路爬蟲。內容主要包括開發網路爬蟲所需要的Java語法基礎和網路爬蟲的工作原理,如何使用開源元件HttpClient和爬蟲框架Crawler4j抓取網頁資訊,以及針對抓取到的文本進行有效資訊的提取。為了擴展抓取能力,本書介紹了實現分散式網路爬蟲的關鍵技術。另外,本書介紹了從圖像和語音等多媒體格式檔中提取文本資訊,以及如何使用大資料技術存儲抓取到的資訊。最後,以實戰為例,介紹了如何抓取微信和微博,以及在電商、醫藥、金融等領域的案例應用。其中,電商領域的應用介紹了使用網路爬蟲抓取商品資訊入庫到網上商店的資料庫表。醫藥領域的案例介紹了抓取PubMed醫藥論文庫。金融領域的案例介紹了抓取股票資訊,以及從年報PDF文檔中提取表格等。本書適用于對開發資訊採集軟體感興趣的自學者。也可以供有Java或程式設計基礎的開發人員參考。
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

