基於R語言的自動數據收集:網絡抓取和文本挖掘實用指南(簡體書)
商品資訊
系列名:資料科學與工程技術叢書
ISBN13:9787111527503
出版社:機械工業出版社
作者:(德)西蒙‧蒙策爾特
出版日:2016/03/01
裝訂/頁數:平裝/366頁
規格:23.5cm*16.8cm (高/寬)
版次:一版
人民幣定價:99 元
定價
:NT$ 594 元優惠價
:
87 折 517 元
絕版無法訂購
商品簡介
商品簡介
本書共17章。第1章是概述,闡述資料採擷的意義與實際應用。第2~8章介紹網路和資料技術基礎知識。這一部分內容涉及互聯網上通信、交換、保存和顯示資訊的基礎技術(如HTTP、HTML、XML、JSON、AJAX、SQL等),並講解用於查詢網路文檔和資料集的基本技術(XPath和規則運算式)。第9~11章介紹網路抓取和文本挖掘的實用工具箱。這一部分由三個核心章節組成:第9章講解多種網路抓取技術,涉及規則運算式的使用、XPath、各類API介面、其他資料類型以及開源社區相關的技術;第10章深入介紹用於統計性文本處理的技術;第11章給出關於用R管理資料的專案中常見問題的一些見解。第12~17章介紹實際案例分析,涉及美國參議院裡的合作網路、從半結構化文檔解析資訊、利用Twitter預測2014年奧斯卡獎、繪製姓氏地理分佈圖、採集關於手機的資料、分析產品評論裡的情緒等。這些案例分析針對日常的資料抓取和文本處理的工作流程、真實環境資料中的陷阱以及規避它們的方法等問題提供一些實用的見解。
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

