商品簡介
本書內容包括14章,由淺入深地介紹了數據科學生態系統、數據獲取、輸入格式與模式、探索性數據分析、利用Spark進行地理分析、採集基於鏈接的外部數據、構建社區、構建推薦系統、新聞詞典和實時標記系統、故事除重和變遷、情感分析中的異常檢測、趨勢演算、數據保護和可擴展算法。
本書適合數據科學家以及對數據科學、機器學習感興趣的讀者閱讀,需要讀者具備數據科學相關的基礎知識,並通過閱讀本書進一步提升Spark運用能力,從而創建出高效且實用的數據科學解決方案。
作者簡介
安托萬·阿門德(Antoine Amend)是一位對大數據工程和可擴展計算充滿熱情的數據科學家。這本書的主題是“折騰”天文數字量級的非結構化數據以獲得新的見解,這主要源於Antoine的理論物理學背景。他於2008年畢業並獲得天體物理學碩士學位。在Hadoop的早期階段,在大數據的概念普及之前,他曾在瑞士的一家大型諮詢公司工作。從那時起,他就開始接觸大數據技術。現在他在巴克萊銀行擔任網絡安全數據科學部門的主管。通過將科學方法與核心IT技能相結合,Antoine連續兩年獲得了在得克薩斯州奧斯汀舉行的大數據世界錦標賽決賽資格。他在2014年和2015年都名列前12位(超過2 000多名競爭對手),這兩次比賽中他還使用了本書介紹的方法和技術贏得了創新獎。
大衛·喬治(David George)是一位傑出的分布式計算專家,擁有超過15年的數據系統從業經驗,主要服務于全球聞名的IT諮詢機構和品牌。他很早以前就開始使用Hadoop核心技術,並做過大規模的實施。David總是採用務實的方法進行軟件設計,並重視簡約中的優雅。
如今,他繼續作為首席工程師為金融行業客戶設計可擴展的應用,並滿足一些較為嚴苛的需求。他的新項目側重于採用先進的人工智能技術來提高知識產業的自動化水平。
馬修·哈利特(Matthew Hallett)是一名軟件工程師和計算機科學家,擁有超過15年的從業經驗。他是一名面向對象的“專家級程序員”和系統工程師,擁有豐富的底層編程範式知識。在過去的幾年裡,他在Hadoop和關鍵業務環境中的分布式編程方面積累了豐富的專業知識,這些環境由數千節點的數據中心組成。Matthew在分布式算法和分布式計算體系結構的實施方面擁有多種語言的諮詢經驗,目前是“四大審計公司”數據科學與工程團隊的數據工程師顧問。
主題書展
更多主題書展
更多書展本週66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。