TOP
從紙書中看見香港,指定港書滿888再折100
玩轉大數據:SAS+R+Stata+Python(簡體書)
滿額折

玩轉大數據:SAS+R+Stata+Python(簡體書)

商品資訊

人民幣定價:198 元
定價
:NT$ 1188 元
優惠價
871034
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點 :31 點
商品簡介
作者簡介
目次

商品簡介

面對日漸複雜的大數據,科技工作者很難用單一的統計軟件高效、完美地完成從數據挖掘、數據清洗、統計分析到結果呈現的全部工作,因此需要熟悉和掌握多種統計工具,各取所長、整合使用。本書立足於大數據研究的現狀,基於實際醫療案例,介紹數學基礎知識和統計學基礎知識,SAS、R語言、Stata和Python這4款大數據常用分析工具的基礎編程知識及實踐操作。

本書主要面向在校本科生、研究生,以及要掌握SAS、R語言、Stata和Python的數據工作者,熟悉四個軟件的任意一個且想要在短時間內掌握其他軟件的讀者,也適合醫科學生、臨床醫生或藥企人員等醫療相關人員學習使用。


作者簡介

孫江偉

復旦大學流行病與衛生統計學專業碩士,曾在強生公司(Johnson &Johnson)任生物統計師,對國內醫藥臨床領域及國外醫療注冊系統等大數據的數據管理、數據清洗、研究設計及統計分析,有豐富的理論及實踐經驗,現於瑞典卡羅林斯卡醫學院進行衛生統計學方面的研究深造。在American Journal of Epidemiology、European Journal of Neurology等雜志發表相關領域SCI論文10篇。

前言


隨著計算機與信息技術的發展,互聯網、大數據、人工智能等現代信息技術不斷實現突破,逐漸滲透到人類生產生活的各個領域,以前所未有的方式將人們帶入一場劇烈的信息變革之中。隨著社會信息化程度的日益加深,醫療行業數據系統的信息容量也在不斷擴大,高效地挖掘和利用這些寶貴的醫學信息資源,為疾病的預防、診斷和治療提供科學的決策依據,促進醫學研究的進一步發展,具有非常重要的意義。與此同時,數據數量與日俱增,數據質量參差不齊,這使得醫療工作者和科研人員的工作難度不斷加大,對專業技術水平、數據分析方法和團隊科研協作都提出了更高的要求。

面對日漸複雜的大數據,科學工作者很難用單一的統計軟件高效、完美地完成從數據挖掘、數據清洗、統計分析到結果呈現的全部工作,因此需要熟悉和掌握多種統計工具,各取所長、整合使用。例如,SAS作為一個成熟度高、穩定性強的商業化系統,有強大的大數據管理及清洗的功能,在公司和企業中的應用非常廣泛,但是它在對大數據(如健康注冊系統)進行某些統計分析時,運行速度較慢。相對而言,Stata、R語言和Python卻可以非常快速地完成同樣的運算程序。此外,Stata是對初學者非常友好的軟件,命令簡單,運行速度快,是非常出色的統計軟件;R語言有極其靈活和強大的繪圖能力,可以更好地表現數據結果,大大提升數據分析的效率;Python以語言簡單、分析高效而著稱,尤其在機器學習、文本處理等領域表現突出。因此,如果能掌握幾種統計軟件的使用方法,並且能夠根據具體研究目的自由切換不同的統計軟件,則可以達到事半功倍的效果。

此外,大規模的項目通常需要跨單位、跨學科合作,科研團隊的國際化、多元化的趨勢越來越明顯。每個研究人員的背景不同,擅長的領域或使用的統計軟件也大相徑庭。為了更好地進行學術交流,促進彼此之間的合作,完成複雜的研究項目,熟悉和掌握多種統計軟件的基本操作就顯得非常重要。但是,學習任何一門技術都需要投入大量的時間和精力,若想同時掌握多種統計軟件的使用方法,需要付出更多的時間和努力。幸運的是,SAS、R語言、Stata和Python等軟件的數學和統計學基礎是相通的,主要區別在於它們采用不同的語言環境和編程方法。如果讀者已經掌握其中任何一個軟件的操作和使用方法,再去學習其他3種軟件,則會觸類旁通,大大提高學習效率。但是,目前還沒有相關的書籍介紹如何將SAS、R語言、Stata和Python這4種常用的統計軟件整合起來,用於大數據的管理和分析。

目前,市面上單獨介紹SAS、R語言、Stata和Python等統計軟件的書籍大多面面俱到地講解每個命令、每個選項、每個模塊,針對一種統計方法提供盡可能多的解決方案。的確,這樣可以幫助讀者全面、具體地了解各個軟件,但同時也可能使讀者花費很多時間學習了大量不實用的知識。此外,大多數介紹統計軟件的書籍往往止步於如何進行統計分析,而常常忽略了如何高效、準確地提取主要結果,如何生成可直接用於報告、交流或達到SCI發表要求的表格等方面。

因此,本書立足於大數據研究的現狀,首先介紹必須掌握的數學和統計學基礎知識;其次,根據真實的電子病歷及健康注冊系統的數據特徵,模擬出與其複雜程度和處理難度相當的模擬數據庫;最後,針對同一研究問題,在SAS、R語言、Stata和Python中進行同步處理,詳細講解如何在這4個統計軟件中實現從數據導入、數據清洗、統計分析、結果整理輸出(表格或圖)到結果解釋的全部過程,從而可完成軟件的對比學習,達到事半功倍的效果。以上3點也是本書的特色所在。

本書著眼於真實的醫學領域的數據處理問題,主要介紹在4個軟件中最常用、最高效的命令及編程方法,使數據工作者能夠在短時間內掌握每個軟件的精髓,並且能夠學以致用,切實應用到自己的研究項目中,解決相關問題。但本書不會過多地涉及諸如模型的比較和選擇等問題,因為這類問題通常是由研究課題或項目決定的,不存在“放之四海而皆準”的準則。對這類問題感興趣的讀者,請查閱相關書籍或文章。

本書可分為3部分: 第1部分包括第1、2章,介紹數學基礎知識和統計學基礎知識;第2部分包括第3~7章,在概要介紹統計軟件基礎知識之後,分別介紹SAS、R語言、Stata和Python的基礎編程知識;第3部分包括第8~12章,在概要說明本書軟件實踐的幾個重要問題之後,分別介紹SAS、R語言、Stata和Python的實踐內容。讀者可根據自己的興趣和時間自行選擇相應的章節學習。建議讀者在閱讀某軟件的基礎編程知識和實踐操作前,先閱讀第3章和第8章,從而了解本書的布局。

本書主要面向在校本科生、研究生,以及要掌握SAS、R語言、Stata和Python的數據工作者,熟悉4種軟件的任意一種且想要在短時間內掌握其他軟件的讀者,尤其適合醫科學生、臨床醫生或藥企人員等醫療相關人員學習使用。

筆者自2014年萌生編寫本書的想法,2017年動筆,2019年組建編寫團隊,到2020年春完成初稿,其間曾多次產生放棄的念頭,幸好堅持了下來。筆者一直堅信“二八定律”,即學習並掌握一個軟件的20%的基礎知識,將能使用戶理解80%的軟件功能,從而能順利完成80%的工作任務。盡管本書介紹的諸多方法看起來很容易理解和掌握,但要想真正用好這些軟件,仍需讀者仔細鉆研、刻苦練習。不過這些努力是值得付出的,假以時日,所有努力都會帶來豐厚的回報。

感謝Fang Fang教授、Yudi Pawitan教授給予筆者的大力支持;感謝鄧文江同學在R語言部分的付出;感謝編寫團隊成員在整個過程中的堅持和付出,從而使本書得以完成;最後,感謝清華大學出版社編輯給予本書的幫助和指導,從而使本書得以順利出版。書中難免存在疏漏和不足之處,懇請讀者不吝賜教,筆者將感激不盡。


孫江偉

2021年4月


目次

目錄



第1章數學基礎1

1.1常用的數學符號1

1.2常見概念2

1.2.1集合2

1.2.2極限3

1.3微積分5

1.3.1導數與微分5

1.3.2基本初等函數的導函數和微分公式6

1.3.3導數與微分的運算法則7

1.3.4定積分與不定積分8

1.3.5基本的不定積分公式9

1.3.6定積分與不定積分的性質10

1.4線性代數11

1.4.1標量與向量11

1.4.2矩陣與線性方程組11

1.4.3行列式的定義與運算12

1.4.4矩陣的運算法則14

1.4.5特殊的矩陣16

1.4.6矩陣的秩17

1.4.7矩陣的轉置與矩陣的逆18

1.4.8特徵向量與特徵值18

第2章統計學基礎20

2.1概率論的基本概念20

2.2隨機變量與分布21

2.2.1隨機變量21

2.2.2累積分布函數222.2.3概率函數22

2.3隨機變量的數學特徵23

2.3.1數學期望23

2.3.2期望值的規律24

2.3.3條件期望25

2.3.4協方差與相關係數25

2.3.5樣本均值和方差26

2.4常見的隨機變量分布27

2.4.1離散變量分布27

2.4.2連續變量分布28

2.5統計學基本概念32

2.5.1總體與樣本32

2.5.2參數和統計量32

2.5.3中心極限定理32

2.6統計描述32

2.6.1定量資料的統計描述32

2.6.2分類資料的統計描述34

2.7統計推斷34

2.7.1參數估計34

2.7.2假設檢驗38

2.8多因素回歸模型40

2.8.1多因素線性回歸模型40

2.8.2多因素Logistic回歸模型41

2.8.3多因素Cox回歸模型43

第3章軟件基礎總論45

3.1軟件初識45

3.1.1SAS45

3.1.2R語言45

3.1.3Stata45

3.1.4Python46

3.24個軟件的比較46

第4章SAS基礎52

4.1SAS介紹與資源52

4.1.1SAS語言及程序結構52

4.1.2SAS工作界面53

4.1.3獲得幫助54

4.2數據的導入與導出55

4.2.1導入數據55

4.2.2導出數據67

4.3SAS中常用的函數70

4.3.1字符型函數70

4.3.2數值型函數80

4.3.3日期型函數84

4.3.4特殊函數86

4.3.5其他函數89

4.4SAS變量91

4.4.1變量屬性92

4.4.2自動變量92

4.4.3變量列表的縮寫規則92

4.4.4創建變量94

4.4.5改變變量屬性96

4.4.6改變變量類型96

4.5SAS數據處理97

4.5.1選取變量97

4.5.2創建變量99

4.5.3對觀測求和100

4.5.4選取並操作部分觀測102

4.5.5循環和數組104

4.5.6數據集的橫向合並和縱向合並107

4.5.7增加數據集處理靈活性的SAS選項111

4.6SAS中常見的proc步113

4.6.1proc contents113

4.6.2proc datasets114

4.6.3proc freq116

4.6.4proc means118

4.6.5proc sort120

4.6.6proc transpose121

4.6.7proc univariate123

4.6.8proc corr125

4.6.9proc reg126

4.6.10proc logistic128

4.6.11proc lifetest129

4.6.12proc phreg130

4.7PROC SQL131

4.7.1檢索數據131

4.7.2合並數據集135

4.7.3使用PROC SQL管理表137

4.8SAS宏介紹143

4.8.1宏變量143

4.8.2宏函數147

4.8.3宏程序151

4.8.4宏參數152

4.8.5宏語言與data步153

4.8.6宏語言與PROC SQL157

4.8.7條件語句和循環語句在宏語言中的使用161

第5章R語言基礎163

5.1R語言介紹163

5.1.1R語言的特點與資源163

5.1.2RStudio使用簡介163

5.2R語言的基本規則164

5.2.1物件165

5.2.2函數使用基礎165

5.2.3擴展包166

5.2.4幫助167

5.3數據類型167

5.3.1vector167

5.3.2factor169

5.3.3date171

5.3.4matrix172

5.3.5list175

5.3.6data.frame179

5.3.7formula181

5.4常用函數介紹182

5.4.1數據的讀入和導出182

5.4.2條件判斷183

5.4.3循環186

5.4.4文本處理188

5.4.5基本作圖190

5.4.6自定義函數192

5.5常用數據處理與統計分析函數195

5.5.1單變量分析195

5.5.2雙變量、多變量分析198

5.5.3線性回歸模型200

5.5.4Logistic回歸模型202

5.5.5生存分析模型203

5.6dplyr包簡介206

5.6.1安裝dplyr包206

5.6.2dplyr包中最常用的5個函數206

5.6.3用%>%運算符連接多個函數211

5.6.4dplyr包中其他實用的函數212

5.7ggplot2包簡介214

5.7.1安裝ggplot2包214

5.7.2使用ggplot2畫圖的基本思路214

5.7.3使用geom_histogram函數繪製直方圖215

5.7.4使用geom_bar函數繪製柱狀圖217

5.7.5使用geom_boxplot函數繪製箱形圖217

5.7.6使用geom_point函數繪製散點圖220

5.7.7使用geom_smooth函數在散點圖上添加線性回歸結果223

5.7.8對圖中細節進行微調224

5.7.9將多個圖合並為一個圖225

5.7.10保存圖228

第6章Stata基礎229

6.1Stata簡介229

6.1.1界面介紹229

6.1.2在菜單欄中選擇命令230

6.1.3輸入命令代碼230

6.2獲得幫助230

6.2.1檢索關鍵詞230

6.2.2查看幫助231

6.2.3幫助建議231

6.3語法結構231

6.3.1變量集232

6.3.2by前綴233

6.3.3命令234

6.3.4=表達式234

6.3.5if表達式236

6.3.6in範圍236

6.3.7權重237

6.3.8命令選項237

6.3.9數值集合238

6.3.10文件名238

6.4數據轉換與分析239

6.4.1導入數據239

6.4.2瀏覽數據與基本描述240

6.4.3數值變量243

6.4.4文本變量247

6.4.5日期變量252

6.4.6缺失值253

6.4.7注釋變量254

6.4.8調整數據結構256

6.4.9基本描述258

6.4.10統計檢驗260

6.4.11相關分析262

6.4.12回歸分析263

6.4.13導出數據267

6.5輸出結果調用268

6.5.1一般統計命令結果調用268

6.5.2估計命令結果調用269

6.6重復命令271

6.6.1by前綴271

6.6.2foreach循環274

6.6.3forvalues循環275

6.7編程工具275

6.7.1do文件275

6.7.2標量變量276

6.7.3宏變量277

6.7.4矩陣279

6.7.5程序283

第7章Python基礎284

7.1Python的安裝284

7.1.1使用Python安裝包安裝Python 3284

7.1.2通過Anaconda安裝Python 3285

7.2常用交互式語言開發環境287

7.2.1編輯器288

7.2.2控制臺289

7.2.3變量管理器290

7.3常用數據類型、數據結構與基本語句291

7.3.1Python中的變量命名規則291

7.3.2常見的數據類型及運算291

7.3.3常見的數據結構及運算291

7.3.4第一個程序295

7.3.5函數295

7.3.6常用邏輯語句298

7.4數據的導入與導出302

7.4.1數據的讀取302

7.4.2數據存儲304

7.5基礎運算常用包——NumPy 304

7.5.1基本性質304

7.5.2矢量化運算306

7.5.3NumPy中的函數306

7.5.4ndarray的軸、索引與切片309

7.5.5實戰舉例: 用NumPy進行圖像處理313

7.6數據處理常用包——Pandas316

7.6.1主要數據類型316

7.6.2對DataFrame的描述318

7.6.3缺失值的檢測與處理319

7.6.4DataFrame的索引321

7.6.5常見操作325

7.6.6字符處理專題328

7.6.7apply專題331

7.6.8groupby專題333

7.7統計分析常用包338

7.7.1單樣本t檢驗339

7.7.2獨立樣本t檢驗340

7.7.3兩個連續型變量的相關性341

7.7.4兩個分類變量的頻數統計341

7.7.5線性回歸模型342

7.7.6Logistic回歸模型345

7.7.7生存分析347

7.8繪圖常用包352

7.8.1Pandas352

7.8.2Matplotlib356

7.8.3Seaborn360

第8章軟件實踐總論366

8.1本書使用的數據集366

8.1.1病人基本信息數據集366

8.1.2診斷信息數據集367

8.1.3實驗室檢測結果數據集(一)368

8.1.4實驗室檢測結果數據集(二)368

8.1.5用藥信息數據集368

8.1.6急性心肌梗死數據集369

8.2軟件實踐步驟369

8.2.1數據清洗369

8.2.2數據準備370

8.2.3數據分析370

8.2.4結果整理370

8.2.5代碼的重復使用370

8.3實例: 擬研究的課題371

第9章SAS實踐部分372

9.1數據的清洗與管理372

9.1.1病人基本信息數據集372

9.1.2診斷信息數據集376

9.1.3實驗室檢測結果數據集(一)381

9.1.4實驗室檢測結果數據集(二)387

9.1.5用藥信息數據集390

9.2數據分析與結果整理393

9.2.1定量數據的統計描述394

9.2.2分類數據的統計描述398

9.2.3相關分析402

9.2.4線性回歸分析406

9.2.5Logistic回歸分析412

9.2.6Cox回歸分析418

第10章R語言實踐部分425

10.1數據的清洗與管理425

10.1.1病人基本信息數據集425

10.1.2診斷信息數據集431

10.1.3實驗室檢測結果數據集(一)435

10.1.4實驗室檢測結果數據集(二)439

10.1.5用藥信息數據集442

10.2數據分析與結果整理445

10.2.1定量數據的統計描述446

10.2.2分類數據的統計描述449

10.2.3相關分析452

10.2.4線性回歸分析453

10.2.5Logistic回歸分析457

10.2.6Cox回歸分析463

第11章Stata實踐部分470

11.1數據的清洗與管理470

11.1.1病人基本信息數據集470

11.1.2診斷信息數據集483

11.1.3實驗室檢測結果數據集(一)490

11.1.4實驗室檢測結果數據集(二)495

11.1.5用藥信息數據集500

11.2數據分析與結果整理504

11.2.1定量數據的統計描述504

11.2.2分類數據的統計描述511

11.2.3相關分析516

11.2.4一般線性回歸分析519

11.2.5Logistic回歸分析526

11.2.6Cox回歸分析535

11.3Stata在Meta分析中的應用545

11.3.1Meta分析簡介545

11.3.2二分類變量的Meta分析548

11.3.3連續性變量的Meta分析552

11.3.4發表偏倚分析553

第12章Python實踐部分557

12.1數據的清洗與管理557

12.1.1病人基本信息數據集557

12.1.2診斷信息數據集566

12.1.3實驗室檢測結果數據集(一)571

12.1.4實驗室檢測結果數據集(二)578

12.1.5用藥信息數據集582

12.2數據準備和數據分析584

12.2.1定量數據的統計描述584

12.2.2分類數據的統計描述587

12.2.3相關分析589

12.2.4線性回歸分析591

12.2.5Logistic回歸分析595

12.2.6Cox回歸分析602參考文獻609附錄A常用假設檢驗方法610附錄B正則表達式619附錄C系統綜述與Meta分析技術路線圖622


購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 1034
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區