2013年最“華彩”的事件莫過于6月的“棱鏡門”。據稱,美國政府竊聽的范圍可以觸及每一個機構和家庭。這些在筆者看來無非是媒體的炒作,只能作為茶余飯后的談資而已。而從數據處理角度來看,即使美國政府有錢有技術,能夠收集和存儲人類社會所有的通信信息,那么它也絕無能力處理這些信息,哪怕只有1%,更別提形成有價值的情報。理由很簡單,因為我們進入了“大數據”時代。暫且不說竊聽得到的信息,就算現有公開數據庫中的數據又有多少得到了有效利用。生物信息就是名副其實的“大數據”領域,特別是當前,下一代測序主導的基因組學每天帶來數以“T”計的海量數據,遠遠超出了現有的數據處理能力。為此,研究人員開發了一些計算機語言或工具(如基于R語言的Bioconductor項目),可以高效地處理這些數據。因此,如何提供有效的培訓,出版好的教材,讓數據分析人員快速掌握這些語言和工具,已成為“大數據”時代一個非常重要的課題。
本書的幾位作者在考察了國內外同類書籍后發現,市場上大部分此類教材或者參考書容易走向兩個極端:一是過分偏重理論,講了很多非常基本的東西,但是沒有聯系到當前的實際應用,從理論到算法,到程序,乃至應用,這些連接部都是一大片空白,留給學生自己去摸索,會讓他們難以理解,進而無法深刻掌握所學知識;二是閉門造車式地應用,有些所謂“應用”或者“實戰”類書籍,造出一些根本不存在的“應用”舉例,既不講明這么做的目的,也沒有實際項目的背景知識,讓讀者越學越是一頭霧水,學到的東西越多,越不知道干什么用、該怎么用。
在生物信息數據分析領域,如果能夠編寫這樣一種書,從實際課題(數據和結果都已經公開發表)出發,提出解決這個問題的思路,結合用到的原理或基礎知識,但更偏重整個解決問題的框架和流程,選用一種簡單易學但功能強大的語言,把講解延伸到具體程序代碼,讓讀者百分之百經歷整個課題研究過程,學會分析并解決問題。那么可以肯定地說,這個學習的印象是深刻的,并真正能把所學知識轉化為自己的技能。這樣的學習過程更加“實例化”,更符合學習者的習慣,而不是編書者的習慣。多年的實際工作經驗告訴我們,與計算機語言有關的學習,必須結合實際項目,動手與動腦同等重要,而結合SCI文章中的具體研究是本書的第一個特點。
本書的幾位作者根據數據分析(特別是生物信息方面)領域多年的工作經驗,細心整理了部分工作內容和程序代碼,將R語言和Bioconductor盡可能詳盡但又不泛泛地介紹給讀者。由于本書的編寫思路和風格是全新的,也是一種嘗試,再加上作者水平有限,時間緊迫(國內讀者催書),書內錯誤在所難免。不過,我們的編寫思路是典型的“Made in China”原則,有個質量差的能滿足需要總比沒有好。只要能夠有益讀者,挨罵也在所不惜。本書可作為高年級本科生和研一學生的生物信息教材配套讀物,亦可作為計算機和數據分析領域的參考書。
本書的第二個特點就是“所見即所得”,本書涉及的全部源代碼都可以通過“拷貝”和“粘貼”來運行,并得到書中同樣的結果,使程序處理的每一個步驟都在讀者的掌控之中。
本書的第三個特點就是所有作者都是通過互聯網認識(此前互不認識),并一起合作進行創作的。希望能夠由此啟發國內其他領域的專家也能充分利用網絡的力量,集中優勢,編寫一些更好的教材。下面是主要作者簡介。
高山,男,1977年出生,1995年考入國防科技大學電子工程學院,后轉入生物信息領域,2010年畢業于南開大學生命科學學院,取得生物信息學博士學位。留美期間主要科研工作在美國堪薩斯大學結構生物學中心和康奈爾大學BTI植物研究所(Boyce Thompson Institute for Plant Research)完成。2013年通過天津市第八批“千人計劃”(青年項目)進入天津大學工作。
歐劍虹,男,1979年出生,1997年考入武漢大學學習微生物專業,后進入日本大阪大學,2009年畢業于大阪大學,取得信息科學與技術博士學位。2011年進入麻省州立大學醫學院從事生物信息研究工作。
肖凱,男,1977年出生,職業數據分析師,“數據科學與R語言”博客博主,現供職于SupStat統計咨詢公司,專注于R語言與大數據挖掘方面的研究。
施勁松,男,1982年出生,2000年考入南京大學生命科學學院,后考入第二軍醫大學,取得生理學博士學位。2012年進入南京軍區南京總醫院腎臟病研究所,主要研究方向是結合臨床的組學數據分析。
杭興宜,男,1981年出生,2003年于解放軍第一軍醫大學生物醫學工程系取得學士學位,2009年于解放軍軍事醫學科學院取得生物信息學博士學位,2013年于解放軍總醫院臨床醫學流動站博士后出站。主要研究方向為高通量組學數據整合和數據挖掘、轉化醫學數據資源建設等。
胡朝陽,男,1983年出生,2007年于華中科技大學同濟醫學院取得學士學位,2012年于復旦大學取得博士學位。現供職于杭州市腫瘤醫院腫瘤研究所,主要從事整合多組學的高通量藥物篩選研究。
宮秀軍,男,1972年出生,2002年于中國科學院計算技術研究所取得計算機軟件與理論方向工學博士學位。2002—2003年分別在新加坡國立大學和新加坡Institute for Inforcomm Research (I2R)做博士后和訪問學者。2003—2006年就職于日本奈良先端科學技術大學院大學。2006年5月回國,進入天津大學,現為計算機科學與技術學院副教授。研究方向主要包括數據挖掘、復雜信息系統集成和生物信息學。
呂紅,女,1978年出生,1998年考入哈爾濱工業大學航天學院,取得工學碩士學位。2006年進入天津職業技術師范大學電子工程學院工作,主要研究方向為通信信號處理、通信網和移動通信技術。
本書的其他作者包括青島市市立醫院的釗守鳳(1972年出生,女)、中科院病毒所的劉海舟(1976年出生,男)、昆明理工大學的焦建宇(1991年出生,男)、華南師范大學的游宇星(1988年出生,男)和美國凱斯西儲大學醫學院的管棟印(1983年出生,男)。另外,參與校對工作的人員有沈陽農業大學的齊明芳副教授、廣東省農業科學研究院的貝錦龍助理研究員、山東師范大學的公茂磊、河南農業大學的楊海玉、中國農業大學的張媛媛、華中農業大學的易堅、重慶大學的李勃、浙江大學的吳三玲、中科院病毒所的葉彥波、美國伊利諾伊大學香檳分校的張洋和美國得州學院的董川。東南大學的謝建明副教授、暨南大學的許忠能副教授和中國農業科學院甘薯所的曹清河副研究員也對本書提出了寶貴意見。本書的封面設計原始創意來自北京市理化分析測試中心的蘇曉星和延邊大學的李廣。
首先,感謝BTI植物研究所的費章君副教授在我博士后期間的指導以及費章君實驗室的毛林勇、鄭軼、包衎和孫宏賀等各位同事的幫助。費老師是我在第二代測序方面研究的領路人,不僅在專業上給我多方面指導,而且在學術研究等其他方面也使我得到很多訓練。本書在第二代測序方面的一些思路和經驗有些來自于費老師實驗室各成員的討論。
其次,感謝我的博士生導師南開大學生命科學學院的張濤和數學學院的阮吉壽教授對我的長期支持,并作為我的堅強后盾;感謝國家人口與健康科學數據共享平臺的支持;特別感謝天津大學計算機科學與技術學院前院長孫濟洲教授和院長黨建武教授對我回國工作的熱情幫助,以及天津市委組織部和天津大學在人才引進方面的積極服務。最后,感謝堪薩斯大學徐亮副教授提供了第五章5.7部分的芯片數據,加利福尼亞大學助理教授Thomas Girke提供了第二章內容的部分源代碼。本書的資助來自天津市認知計算與應用重點實驗室的國家自然科學基金重點項目“語音產生過程的神經生理建模與控制”(F030404)。本書在編寫過程中,還得到了我國腎臟病專家、中國工程院院士劉志紅教授的關懷和幫助,在此也一并表示感謝。
本書的第四個特點就是寫書過程中不斷通過QQ群征詢本領域研究人員的意見,動態交流,其間對內容進行了多次修改,而且本書的售后服務和答疑也將通過QQ群160685613進行