商品簡介
作者簡介
目次
書摘/試閱
商品簡介
《北京理工大學教育基金會·教授文庫:生物信息處理技術與方法》共分8章,主要內容包括生物信息處理知識基礎、數據處理方法基礎、序列比對方法、系統發生樹構建方法、基因芯片數據處理方法、RNA結構預測方法、蛋白質結構預測方法、生物分子網絡構建方法等。
《北京理工大學教育基金會·教授文庫:生物信息處理技術與方法》可用作計算機科學與技術、生命信息工程、軟件工程、通信與信息系統等相關學科、專業的教材,也可作為參考書直接使用,同時也可供科研人員參考和有興趣者自學使用。
《北京理工大學教育基金會·教授文庫:生物信息處理技術與方法》可用作計算機科學與技術、生命信息工程、軟件工程、通信與信息系統等相關學科、專業的教材,也可作為參考書直接使用,同時也可供科研人員參考和有興趣者自學使用。
作者簡介
羅森林,男,漢族,1968年2月出生,博士(后),教授,博導。1998年獲得北京理工大學電子工程系通信與電子系統博士學位;2000年10月于中國科學院計算技術研究所計算機科學博士后流動站出站后,到北京理工大學工作至今。現為北京理工大學信息系統及安全對抗實驗中心主任,學科、專業責任教授,教育部特色專業、北京市特色專業、國防特色專業、工業和信息化部重點專業建設負責人。
科研方向為網絡安全、數據挖掘、文本安全和媒體安全,承擔省部級以上科研項目三十余項。出版著作和教材9部,其中規劃教材3部,北京市精品教材4部。獲和省部級科研、教學成果獎及質量工程項目二十余項。
科研方向為網絡安全、數據挖掘、文本安全和媒體安全,承擔省部級以上科研項目三十余項。出版著作和教材9部,其中規劃教材3部,北京市精品教材4部。獲和省部級科研、教學成果獎及質量工程項目二十余項。
目次
第1章 緒論
1.1 產生背景和意義
1.2 知識基礎
1.3 發展簡史和現狀
1.4 數據庫及技術工具
1.5 技術難點與發展趨勢
1.6 本章小結
思考題
第2章 數據處理方法基礎
2.1 引言
2.2 概率論基礎
2.3 數據預處理
2.4 數據分類分析
2.5 數據聚類分析
2.6 關聯規則發現
2.7 隱馬爾科夫模型
2.8 數據處理效果評價
2.9 高維數據處理
2.10 本章小結
思考題
第3章 序列比對方法
3.1 引言
3.2 序列比對知識基礎
3.3 主要技術方法及分析
3.4 雙序列比對
3.5 多序列比對
3.6 應用實例分析
3.7 本章小結
思考題
第4章 系統發生樹構建方法
4.1 引言
4.2 系統發生樹知識基礎
4.3 主要技術方法及分析
4.4 基于距離的構建方法
4.5 基于離散特征的構建方法
4.6 Quartet方法
4.7 應用實例分析
4.8 本章小結
思考題
第5章 基因芯片數據處理方法
5.1 引言
5.2 基因芯片知識基礎
5.3 主要技術方法及分析
5.4 基因芯片數據預處理
5.5 基因芯片數據聚類分析
5.6 基因芯片數據分類分析
5.7 應用實例分析
5.8 本章小結
思考題
第6章 RNA結構預測方法
6.1 引言
6.2 RNA知識基礎
6.3 主要技術方法及分析
6.4 比較序列分析方法
6.5 動態規劃算法
6.6 組合優化算法
6.7 啟發式算法
6.8 應用實例分析
6.9 本章小結
思考題
第7章 蛋白質結構預測方法
7.1 引言
7.2 蛋白質結構知識基礎
7.3 主要技術方法及分析
7.4 蛋白質二級結構預測
7.5 蛋白質三級結構預測
7.6 應用實例分析
7.7 本章小結
思考題
第8章 生物分子網絡構建方法
8.1 引言
8.2 生物分子網絡知識基礎
8.3 主要技術方法及分析
8.4 基因調控網絡構建方法
8.5 蛋白質互作網絡構建方法
8.6 應用實例分析
8.7 本章小結
思考題
參考文獻
1.1 產生背景和意義
1.2 知識基礎
1.3 發展簡史和現狀
1.4 數據庫及技術工具
1.5 技術難點與發展趨勢
1.6 本章小結
思考題
第2章 數據處理方法基礎
2.1 引言
2.2 概率論基礎
2.3 數據預處理
2.4 數據分類分析
2.5 數據聚類分析
2.6 關聯規則發現
2.7 隱馬爾科夫模型
2.8 數據處理效果評價
2.9 高維數據處理
2.10 本章小結
思考題
第3章 序列比對方法
3.1 引言
3.2 序列比對知識基礎
3.3 主要技術方法及分析
3.4 雙序列比對
3.5 多序列比對
3.6 應用實例分析
3.7 本章小結
思考題
第4章 系統發生樹構建方法
4.1 引言
4.2 系統發生樹知識基礎
4.3 主要技術方法及分析
4.4 基于距離的構建方法
4.5 基于離散特征的構建方法
4.6 Quartet方法
4.7 應用實例分析
4.8 本章小結
思考題
第5章 基因芯片數據處理方法
5.1 引言
5.2 基因芯片知識基礎
5.3 主要技術方法及分析
5.4 基因芯片數據預處理
5.5 基因芯片數據聚類分析
5.6 基因芯片數據分類分析
5.7 應用實例分析
5.8 本章小結
思考題
第6章 RNA結構預測方法
6.1 引言
6.2 RNA知識基礎
6.3 主要技術方法及分析
6.4 比較序列分析方法
6.5 動態規劃算法
6.6 組合優化算法
6.7 啟發式算法
6.8 應用實例分析
6.9 本章小結
思考題
第7章 蛋白質結構預測方法
7.1 引言
7.2 蛋白質結構知識基礎
7.3 主要技術方法及分析
7.4 蛋白質二級結構預測
7.5 蛋白質三級結構預測
7.6 應用實例分析
7.7 本章小結
思考題
第8章 生物分子網絡構建方法
8.1 引言
8.2 生物分子網絡知識基礎
8.3 主要技術方法及分析
8.4 基因調控網絡構建方法
8.5 蛋白質互作網絡構建方法
8.6 應用實例分析
8.7 本章小結
思考題
參考文獻
書摘/試閱
《北京理工大學教育基金會·教授文庫:生物信息處理技術與方法》:
(2)空空間現象
以正態分布的數據為例,一個正態分布可以用期望值L和標準差R來表示。數據點與期望值之間的距離服從高斯分布,但與期望點的相對方位是隨機選取的。應該注意的是,相對于一個點的可能的方向的數目,也是隨著維數的增大而呈指數級增長。這樣一來,數據空間中的其他數據與中心點之間的距離雖然仍然服從同樣的分布,但數據點之間的距離也還會隨著維數的增大而增加。如果考慮數據集的密度,就會發現,雖然可能沒有一個點離中心點的距離很近,但在中心點還是會出現一個大值。這種在高維空間中,在空區域中,點的密度可能會很高的現象即被稱為“空空間現象”。
(3)維災
Bellman次提出了“維災”這一術語。它初的含義是,不可能在一個離散的多維網格上用蠻力搜索去優化一個有著很多變量的函數。這是因為網格的數目會隨著維數也就是變量數目的增長呈指數級增長。隨著時間的推移,“維災”這一術語也用來泛指在數據分析中遇到的由于變量(屬性)過多而引起的所有問題。這些問題在信息檢索領域主要表現在兩個方面:一方面,隨著維數的升高,索引結構的修剪效率迅速下降,當維數增加到一定數量時,采用索引結構還不如順序掃描;另一方面,在高維空間中,由于查詢點到其近鄰和遠鄰在很多情況下幾乎是等距離的,鄰近的概念常常會失去意義。
針對高維數據的特點,主要從以下幾個方面對高維數據進行分析:
(1)高維空間中的距離函數或相似性度量函數
距離函數和相似性度量函數在很多數據挖掘算法中扮演著非常重要的角色,常常用來衡量對象之間的差異程度和相似程度。由于“維災”與傳統方法中采用Lk范數作為距離函數有關,因此,通過重新定義合適的距離函數或相似性度量函數可以避開“維災”的影響。
(2)高效的高維數據相似性搜索算法
目前,絕大多數的高維索引結構和相似性搜索算法都是基于數值型數據,并且這些索引結構在應用于數據挖掘時都存在著不同程度的局限性。因此,需要設計更為高效的相似性搜索算法,包括兩部分內容:一是對未設計或研究較少的其他類型高維數據相似性搜索方法的研究;二是對現有高維索引結構或搜索算法性能的改進。
(3)高效的高維數據挖掘算法
針對在高維空間中,多數數據挖掘算法效率下降的問題,需要設計更為高效的高維數據挖掘算法。如在高維索引結構失效的情況下,在聚類算法或異常檢測算法中采用并行算法、增量算法以及采樣技術等,提高算法的效率。根據高維數據的特點,設計新穎的頻繁模式挖掘算法,提高算法的執行效率。
(4)在高維空間中對失效問題的處理
如前所述,在高維情況下,近鄰的概念失去了意義,進而導致基于距離的聚類問題和異常檢測問題失去意義。這些問題在高維情況下需要重新進行定義,并設計出相應的挖掘算法。
(5)選維和降維
通過選維和降維,可以將高維數據轉換為低維數據,然后采用低維數據的方法進行處理。因此,研究有效的選維和降維技術也是解決高維問題的重要手段之一。如在分類算法中,通過選維和降維可以減少冗余屬性以及噪聲對分類模式造成的影響。
……
(2)空空間現象
以正態分布的數據為例,一個正態分布可以用期望值L和標準差R來表示。數據點與期望值之間的距離服從高斯分布,但與期望點的相對方位是隨機選取的。應該注意的是,相對于一個點的可能的方向的數目,也是隨著維數的增大而呈指數級增長。這樣一來,數據空間中的其他數據與中心點之間的距離雖然仍然服從同樣的分布,但數據點之間的距離也還會隨著維數的增大而增加。如果考慮數據集的密度,就會發現,雖然可能沒有一個點離中心點的距離很近,但在中心點還是會出現一個大值。這種在高維空間中,在空區域中,點的密度可能會很高的現象即被稱為“空空間現象”。
(3)維災
Bellman次提出了“維災”這一術語。它初的含義是,不可能在一個離散的多維網格上用蠻力搜索去優化一個有著很多變量的函數。這是因為網格的數目會隨著維數也就是變量數目的增長呈指數級增長。隨著時間的推移,“維災”這一術語也用來泛指在數據分析中遇到的由于變量(屬性)過多而引起的所有問題。這些問題在信息檢索領域主要表現在兩個方面:一方面,隨著維數的升高,索引結構的修剪效率迅速下降,當維數增加到一定數量時,采用索引結構還不如順序掃描;另一方面,在高維空間中,由于查詢點到其近鄰和遠鄰在很多情況下幾乎是等距離的,鄰近的概念常常會失去意義。
針對高維數據的特點,主要從以下幾個方面對高維數據進行分析:
(1)高維空間中的距離函數或相似性度量函數
距離函數和相似性度量函數在很多數據挖掘算法中扮演著非常重要的角色,常常用來衡量對象之間的差異程度和相似程度。由于“維災”與傳統方法中采用Lk范數作為距離函數有關,因此,通過重新定義合適的距離函數或相似性度量函數可以避開“維災”的影響。
(2)高效的高維數據相似性搜索算法
目前,絕大多數的高維索引結構和相似性搜索算法都是基于數值型數據,并且這些索引結構在應用于數據挖掘時都存在著不同程度的局限性。因此,需要設計更為高效的相似性搜索算法,包括兩部分內容:一是對未設計或研究較少的其他類型高維數據相似性搜索方法的研究;二是對現有高維索引結構或搜索算法性能的改進。
(3)高效的高維數據挖掘算法
針對在高維空間中,多數數據挖掘算法效率下降的問題,需要設計更為高效的高維數據挖掘算法。如在高維索引結構失效的情況下,在聚類算法或異常檢測算法中采用并行算法、增量算法以及采樣技術等,提高算法的效率。根據高維數據的特點,設計新穎的頻繁模式挖掘算法,提高算法的執行效率。
(4)在高維空間中對失效問題的處理
如前所述,在高維情況下,近鄰的概念失去了意義,進而導致基于距離的聚類問題和異常檢測問題失去意義。這些問題在高維情況下需要重新進行定義,并設計出相應的挖掘算法。
(5)選維和降維
通過選維和降維,可以將高維數據轉換為低維數據,然后采用低維數據的方法進行處理。因此,研究有效的選維和降維技術也是解決高維問題的重要手段之一。如在分類算法中,通過選維和降維可以減少冗余屬性以及噪聲對分類模式造成的影響。
……
主題書展
更多
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

