商品簡介
本書從記錄、代表記錄、相似記錄、記錄簇、傳遞閉包、並查集、實體、實體解析(entity resolution,ER)、增量實體解析(incremental entity resolution,IER)等概念出發,研究了基於代表記錄的增量實體解析方法。本書共8章,內容包括緒論、相關研究、基於代表記錄的增量實體解析方法研究框架和關鍵問題、基於優先佇列的代表記錄產生模型構建方法研究、基於並查集的相似記錄聚類模型構建方法研究、基於代表記錄的記錄簇調整模型構建方法研究、基於代表記錄的增量實體解析方法的有效性實驗、總結與展望。 本書可供高等院校計算機、資料分析、信息管理等專業的本科生和碩士研究生使用,也可供資料庫、資料質量和資料集成領域研究人員和從業者參考。
目次
第1章 緒論
1.1 研究背景
1.2 相關概念
1.2.1 記錄
1.2.2 代表記錄
1.2.3 相似記錄
1.2.4 記錄簇
1.2.5 傳遞閉包
1.2.6 並查集
1.2.7 實體
1.2.8 實體解析
1.2.9 增量實體解析
1.3 研究目標和意義
1.3.1 研究目標
1.3.2 研究意義
1.4 研究思路與研究方法
1.4.1 研究思路
1.4.2 研究方法
1.5 本書的組織結構
本章小結
第2章 相關研究
2.1 經典聚類算法下的實體解析方法
2.1.1 基於凝聚層次聚類的實體解析方法
2.1.2 基於k-means聚類的實體解析方法
2.1.3 基於相關性聚類的實體解析方法
2.2 一般聚類算法下的實體解析方法
2.2.1 基於優先佇列的實體解析方法
2.2.2 基於相似圖形的實體解析方法
2.2.3 基於相似性值的實體解析方法
2.2.4 基於比較向量的實體解析方法
2.3 增量聚類算法下的增量實體解析方法
2.3.1 基於位置敏感雜湊算法的增量實體解析方法
2.3.2 基於經典聚類算法的增量實體解析方法
2.3.3 基於其他增量聚類算法的增量實體解析方法
2.4 現有研究方法中的不足分析
2.4.1 基於優先佇列的實體解析方法中的不足
2.4.2 基於相關性聚類的增量實體解析方法中的不足
本章小結
第3章 基於代表記錄的增量實體解析方法研究框架和關鍵問題
3.1 總體研究框架
3.2 基於優先佇列的代表記錄產生模型的關鍵問題及解決思路
3.2.1 代表記錄產生方法分析
3.2.2 基於優先佇列的代表記錄產生模型的構建
3.3 基於並查集的相似記錄聚類模型的關鍵問題及解決思路
3.3.1 相似記錄聚類方法分析
3.3.2 基於並查集的相似記錄聚類模型的構建
3.4 基於代表記錄的記錄簇調整模型的關鍵問題及解決思路
3.4.1 記錄簇調整方法分析
3.4.2 基於代表記錄的記錄簇調整模型的構建
本章小結