使用C#開發搜索引擎(附光碟)(簡體書)
商品資訊
ISBN13:9787302270706
出版社:清華大學出版社(大陸)
作者:羅剛
出版日:2012/02/01
裝訂/頁數:平裝/345頁
附件:附光碟
規格:23.5cm*16.8cm (高/寬)
版次:1
人民幣定價:49 元
定價
:NT$ 294 元優惠價
:
87 折 256 元
絕版無法訂購
商品簡介
作者簡介
名人/編輯推薦
目次
書摘/試閱
商品簡介
《使用C#開發搜索引擎》主要內容簡介:從C#基礎開始,逐漸深入,是學習搜索引擎開發的首選。應眾多公司的實際需求,《使用C#開發搜索引擎》介紹如何以C#作為工具開發搜索引擎。全書以完成一個網站搜索\垂直搜索作為目標,從網絡爬蟲抓取數據開始,然後到中文分詞、文本排重等文本挖掘技術和搜索結果展現。
《使用C#開發搜索引擎》是市面上介紹業界熱門的luCene.net、使用webbrowser做爬蟲以及結合solr開發asp.net搜索的第一書。《使用C#開發搜索引擎》適合專業軟件開發人員,也適合于希望學習搜索引擎工作原理的讀者學習使用。《使用C#開發搜索引擎》對于在校學生學習復雜數據結構和應用動態規劃等常用算法也有參考價值。
《使用C#開發搜索引擎》是市面上介紹業界熱門的luCene.net、使用webbrowser做爬蟲以及結合solr開發asp.net搜索的第一書。《使用C#開發搜索引擎》適合專業軟件開發人員,也適合于希望學習搜索引擎工作原理的讀者學習使用。《使用C#開發搜索引擎》對于在校學生學習復雜數據結構和應用動態規劃等常用算法也有參考價值。
作者簡介
羅剛,獵兔搜索創始人。創建包括旅游搜索和輿情監測在內的多個技術開發團隊。有多年軟件培訓經驗,相關學員已經在UCWeb、MadelnChina等多家公司從事技術開發。出版過的相關書籍包括《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《解密搜索引擎技術實戰》以及視頻教程《Lucene構建網站搜索系統》。愿意與同行一起為發展相關產業盡力。
名人/編輯推薦
《使用C#開發搜索引擎》編輯推薦:介紹業界熱門的Lucene.Net、使用WebBrowser做爬蟲,以及結合Solr開發ASP.NET搜索的第一本圖書。
目次
第1章 使用c#開發搜索引擎快速入門
1.1 各種搜索引擎
1.1.1 通用搜索
1.1.2 垂直搜索
1.1.3 站內搜索
1.2 搜索引擎整體結構
1.3 搜索引擎基本技術
1.3.1 網絡爬蟲
1.3.2 文本挖掘
1.3.3 全文索引
1.3.4 搜索語法介紹
1.3.5 搜索用戶界面
1.4 c#開發快速入門
1.4.1 準備開發環境
1.4.2 基本語法
1.4.3 多維數組
1.4.4 位運算
1.4.5 枚舉類型
1.4.6 面向對象
1.4.7 集合類
1.4.8 泛型
1.4.9 委托和事件
1.4.10 類庫
1.5 本章小結
1.6 術語表
第2章 使用c#開發網絡爬蟲
2.1 網絡爬蟲抓取原理
2.2 爬蟲架構
2.2.1 基本架構
2.2.2 分布式爬蟲架構
2.2.3 垂直爬蟲架構
2.3 下載網頁
2.3.1 http協議
2.3.2 下載靜態網頁
2.3.3 下載動態網頁
2.4 網絡爬蟲遍歷與實現
2.5 網站地圖
2.6 連接池
2.7 url地址查新
2.7.1 嵌入式數據庫
2.7.2 布隆過濾器
2.8 抓取rss
2.9 解析相對地址
2.10 網頁更新
2.11 信息過濾
2.12 垂直行業抓取
2.13 抓取限制應對方法
2.13.1 更換ip地址
2.13.2 抓取需要登錄的網頁
2.13.3 抓取asp.net網頁
2.14 保存信息
2.14.1 存入數據庫
2.14.2 存成圖像
2.15 日志
2.16 本章小結
2.17 術語表
第3章 索引各種格式文檔
3.1 從html文件中提取信息
3.1.1 識別網頁的編碼
3.1.2 正則表達式
3.1.3 html agility pack介紹
3.1.4 網頁正文提取
3.1.5 結構化信息提取
3.1.6 查看網頁的dom結構
3.1.7 網頁結構相似度計算
3.2 從非html文件中提取文本
3.2.1 text文件
3.2.2 pdf文件
3.2.3 office文件
3.2.4 rtf文件
3.3 本章小結
3.4 術語表
第4章 自然語言處理
4.1 統計機器學習
4.2 文檔排重
4.3 中文關鍵詞提取
4.3.1 關鍵詞提取的基本方法
4.3.2 從網頁中提取關鍵詞
4.4 相關搜索
4.5 拼寫檢查
4.5.1 拼寫檢查的概率模型
4.5.2 模糊匹配問題
4.5.3 英文拼寫檢查
4.5.4 中文拼寫檢查
4.6 文本摘要
4.6.1 文本摘要的設計
4.6.2 實現文本摘要技術
4.6.3 lucene.net中的動態摘要
4.7 文本分類
4.7.1 自動分類的接口定義
4.7.2 自動分類的實現
4.8 自動聚類
4.8.1 文檔相似度
4.8.2 k均值聚類方法
4.8.3 k均值實現
4.9 拼音轉換
4.10 句法分析樹
4.11 信息提取
4.12 本章小結
4.13 術語表
第5章 用c#實現中文分詞
5.1 漢語中的詞
5.2 文本切分的基本方法
5.3 有限狀態機
5.4 查找詞典算法
5.4.1 標準trie樹
5.4.2 三叉trie樹
5.5 中文分詞的原理
5.6 中文分詞流程與結構
5.7 切分詞圖
5.7.1 保存切分詞圖
5.7.2 生成全切分詞圖
5.8 概率語言模型的分詞方法
5.8.1 一元模型
5.8.2 n元模型
5.9 最大熵
5.10 未登錄詞識別
5.11 詞性標注
5.12 地名切分
5.12.1 地址類性標注
5.12.2 未登錄詞識別
5.13 本章小結
5.14 術語表
第6章 lucene.net原理與應用
6.1 lucene.net快速入門
6.1.1 索引文檔
6.1.2 搜索文檔
6.1.3 lucene.net結構
6.2 lucene.net深入介紹
6.2.1 索引原理
6.2.2 分析文本
6.2.3 遍歷索引庫
6.2.4 檢索模型
6.2.5 收集最相關的文檔
6.3 索引中的壓縮算法
6.3.1 變長壓縮
6.3.2 差分編碼
6.4 創建和維護索引庫
6.4.1 設計一個簡單的索引庫
6.4.2 創建索引庫
6.4.3 向索引庫中添加索引文檔
6.4.4 刪除索引庫中的索引文檔
6.4.5 更新索引庫中的索引文檔
6.4.6 索引的優化與合并
6.5 查找索引庫
6.5.1 布爾查詢
6.5.2 同時查詢多列
6.5.3 跨度查詢
6.5.4 通配符查詢
6.5.5 過濾
6.5.6 按指定列排序
6.5.7 查詢大容量索引
6.5.8 函數查詢
6.5.9 定制相似性
6.5.10 評價搜索結果
6.6 中文信息檢索
6.6.1 lucene.net中的中文處理
6.6.2 lietu中文分詞的使用
6.6.3 定制tokenizer
6.6.4 解析查詢串
6.6.5 實現字詞混合索引
6.7 抓取數據庫中的內容
6.7.1 讀取數據
6.7.2 數據同步
6.8 概念搜索
6.9 本章小結
6.10 術語表
第7章 實現搜索用戶界面
7.1 搜索頁面設計
7.1.1 用于顯示搜索結果的asp.net
7.1.2 搜索結果分頁
7.1.3 設計一個簡單的搜索頁面
7.2 實現搜索接口
7.2.1 lucene.net搜索接口
7.2.2 指定范圍搜索
7.2.3 搜索頁面的索引緩存與更新
7.3 實現關鍵詞高亮顯示
7.4 實現分類統計視圖
7.4.1 搜索結果分類統計與導航
7.4.2 層次樹
7.5 相關搜索詞
7.6 實現ajax自動完成
7.6.1 總體結構
7.6.2 服務器端處理
7.6.3 瀏覽器端處理
7.7 集成其他功能
7.7.1 拼寫檢查
7.7.2 再次查找
7.7.3 黑名單
7.7.4 搜索日志
7.8 本章小結
第8章 使用solr開發網站搜索
8.1 搜索服務器端
8.8.1 solr結構
8.1.2 啟動solr服務器
8.1.3 配置支持中文的solr
8.1.4 索引數據
8.1.5 查詢功能
8.1.6 高亮
8.2 solr的.net客戶端
8.2.1 使用solrnet
8.2.2 實現多分類
8.2.3 分類統計
8.3 查詢語法
8.3.1 對空格的支持
8.3.2 日期加權
8.4 索引分布
8.5 本章小結
1.1 各種搜索引擎
1.1.1 通用搜索
1.1.2 垂直搜索
1.1.3 站內搜索
1.2 搜索引擎整體結構
1.3 搜索引擎基本技術
1.3.1 網絡爬蟲
1.3.2 文本挖掘
1.3.3 全文索引
1.3.4 搜索語法介紹
1.3.5 搜索用戶界面
1.4 c#開發快速入門
1.4.1 準備開發環境
1.4.2 基本語法
1.4.3 多維數組
1.4.4 位運算
1.4.5 枚舉類型
1.4.6 面向對象
1.4.7 集合類
1.4.8 泛型
1.4.9 委托和事件
1.4.10 類庫
1.5 本章小結
1.6 術語表
第2章 使用c#開發網絡爬蟲
2.1 網絡爬蟲抓取原理
2.2 爬蟲架構
2.2.1 基本架構
2.2.2 分布式爬蟲架構
2.2.3 垂直爬蟲架構
2.3 下載網頁
2.3.1 http協議
2.3.2 下載靜態網頁
2.3.3 下載動態網頁
2.4 網絡爬蟲遍歷與實現
2.5 網站地圖
2.6 連接池
2.7 url地址查新
2.7.1 嵌入式數據庫
2.7.2 布隆過濾器
2.8 抓取rss
2.9 解析相對地址
2.10 網頁更新
2.11 信息過濾
2.12 垂直行業抓取
2.13 抓取限制應對方法
2.13.1 更換ip地址
2.13.2 抓取需要登錄的網頁
2.13.3 抓取asp.net網頁
2.14 保存信息
2.14.1 存入數據庫
2.14.2 存成圖像
2.15 日志
2.16 本章小結
2.17 術語表
第3章 索引各種格式文檔
3.1 從html文件中提取信息
3.1.1 識別網頁的編碼
3.1.2 正則表達式
3.1.3 html agility pack介紹
3.1.4 網頁正文提取
3.1.5 結構化信息提取
3.1.6 查看網頁的dom結構
3.1.7 網頁結構相似度計算
3.2 從非html文件中提取文本
3.2.1 text文件
3.2.2 pdf文件
3.2.3 office文件
3.2.4 rtf文件
3.3 本章小結
3.4 術語表
第4章 自然語言處理
4.1 統計機器學習
4.2 文檔排重
4.3 中文關鍵詞提取
4.3.1 關鍵詞提取的基本方法
4.3.2 從網頁中提取關鍵詞
4.4 相關搜索
4.5 拼寫檢查
4.5.1 拼寫檢查的概率模型
4.5.2 模糊匹配問題
4.5.3 英文拼寫檢查
4.5.4 中文拼寫檢查
4.6 文本摘要
4.6.1 文本摘要的設計
4.6.2 實現文本摘要技術
4.6.3 lucene.net中的動態摘要
4.7 文本分類
4.7.1 自動分類的接口定義
4.7.2 自動分類的實現
4.8 自動聚類
4.8.1 文檔相似度
4.8.2 k均值聚類方法
4.8.3 k均值實現
4.9 拼音轉換
4.10 句法分析樹
4.11 信息提取
4.12 本章小結
4.13 術語表
第5章 用c#實現中文分詞
5.1 漢語中的詞
5.2 文本切分的基本方法
5.3 有限狀態機
5.4 查找詞典算法
5.4.1 標準trie樹
5.4.2 三叉trie樹
5.5 中文分詞的原理
5.6 中文分詞流程與結構
5.7 切分詞圖
5.7.1 保存切分詞圖
5.7.2 生成全切分詞圖
5.8 概率語言模型的分詞方法
5.8.1 一元模型
5.8.2 n元模型
5.9 最大熵
5.10 未登錄詞識別
5.11 詞性標注
5.12 地名切分
5.12.1 地址類性標注
5.12.2 未登錄詞識別
5.13 本章小結
5.14 術語表
第6章 lucene.net原理與應用
6.1 lucene.net快速入門
6.1.1 索引文檔
6.1.2 搜索文檔
6.1.3 lucene.net結構
6.2 lucene.net深入介紹
6.2.1 索引原理
6.2.2 分析文本
6.2.3 遍歷索引庫
6.2.4 檢索模型
6.2.5 收集最相關的文檔
6.3 索引中的壓縮算法
6.3.1 變長壓縮
6.3.2 差分編碼
6.4 創建和維護索引庫
6.4.1 設計一個簡單的索引庫
6.4.2 創建索引庫
6.4.3 向索引庫中添加索引文檔
6.4.4 刪除索引庫中的索引文檔
6.4.5 更新索引庫中的索引文檔
6.4.6 索引的優化與合并
6.5 查找索引庫
6.5.1 布爾查詢
6.5.2 同時查詢多列
6.5.3 跨度查詢
6.5.4 通配符查詢
6.5.5 過濾
6.5.6 按指定列排序
6.5.7 查詢大容量索引
6.5.8 函數查詢
6.5.9 定制相似性
6.5.10 評價搜索結果
6.6 中文信息檢索
6.6.1 lucene.net中的中文處理
6.6.2 lietu中文分詞的使用
6.6.3 定制tokenizer
6.6.4 解析查詢串
6.6.5 實現字詞混合索引
6.7 抓取數據庫中的內容
6.7.1 讀取數據
6.7.2 數據同步
6.8 概念搜索
6.9 本章小結
6.10 術語表
第7章 實現搜索用戶界面
7.1 搜索頁面設計
7.1.1 用于顯示搜索結果的asp.net
7.1.2 搜索結果分頁
7.1.3 設計一個簡單的搜索頁面
7.2 實現搜索接口
7.2.1 lucene.net搜索接口
7.2.2 指定范圍搜索
7.2.3 搜索頁面的索引緩存與更新
7.3 實現關鍵詞高亮顯示
7.4 實現分類統計視圖
7.4.1 搜索結果分類統計與導航
7.4.2 層次樹
7.5 相關搜索詞
7.6 實現ajax自動完成
7.6.1 總體結構
7.6.2 服務器端處理
7.6.3 瀏覽器端處理
7.7 集成其他功能
7.7.1 拼寫檢查
7.7.2 再次查找
7.7.3 黑名單
7.7.4 搜索日志
7.8 本章小結
第8章 使用solr開發網站搜索
8.1 搜索服務器端
8.8.1 solr結構
8.1.2 啟動solr服務器
8.1.3 配置支持中文的solr
8.1.4 索引數據
8.1.5 查詢功能
8.1.6 高亮
8.2 solr的.net客戶端
8.2.1 使用solrnet
8.2.2 實現多分類
8.2.3 分類統計
8.3 查詢語法
8.3.1 對空格的支持
8.3.2 日期加權
8.4 索引分布
8.5 本章小結
書摘/試閱
采購人員需要找到產品的有競爭力的廠家和價格等信息。金融交易人員需要找到有潛力的投資公司。出版行業人士需要找到迅速變熱的話題。這些都可以使用網絡爬蟲幫忙實現。
網絡爬蟲從互聯網上源源不斷的抓取海量信息,搜索引擎結果中的信息都來源于此。如果把互聯網比喻成一個覆蓋地球的蜘蛛網,那么抓取程序就是在網上爬來爬去的蜘蛛。
需要抓取哪些信息呢?首先關注一些高質量的網頁信息。哪些是高質量的網頁?網民用腳投票選擇出來的網頁,這里是訪問量高的網站中的一些熱門網頁。但是尺有所短,寸有所長,很多訪問量一般的網站包括了更多問題的答案,這有點類似長尾效益。Alexa專門統計網站訪問量并發布網站世界排名。如果使用FireFox瀏覽器,可以通過alexa插件查看到當前訪問的網站是否還有很多人在訪問。如果使用IE瀏覽器,可以通過alexa工具條查看到當前訪問網站的訪問量排名。
有些文檔的時效性很強,例如新聞或者財經信息。大部分人想要知道的是當天股票市場的報道,只有很少人關心昨天的市場發生了什么。本章中的一個小節專門介紹如何抓取即時信息。
網絡爬蟲需要實現的基本功能包括下載網頁以及對URL地址的遍歷。為了高效的快速遍歷網站還需要應用專門的數據結構來優化。爬蟲很消耗帶寬資源,設計爬蟲時需要仔細的考慮如何節省網絡帶寬。
網絡爬蟲從互聯網上源源不斷的抓取海量信息,搜索引擎結果中的信息都來源于此。如果把互聯網比喻成一個覆蓋地球的蜘蛛網,那么抓取程序就是在網上爬來爬去的蜘蛛。
需要抓取哪些信息呢?首先關注一些高質量的網頁信息。哪些是高質量的網頁?網民用腳投票選擇出來的網頁,這里是訪問量高的網站中的一些熱門網頁。但是尺有所短,寸有所長,很多訪問量一般的網站包括了更多問題的答案,這有點類似長尾效益。Alexa專門統計網站訪問量并發布網站世界排名。如果使用FireFox瀏覽器,可以通過alexa插件查看到當前訪問的網站是否還有很多人在訪問。如果使用IE瀏覽器,可以通過alexa工具條查看到當前訪問網站的訪問量排名。
有些文檔的時效性很強,例如新聞或者財經信息。大部分人想要知道的是當天股票市場的報道,只有很少人關心昨天的市場發生了什么。本章中的一個小節專門介紹如何抓取即時信息。
網絡爬蟲需要實現的基本功能包括下載網頁以及對URL地址的遍歷。為了高效的快速遍歷網站還需要應用專門的數據結構來優化。爬蟲很消耗帶寬資源,設計爬蟲時需要仔細的考慮如何節省網絡帶寬。
主題書展
更多
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

