TOP
0
0
三民出版.新書搶先報|最速、最優惠的新鮮貨報給你知!
視覺:對人類如何表示和處理視覺信息的計算研究
滿額折

視覺:對人類如何表示和處理視覺信息的計算研究

商品資訊

人民幣定價:119 元
定價
:NT$ 714 元
優惠價
87621
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點:18 點
商品簡介
作者簡介
名人/編輯推薦
目次
相關商品

商品簡介

√影響一代腦、認知、計算機視覺專家的經典著作

√詳細闡述Marr提出的用於研究和理解視覺感知的一般框架

√釐清計算理論、算法、實現三個研究層次

√掌握本書介紹的視覺計算理論,對在人工智能和計算機視覺領域內開展進一步探索至關重要

√吳佳俊教授傾情翻譯

 

本書研究了人類對視覺信息的表示和處理,並對視覺計算處理過程提出了全面的計算理論。全書立足於計算機科學、視覺神經科學和心理物理學的進展,是跨學科交叉研究的經典教科書,並對多個學科的研究都有深刻啟發作用。特別值得一提的是,在近年深度學習的熱潮之中,掌握本書介紹的視覺計算理論,對於在人工智能和計算機視覺領域內開展進一步探索是至關重要的。

作者簡介

David Courtnay Marr

計算神經科學領域的創始人之一,曾任麻省理工學院心理學教授。Shimon Ullman是位於以色列雷霍沃特的魏茨曼科學研究所的計算機科學Samy和Ruth Cohn講席教授。Tomaso Poggio是麻省理工學院腦和認知科學系的Eugene McDermott講席教授。Ullman和Poggio都曾在麻省理工學院與David Marr共事。

 

譯者:吳佳俊

斯坦福大學計算機科學系助理教授,研究方向是計算機視覺、機器學習和計算認知科學。加入斯坦福大學之前,曾是谷歌研究院的訪問研究員,並分別在清華大學和麻省理工學院獲得了學士和博士學位。他的研究曾獲ACM博士學位論文榮譽提名獎、AAAI/ACM SIGAI博士學位論文獎、麻省理工學院George M. Sprowls人工智能與決策博士學位論文獎,以及2020年三星人工智能年度研究人員獎。

名人/編輯推薦

Marr是一位跨學科的傳奇人物,他在1970年代將神經科學、心理學的成果與數學方法相結合,提出了視覺計算的理論框架,並釐清了計算理論、算法、實現三個研究層次,對計算機視覺在1980—1990年代的蓬勃發展提供了指導思想。我在1989年作為一名大三學生有幸讀到這本書的第一個中譯本,從而走上了計算機視覺的科研道路。

朱松純北京通用人工智能研究院院長,北京大學、清華大學講席教授

 

我看過的第一本計算機視覺英文書就是David Marr的Vision。非常高興看到吳佳俊教授將此書翻譯成中文。Marr提出的用於研究和理解視覺感知的計算框架,以及如何通過神經科學和認知科學問題來達成閉環的思路,深刻影響了幾十年來計算機視覺領域的發展。我也特別喜歡本書第七章自問自答的寫作風格。在深度學習廣泛應用於計算機視覺的今天,再讀1980年出版的Marr的經典著作,同時參考Ullman、Poggio和Grimson 教授為中文版特別撰寫的推薦序和後記,我相信會對人工智能從業者和學生們有非常大的啟發作用。

沈向洋粵港澳大灣區數字經濟研究院理事長,美國國家工程院外籍院士

 

 

Marr的《視覺》在35年前我開始職業生涯時發揮了極其關鍵的作用。按照Marr提出的框架,視覺表示從圖像到初草圖(邊緣提取)到2.5維草圖(深度圖重建)到三維模型表示。那時邊緣提取已經非常成熟,深度圖重建已經有了長足的發展,但三維模型表示才起步不久,我義無反顧地投入三維視覺的研究及在移動機器人領域的應用,很幸運參與並為後續近20年三維視覺的蓬勃發展做出了一點貢獻。

Marr的《視覺》成書於40多年前,它不是一本計算機視覺的書,而是關於人類視覺的計算理論。在深度學習時代,有了足夠的數據,端到端的訓練似乎不需要計算理論,但我觀察到在過去的兩三年,一個有趣的現象悄悄發生——無論是視覺、語音,還是自然語言處理,數據紅利慢慢消失,新的突破往往來自在神經網絡結構設計中加入對領域的深入理解,而這,離不開計算理論的指導。強烈推薦Marr的《視覺》一書。

張正友騰訊17級傑出科學家,AI Lab和Robotics X實驗室主任

 

很高興看到這本Marr的經典著作的中文版的面世,彷彿又回到了九十年代在MIT讀書時的課堂。經典永流傳,四十年後,在深度學習開啟的人工智能時代,本書仍舊在不斷啟發我們對計算機視覺的研究。

湯曉鷗香港中文大學教授,工程學院傑出學人,商湯科技創始人

 

Marr在《視覺》一書中描述的視覺計算理論的思想,在數十年間主導了計算機視覺的發展。四十年後的今天,我們再讀這本書,會發現雖然Marr的具體計算理論可能是理想化的,但他對計算理論這一概念的追求,啟發了我們找到了物體識別這個新的計算目標,構建了ImageNet這樣的數據集,並最終影響了今日計算機視覺的發展。在此,我向大家鄭重推薦我的同事吳佳俊翻譯的《視覺》中文版。

李飛飛斯坦福大學紅杉講席教授,美國國家工程院、國家醫學院、藝術與科學院院士

深度學習和相關領域的進步向Marr對視覺和人工智能的看法提出了多重挑戰。也許最核心的一點是挑戰了Marr的基本方法,即為人類視覺和人工智能問題尋求他所謂的“計算理論”。在Marr的書中,他提出瞭如今已眾所周知的劃分,即將對信息處理系統的理解分為三個層次:計算理論層次、算法層次和硬件實現層次。粗略地說,Marr的重點是在計算理論層次,而當前的深度網絡建模則側重於算法和實現層次,摒棄了計算理論的概念。

 

 

例如,在處理從雙眼視覺計算三維形狀的問題時,Marr和Poggio描述了許多使該任務成為可能的一般原則。簡而言之,計算任務依賴於在左右眼獲得的兩張圖像中建立視覺特徵之間的對應關係。為了獲得可靠的對應關係,最合適的特徵是多個層次上清晰的圖像強度變化(邊)。通過將問題簡化為沿所謂的極線進行一維搜索,對相應特徵的搜索就變得容易了。根據這樣的分析,他們描述了基於這一任務的基本原理的計算理論,並繼續描述了兩種均以該理論為指導的不同算法(詳見本書第3章)。類似地,基於Horn從明暗中提取三維形狀的工作,第3章還使用了圖像形成的基本物理方程來描述這個視覺任務的基本理論,並使用了平滑約束來恢復表面朝向,並以此恢復表面的三維形狀。

 

 

相比之下,在深度學習方法中,視覺問題是通過對任務進行端到端的訓練來解決的。這些訓練基於圖像示例,並將其與所需的輸出配對。作為計算理論支柱的基本原則在這裡並不起直接作用。這些原則可能會被網絡模型隱式地發現並使用,但它們不會被從外部提供或顯式地使用。這種方法上的差異會對Marr的方法和方法論的其他核心問題產生影響。例如,Marr強調基於計算理論的模塊化設計的用處,而深度學習方法則強調端到端訓練的價值。由於Marr尋求解法背後獨立於特定的實現算法的基本原則,他自然認為對人類感知和人腦的研究與計算機視覺和人工智能密切相關。這是因為在基本的層次上,類似的問題很可能以類似的原則為基礎進行處理。本書中的大部分討論都關乎這些相似性的本質。那麼,Marr的方法和深度學習是兩種相反的可能,其在算法層次上是否對比了計算理論與端到端學習?需要注意的一點是,這兩種方法其實並不能被明確地區分開來。Marr在一篇不太為人所知的論文中討論了這個問題。該論文發表於本書英文版成書之前,題為“Artificial Intelligence–A Personal View”。在這篇論文中,Marr區分了兩種類型的理論,稱之為“類型1”與“類型2”。類型1理論受一套清晰的基本原則支配,而完整的理論正遵循這些原則。相比之下,類型2理論被描述為“通過大量進程的同時運作所解決的問題,這些進程的交互是對這個問題最簡單的描述”。Marr強調視覺和人工智能中的許多問題可能是類型1和類型2的混合,而不屬於“純”類型1,而有些問題則可能完全是類型2的。

 

 

對我們人類來說,有充分的理由去尋找理論中類型1的那些層面,並在可能的情況下使它們顯式化。這是因為這些有原則的理論提供了類型2的黑盒理論所缺乏的解釋。但是,在解決視覺、人工智能和人類認知方面的問題時,這些原則是否真的必要,或者至少非常有用?可能有人會說並非如此:如果我們將進化視為長期試錯學習的一部分,並最終導向了我們目前的視覺和認知系統,那麼擴展的端到端學習處理過程,在沒有指導原則或模塊化設計且結合進化和個體學習的情形下,必須足以獲取視覺和認知。然而,使用當今的深度學習來實現這種擴展的學習方法是否可行,仍是一個懸而未決的問題。有很多通過當前的網絡模型和訓練方法取得成功的視覺算法的例子。與此同時,這種學習仍然存在根本的困難。首先是超大規模的有監督數據集被廣泛且越來越多地使用。其次是當前方案在遠遠超出訓練示例所代表的分佈的情況下的泛化能力很有限。這種限制可能與當前方法發現和使用的類型1原則的短缺有關。最後,目前的學習模型是否走在正確的軌道上,以在視覺、自然語言和一般認知方面達到“真實”的、類似人類的理解,這一點仍不清楚,也難以確定。人類證明了學習此類處理過程是可能的,但我們可能需要額外的學習方法來實現這種學習,而這可能超出了當前的技術能力。

 

 

在Marr的方法的框架中,為了獲得類似人類的理解和通用的人工智能,我們可能需要更能發現他的類型1通用原則的方法。對此類方法的發現可能來自理論和計算研究,並且正如Marr所建議的那樣,我們還可以嘗試採用人腦和認知系統已經使用的類型1原則。

目次

第Ⅰ部分引言和哲學基礎

第1章哲學原理和方法 7

1.1 背景知識 7

1.2 理解複雜的信息處理系統16

表示和描述16

處理17

信息處理的三個層次19

計算理論的重要性21

JJ Gibson 的方法22

1.3 視覺的表示框架24

第Ⅱ部分視覺

第2章圖像的表示33

2.1 早期視覺的物理背景33

圖像的表示35

基本物理假設35

圖像表示的一般性質40

2.2 過零點和原初草圖42

過零點42

生物學的意義48

原初草圖54

哲學私語59

2.3 圖像的空間排布62

2.4 光源和透明度68

其他光源效果70

透明70

結論71

2.5 聚合過程和全初草圖71

主要論點75

紋理辨別的計算方法及其心理物理學意義76

第3章從圖像到表面78

3.1 人類視覺處理的模塊化組織78

3.2 圖像的處理、約束和可用表示81

3.3 立體視覺87

測量立體視差87

從視差中計算距離和表面朝向121

3.4 方向選擇性124

視覺運動引言124

利用方向選擇性來分離獨立運動的表面136

漸進141

3.5 似動141

為什麼要研究似動142

把問題一分為二143

對應問題146

從運動中恢復結構158

光流164

3.6 形狀輪廓166

一些例子167

遮擋輪廓168

表面朝向的不連續173

表面輪廓175

3.7 表面紋理180

分離紋理元素180

小結184

3.8 明暗和光度立體視覺184

梯度空間185

表面光照、表面反射和圖像強度188

反射率圖189

從明暗中恢復形狀191

光度立體視覺192

3.9 明度、亮度和色彩194

Helson-Judd 方法195

關於亮度和色彩的視網膜—皮層理論196

同時對比的重要性的物理依據200

對強度非線性變化的表層起源的假設202

測量三色圖像的意義203

本方法小結204

3.10 本章小結205

第4章可見表面的直接表示208

4.1 引言208

4.2 圖像分割209

4.3 對問題的重新建模211

4.4 需要表示的信息213

4.5 2.5 維草圖的一般形式215

4.6 表示的可能形式216

4.7 可能的坐標系220

4.8 插值、延續性和不連續性221

4.9 插值問題的計算224

不連續224

插值方法226

4.10 其他內部計算228

第5章用於識別的形狀表示230

5.1 引言230

5.2 形狀表示引起的問題231

評判形狀表示的有效性的標準232

形狀表示的設計選擇233

5.3 三維模型表示235

自然坐標系236

基於坐標軸的描述236

三維模型表示的模塊化組織237

三維模型的坐標系239

5.4 自然推廣241

5.5 推導和使用三維模型表示244

三維模型描述的推導244

以觀察者為中心的坐標系和以物體為中心的坐標系的關係247

三維模型的索引和目錄247

推導和識別的交互250

5.6 心理學的考量253

第6章總結256

第Ⅲ部分尾聲

第7章對計算方法的辯護261

7.1 引言261

7.2 一段對話261

原書第2版後記Marr的《視覺》和計算神經科學284

中文版後記從Marr的《視覺》到人類智能問題288

術語表292

參考文獻298

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 621
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區