具身智能原理與實踐
林倞
- 出版商: 電子工業
- 出版日期: 2025-06-01
- 售價: $714
- 語言: 簡體中文
- 頁數: 296
- ISBN: 7121502666
- ISBN-13: 9787121502668
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
$500$390 -
$480$379 -
$450統計強化學習:現代機器學習方法 (Statistical Reinforcement Learning: Modern Machine Learning Approaches)
-
$564深度強化學習:學術前沿與實戰應用
-
$780$663 -
$720$540 -
$1,200$948 -
$474$450 -
$620$490 -
$1,180$900 -
$834$792 -
$880$695 -
$521CPython 設計與實現
-
$1,190深度學習精粹與 PyTorch 實踐
-
$834$792 -
$708強化學習的數學原理 (英文版)
-
$390$371 -
$474$450 -
$417揭秘大模型:從原理到實戰
-
$654$621
商品描述
本書共分為8章,內容編排遵循由淺入深、循序漸進的原則,旨在為讀者構建具身智能領域的理論體系與實踐方法的完整認知框架。第2章聚焦具身智能的基礎技術體系,重點介紹三維空間表徵、強化學習方法及大模型技術等核心內容。這些基礎技術構成了當前具身智能相關算法的理論支柱,深入理解這些技術是把握後續內容的關鍵前提。第3章至第7章分別從感知、導航、操控、規劃與協作等五個維度,系統地介紹了具身智能的關鍵技術體系。第8章以實踐為導向,重點探討了具身智能在模擬平臺中的實現路徑。
作者簡介
林倞,人工智能領域國際著名學者(IEEE Fellow、IAPR Fellow、IET Fellow)、鵬城國家實驗室多智能體與具身智能研究所所長、中山大學二級教授、國家傑出青年科學基金獲得者、國家人工智能重大專項首席科學家,在多模態表徵學習、因果推斷、具身智能等領域有一系列突破創新成果。截至2024年10月,發表論文400餘篇,論文被引用4萬餘次(谷歌學術統計),獲得最佳論文獎5次。獲黑龍江省自然科學一等獎、吳文俊人工智能獎(自然科學類)、中國圖象圖形學會科學技術獎一等獎等榮譽,指導學生獲得CCF優秀博士論文獎、ACM China優秀博士論文獎及CAAI優秀博士論文獎。曾任商湯科技研究院執行院長,孵化新一代人工智能領軍企業拓元智慧。帶領團隊堅持產學研結合的科技創新思路,聚焦於打造感知、規劃、執行一體化的具身通用大模型。
張瑞茂,中山大學電子與通信工程學院副教授、博士生導師,深圳市海外高層次人才。研究方向集中於計算機視覺、機器人視覺、多模態大模型等領域。所指導的課題組近年來的核心目標是研發“能夠在動態環境中與人進行有效交互的具身智能體”。截至2025年4月,在人工智能領域的期刊和會議上發表論文70餘篇,論文被引用 7000 餘次(谷歌學術統計),授權中國/美國發明專利10餘項。作為核心成員參加谷歌視頻分析挑戰賽並獲得金牌,參加AIM可學習圖像處理挑戰賽並獲得冠軍。先後主持、參與國家自然科學基金、科技部重點研發、廣東省自然科學基金等項目,並與華為、騰訊、商湯、蔚來等知名企業保持長期合作關系。
吳賀豐,中山大學副教授,致力於視覺理解、多模態學習、具身智能、智能體交互等人工智能領域的科學研究與應用實踐,在IEEE T-PAMI、CVPR、AAAI等國際重要期刊和會議上發表論文60餘篇,主持國家重點項目課題、多項國家自然科學基金項目,授權中國發明專利10餘項。獲得廣東省計算機學會優秀論文一等獎,入選廣州市珠江科技新星
目錄大綱
第1章 具身智能概述 1
1.1 具身智能的內涵與重要性 1
1.1.1 具身智能的基本概念 2
1.1.2 具身智能的發展歷程 3
1.1.3 與其他概念的區別與聯系 4
1.2 具身智能系統的核心組成 7
1.2.1 具身智能中的感知 7
1.2.2 具身智能中的規劃 8
1.2.3 具身智能中的操控 9
1.2.4 安全性與可靠性 9
1.3 具身智能產業現狀與挑戰 10
1.3.1 在新型農業領域的應用 10
1.3.2 在工業製造領域的應用 11
1.3.3 在新興服務領域的應用 12
1.3.4 技術層面與應用層面的挑戰 13
1.3.5 時代賦予的新機遇 15
第2章 具身智能基礎技術 17
2.1 三維視覺概述 17
2.1.1 三維表達方式 17
2.1.2 NeRF技術 20
2.1.3 三維高斯潑濺 25
2.2 強化學習概述 31
2.2.1 什麼是強化學習 31
2.2.2 價值學習 33
2.2.3 策略學習 43
2.2.4 模仿學習 46
2.3 大模型技術初探 49
2.3.1 大語言模型基本概念與架構 50
2.3.2 大語言模型核心訓練技術 58
2.3.3 視覺與多模態基礎模型 63
第3章 感知與環境理解 69
3.1 視覺感知 69
3.1.1 視覺傳感器及其特性 70
3.1.2 三維物體檢測與識別 71
3.1.3 三維視覺定位 78
3.1.4 物體位姿估計 86
3.1.5 物體可供性識別 95
3.2 觸覺感知 103
3.2.1 觸覺傳感器及其特性 103
3.2.2 基於觸覺的物體識別 104
3.2.3 基於觸覺的滑移檢測 105
3.3 聽覺感知 106
3.3.1 聽覺傳感器及其特性 106
3.3.2 聲音源定位技術 107
3.3.3 語音識別技術 108
3.3.4 語音分離技術 111
3.4 本體感知 113
3.4.1 本體感知傳感器及其特性 113
3.4.2 本體運動控制 114
3.4.3 本體平衡維護 115
3.4.4 本體慣性導航 117
第4章 視覺增強的導航 118
4.1 視覺導航的基礎 118
4.1.1 導航的基本概念 118
4.1.2 環境的表示方法 119
4.1.3 視覺導航的分類 122
4.1.4 挑戰與機遇 124
4.2 視覺同步定位與建圖 125
4.2.1 視覺SLAM的基本原理 125
4.2.2 端到端視覺SLAM 130
4.2.3 隱式生成視覺SLAM 132
4.2.4 動態環境中的視覺SLAM 135
4.3 基於多模態交互的導航 138
4.3.1 基於視覺―語言模型的導航 139
4.3.2 面向問答的導航 144
4.3.3 通過對話進行導航 146
4.4 面向覆雜長程任務的導航 148
4.4.1 長程任務的數據獲取與基準測試 149
4.4.2 面向長程任務的導航模型 151
第5章 視覺輔助的操控技術 155
5.1 具身操控任務概述 155
5.1.1 操控任務的基本概念156
5.1.2 模擬數據基準與評測158
5.1.3 真實場景數據集 163
5.1.4 統一標準的大規模具身數據集 168
5.2 用於具身操控的經典方案 171
5.2.1 基於自回歸模型的方案 171
5.2.2 基於擴散模型的方案 175
5.3 基於預訓練大模型的方法 180
5.3.1 視覺―語言―動作模型 181
5.3.2 多模態大模型+概率生成模型 186
5.4 基於世界模型的方法 188
5.4.1 世界模型的基本概念 189
5.4.2 基於隱式表達的方案 190
5.4.3 基於顯式表達的方案 193
第6章 視覺驅動的任務規劃 196
6.1 具身任務規劃初探 196
6.1.1 任務規劃的基本概念 197
6.1.2 基於技能庫的增量式規劃 199
6.1.3 基於交互反饋的閉環規劃 202
6.2 面向覆雜任務的規劃與糾錯 205
6.2.1 任務檢索增強與重新規劃 205
6.2.2 多任務依賴關系與優先級判定 208
6.3 基於空間智能的時空規劃 213
6.3.1 空間智能的基本概念 213
6.3.2 基於時空限制的規劃 215
第7章 多智能體交互 221
7.1 多智能體系統概述 221
7.1.1 多智能體系統的基本組件 222
7.1.2 多智能體系統的組織形式 223
7.1.3 多智能體系統任務執行 225
7.2 多智能體通信 226
7.2.1 通信的內容表示 227
7.2.2 通信的基礎範式 229
7.3 多智能體協作 231
7.3.1 基於預訓練大模型的方法 232
7.3.2 基於世界模型的方法 238
第8章 模擬平臺入門 241
8.1 Isaac Sim概述 241
8.1.1 NVIDIA Omniverse 平臺介紹 241
8.1.2 NVIDIA Isaac Sim 及其組件介紹 242
8.1.3 使用 Isaac Sim 進行機器人開發 244
8.2 Isaac Sim與Isaac Lab 的安裝指南 245
8.2.1 Isaac Sim的安裝流程 245
8.2.2 Isaac Lab 的安裝流程 247
8.2.3 資產加載失敗問題與解決方案 249
8.3 掌握CoreAPI:構建機械臂模擬環境實戰指南 250
8.3.1 開發模式選擇與介紹 250
8.3.2 使用Task類模塊化模擬 256
8.3.3 使用控制器控制機器人 260
8.3.4 使用 Standalone 模式運行模擬 262
8.4 Isaac Sim 模擬與開發進階 263
8.4.1 場景構建進階:添加相機傳感器 263
8.4.2 使用 Isaac Replicator 實現模擬數據生成 265
8.4.3 Isaac Sim與 ROS 結合進行模擬開發 270
參考文獻 275