計算機組成與設計:硬件/軟件接口(原書第5版‧RISC-V版) Computer Organization and Design RISC-V Edition: The Hardware Software Interface

David A. Patterson, John L. Hennessy 譯 易江芳;劉先華

買這商品的人也買了...

商品描述

本書由2017年圖靈獎得主Patterson和Hennessy共同撰寫,
是計算機體系結構領域的經典書籍,強調軟硬件協同設計及其對性能的影響。
本書採用開源的RISC-V指令系統體系結構, 講解硬件技術、
匯編語言、算術運算、流水線、存儲層次、I/O以及並行處理器。
新內容涵蓋平板電腦、雲基礎設施、ARM(移動計算設備)
以及x86(雲計算)體系結構,新實例包括Intel Core i7、ARM Cortex-A53以及NVIDIA Fermi GPU。
本書適合計算機體系結構領域的專業技術人員參考,也適合高等院校計算機相關專業的學生閱讀。

目錄大綱

出版者的話
讚譽
譯者序
前言
作者簡介
第1章 計算機抽象及相關技術 1
1.1 引言 1
1.1.1 傳統的計算應用分類及其特點 2
1.1.2 歡迎來到後PC時代 3
1.1.3 你能從本書中學到什麼 4
1.2 計算機體系結構中的8個偉大思想 6
1.2.1 面向摩爾定律的設計 6
1.2.2 使用抽象簡化設計 7
1.2.3 加速經常性事件 7
1.2.4 通過並行提高性能 7
1.2.5 通過流水線提高性能 7
1.2.6 通過預測提高性能 7
1.2.7 存儲層次 7
1.2.8 通過冗餘提高可靠性 7
1.3 程序表像之下 8
1.4 箱蓋後的硬件 10
1.4.1 顯示器 11
1.4.2 觸摸屏 12
1.4.3 打開機箱 13
1.4.4 數據安全 16
1.4.5 與其他計算機通信 16
1.5 處理器和存儲製造技術 17
1.6 性能 20
1.6.1 性能的定義 21
1.6.2 性能的度量 23
1.6.3 CPU性能及其度量因素 24
1.6.4 指令性能 25
1.6.5 經典的CPU性能公式 26
1.7 功耗牆 28
1.8 滄海巨變:從單處理器向多處理器轉變 30
1.9 實例:評測Intel Core i7 32
1.9.1 SPEC CPU基準評測程序 33
1.9.2 SPEC功耗基準評測程序 34
1.10 謬誤與陷阱 35
1.11 本章小結 37
1.12 歷史視角和拓展閱讀 38
1.13 練習 38
第2章 指令:計算機的語言 43
2.1 引言 43
2.2 計算機硬件的操作 45
2.3 計算機硬件的操作數 47
2.3.1 存儲器操作數 48
2.3.2 常數或立即數操作數 51
2.4 有符號數與無符號數 52
2.5 計算機中的指令表示 57
2.6 邏輯操作 62
2.7 用於決策的指令 65
2.7.1 循環 66
2.7.2 邊界檢查的簡便方法 67
2.7.3 case/switch語句 68
2.8 計算機硬件對過程的支持 68
2.8.1 使用更多的寄存器 69
2.8.2 嵌套過程 71
2.8.3 在棧中為新數據分配空間 73
2.8.4 在堆中為新數據分配空間 74
2.9 人機交互 76
2.10 對大立即數的RISC-V編址和尋址 79
2.10.1 大立即數 79
2.10.2 分支中的尋址 80
2.10.3 RISC-V尋址模式總結 82
2.10.4 機器語言譯碼 83
2.11  指令與並行性:同步 85
2.12 翻譯並啟動程序 87
2.12.1 編譯器 87
2.12.2 彙編器 87
2.12.3 鏈接器 89
2.12.4 加載器 91
2.12.5 動態鏈接庫 91
2.12.6 啟動Java程序 93
2.13 以C排序程序為例的匯總整理 94
2.13.1 swap過程 94
2.13.2 sort過程 95
2.14 數組與指針 100
2.14.1 用數組實現clear 100
2.14.2 用指針實現clear 101
2.14.3 比較兩個版本的clear 102
2.15 高級專題:編譯C語言和解釋Java語言 102
2.16 實例:MIPS指令 103
2.17 實例:x86指令 104
2.17.1 Intel x86的演變 104
2.17.2 x86寄存器和尋址模式 106
2.17.3 x86整數操作 107
2.17.4 x86指令編碼 109
2.17.5 x86總結 110
2.18 實例:RISC-V指令系統的剩餘部分 111
2.19 謬誤與陷阱 112
2.20 本章小結 113
2.21 歷史視角和擴展閱讀 115
2.22 練習 115
第3章 計算機的算術運算 121
3.1 引言 121
3.2 加法和減法 121
3.3 乘法 124
3.3.1 串行版的乘法算法及其硬件實現 124
3.3.2 帶符號乘法 127
3.3.3 快速乘法 127
3.3.4 RISC-V中的乘法 127
3.3.5 總結 128
3.4 除法 128
3.4.1 除法算法及其硬件實現 128
3.4.2 有符號除法 131
3.4.3 快速除法 131
3.4.4 RISC-V中的除法 132
3.4.5 總結 132
3.5 浮點運算 133
3.5.1 浮點表示 134
3.5.2 例外和中斷 135
3.5.3 IEEE 754浮點數標準 135
3.5.4 浮點加法 138
3.5.5 浮點乘法 141
3.5.6 RISC-V中的浮點指令 144
3.5.7 精確算術 148
3.5.8 總結 150
3.6 並行性與計算機算術:子字並行 151
3.7 實例:x86中的SIMD擴展和高級向量擴展 151
3.8 加速:子字並行和矩陣乘法 153
3.9 謬誤與陷阱 155
3.10 本章小結 158
3.11 歷史視角和拓展閱讀 159
3.12 練習 159
第4章 處理器 163
4.1 引言 163
4.1.1 一種基本的RISC-V實現 164
4.1.2 實現概述 164
4.2 邏輯設計的一般方法 166
4.3 建立數據通路 169
4.4 一個簡單的實現方案 175
4.4.1 ALU控制 175
4.4.2 設計主控制單元 176
4.4.3 數據通路操作 180
4.4.4 控制的結束 182
4.4.5 為什麼現在不使用單週期實現 182
4.5 流水線概述 183
4.5.1 面向流水線的指令系統設計 187
4.5.2 流水線冒險 187
4.5.3 總結 193
4.6 流水線數據通路和控制 194
4.6.1 流水線的圖形化表示 203
4.6.2 流水線控制 205
4.7 數據冒險:前遞與停頓 208
4.8 控制冒險 218
4.8.1 假設分支不發生 218
4.8.2 縮短分支延遲 219
4.8.3 動態分支預測 221
4.8.4 流水線總結 223
4.9 例外 223
4.9.1 RISC-V體系結構中如何處理例外 224
4.9.2 流水線實現中的例外 225
4.10 指令間的並行性 228
4.10.1 推測的概念 229
4.10.2 靜態多發射 230
4.10.3 動態多發射處理器 234
4.10.4 高級流水線和能效 237
4.11 實例:ARM Cortex-A53和Intel Core i7流水線結構 238
4.11.1 ARM Cortex-A53 238
4.11.2 Intel Core i7 920 240
4.11.3 Intel Core i7處理器的性能 242
4.12 加速:指令級並行和矩陣乘法 243
4.13 高級專題:數字設計概述――使用硬件設計語言進行流水線建模以及更多流水線示例 246
4.14 謬誤與陷阱 246
4.15 本章小結 247
4.16 歷史視角和拓展閱讀 247
4.17 練習 247
第5章 大而快:層次化存儲 258
5.1 引言 258
5.2 存儲技術 262
5.2.1 SRAM存儲技術 262
5.2.2 DRAM存儲技術 262
5.2.3 閃存 264
5.2.4 磁盤 264
5.3 cache基礎 266
5.3.1 cache訪問 268
5.3.2 處理cache失效 272
5.3.3 處理寫操作 273
5.3.4 cache實例:Intrinsity FastMATH處理器 275
5.3.5 總結 276
5.4 cache的性能評估和改進 277
5.4.1 使用更為靈活的替換策略降低cache失效率 279
5.4.2 在cache中查找數據塊 283
5.4.3 選擇替換的數據塊 284
5.4.4 使用多級cache減少失效代價 285
5.4.5 通過分塊進行軟件優化 287
5.4.6 總結 291
5.5 可靠的存儲器層次 291
5.5.1 失效的定義 291
5.5.2 糾正1位錯、檢測2位錯的漢明編碼 293
5.6 虛擬機 296
5.6.1 虛擬機監視器的必備條件 297
5.6.2 指令系統體系結構(缺乏)對虛擬機的支持 297
5.6.3 保護和指令系統體系結構 298
5.7 虛擬存儲 298
5.7.1 頁的存放和查找 301
5.7.2 缺頁失效 303
5.7.3 支持大虛擬地址空間的虛擬存儲 304
5.7.4 關於寫 305
5.7.5 加快地址轉換:TLB 306
5.7.6 Intrinsity FastMATH TLB 307
5.7.7 集成虛擬存儲、TLB和cache 309
5.7.8 虛擬存儲中的保護 311
5.7.9 處理TLB失效和缺頁失效 312
5.7.10 總結 314
5.8 存儲層次結構的一般框架 315
5.8.1 問題一:塊可以被放在何處 315
5.8.2 問題二:如何找到塊 316
5.8.3 問題三:當cache發生失效時替換哪一塊 317
5.8.4 問題四:寫操作如何處理 317
5.8.5 3C:一種理解存儲層次結構的直觀模型 318
5.9 使用有限狀態自動機控制簡單的cache 320
5.9.1 一個簡單的cache 320
5.9.2 有限狀態自動機 321
5.9.3 使用有限狀態自動機作為簡單的cache控制器 322
5.10 並行和存儲層次結構:cache一致性 324
5.10.1 實現一致性的基本方案 325
5.10.2 監聽協議 325
5.11 並行與存儲層次結構:廉價磁盤冗餘陣列 327
5.12 高級專題:實現緩存控制器 327
5.13 實例:ARM Cortex-A53和Intel Core i7的存儲層次結構 327
5.14 實例:RISC-V系統的其他部分和特殊指令 331
5.15 加速:cache分塊和矩陣乘法 331
5.16 謬誤與陷阱 333
5.17 本章小結 336
5.18 歷史視角和拓展閱讀 337
5.19 練習 337
第6章 並行處理器:從客戶端到雲 348
6.1 引言 348
6.2 創建並行處理程序的難點 350
6.3 SISD、MIMD、SIMD、SPMD和向量機 354
6.3.1 x86中的SIMD:多媒體擴展 355
6.3.2 向量機 355
6.3.3 向量與標量 356
6.3.4 向量與多媒體擴展 357
6.4 硬件多線程 359
6.5 多核及其他共享內存多處理器 362
6.6 GPU簡介 365
6.6.1 NVIDIA GPU體系結構簡介 366
6.6.2 NVIDIA GPU存儲結構 367
6.6.3 對GPU的展望 368
6.7 集群、倉儲級計算機和其他消息傳遞多處理器 370
6.8 多處理器網絡拓撲簡介 374
6.9 與外界通信:集群網絡 376
6.10 多處理器測試基準和性能模型 377
6.10.1 性能模型 379
6.10.2 Roofline模型 380
6.10.3 兩代Opteron的比較 381
6.11 實例:評測Intel Core i7 960 和NVIDIA Tesla GPU的Roofline模型 384
6.12 加速:多處理器和矩陣乘法 388
6.13 謬誤與陷阱 390
6.14 本章小結 391
6.15 歷史視角和拓展閱讀 393
6.16 練習 394
附錄A 邏輯設計基礎 402
術語表 460
網絡內容
附錄B 圖形處理單元
附錄C 將控制映射至硬件
附錄D 精簡指令系統體系結構計算機
擴展閱讀