大模型時代的基礎架構：大模型算力中心建設指南

方天戟

出版商: 電子工業
出版日期: 2024-07-01
售價: $768
貴賓價: 9.5 折 $729
語言: 簡體中文
頁數: 240
ISBN: 7121481235
ISBN-13: 9787121481239
相關分類: Large language model

立即出貨

買這商品的人也買了...

~~$520~~ $468

數位航空電子系統, 5/e
$594

深入理解 AutoML 和 AutoDL：構建自動化機器學習與深度學習平臺
$327

對抗機器學習：機器學習系統中的攻擊和防禦
~~$580~~ $458

生成深度學習｜訓練機器繪畫、作曲、寫作與玩遊戲 (Generative Deep Learning)
$801

分佈式人工智能：基於 TensorFlow、RTOS 與群體智能體系
$943

基於模型的系統工程有效方法
$516

貝葉斯的博弈 : 數學、思維與人工智能
$自動化測試實戰 -- 基於 TestNG \ JUnit \ Robot Framework \ Selenium-cover$
$356

自動化測試實戰 -- 基於 TestNG \ JUnit \ Robot Framework \ Selenium
$421

AIoT 系統開發：基於機器學習和 Python 深度學習
$534

結構化壓縮感知理論及應用
~~$654~~ $621

高並發系統實戰派：集群、Redis 緩存、海量存儲、Elasticsearch、RocketMQ、微服務、持續集成等
~~$1,194~~ $1,134

無人飛行系統設計
~~$520~~ $410

TinyML 經典範例集
$796

二次雷達原理與設計
~~$954~~ $906

雷達系統分析與設計 (MATLAB版), 3/e
$417

跨數據中心機器學習：賦能多雲智能數算融合
$606

雷達目標檢測與恆虛警處理, 3/e
$464

雷達輻射式模擬信號分析與處理
$469

雷達電子戰系統模擬與評估
~~$1,320~~ $1,254

相控陣雷達技術
$469

深度學習的理論基礎與核心算法
~~$539~~ $512

Arduino 小型化與 TinyML 應用從入門到精通
~~$894~~ $849

雷達通信的頻譜共享及一體化關鍵技術與應用
$564

雷達海雜波：建模與目標檢測
$658

外輻射源雷達目標探測工程及應用

LLM 大語言模型｜2書75折詳見活動內容 »

78折
~~$690~~ $538

零基礎玩轉 LLM 應用全攻略：Python × No-Code 實作 AI 開發超簡單（iThome鐵人賽系列書）
79折
~~$790~~ $624

大型語言模型應用實戰：從 Prompt Engineering 到 Agentic RAG 與 MCP
78折
~~$500~~ $390

大模型時代：從 ChatGPT 一枝獨秀到全面開戰的 AI 賽局
79折
~~$980~~ $774

業界實戰親授 - 大型語言模型微調、最佳化、佈署一次到位
79折
~~$880~~ $695

深度學習最佳入門與專題實戰：自然語言處理、大型語言模型與強化學習篇
79折
~~$780~~ $616

AIGC 大型語言模型 - 個人應用到企業實戰立刻上手
79折
~~$790~~ $624

讓 LLM 飛起來的工具使用 - AI Agent MCP 協議開發、標準、應用
79折
~~$880~~ $695

AI Agent 手刻首選 - 使用 LangChain 親手實作 LLM 大型商業專案
79折
~~$620~~ $489

LLMOps 打造穩定運行的大型語言模型系統 (LLMOps: Managing Large Language Models in Production)
79折
~~$880~~ $695

實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式
7折
~~$650~~ $455

AI 程式設計、深度學習與 LLM 入門到精通：PyTorch × GPT × Transformer × LLaMA 實作指南（iThome鐵人賽系列書）
79折
~~$1,250~~ $987

LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)
79折
~~$760~~ $600

AI Agent 智能工作流：設計與自動化全實戰
79折
~~$880~~ $695

不再是 ChatBot - 最新 AI Agent 代理建構
79折
~~$680~~ $537

最新 AI 開發範式 - Agent 多重智慧體自動產生應用
79折
~~$680~~ $537

LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具
79折
~~$980~~ $774

LLM 語意理解與生成技術完全開發 (Hands-On Large Language Models)
79折
~~$980~~ $774

LLM × 網路爬蟲終極實戰：n8n 串接資料爬取 × Qdrant × RAG 打造本機 AI Agent
79折
~~$780~~ $616

Node.js 與 LLM 原理與實務：AI 應用程式開發
79折
~~$980~~ $774

知道你的下一筆訂單 - 使用 LLM
79折
~~$980~~ $774

更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練
79折
~~$750~~ $592

AI Agent 自動化流程超 Easy -- 不寫程式 No Code 聰明完成樣樣事
79折
~~$750~~ $592

Ollama 本地 AI 全方位攻略：命令列功能、五大主題測試、RAG、Vibe Coding、MCP，一本搞定所有實戰應用
VIP 95折
~~$588~~ $558

AI傳媒學：大模型助力傳媒行業應用與創新
7折
~~$680~~ $476

深談 AWS 雲端上的 AI Agent：系統化學習 AWS-AI 證照，協助企業管理 AI Agent

商品描述

大模型是近年來引人註目的熱點之一。大模型蓬勃發展的基礎，是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入講解，並基於TOGAF方法論，剖析業界知名案例的設計方案。全書總計13章。第1章講解AI與大模型時代對基礎架構的需求；第2章講解軟件程序與專用硬件的結合，涉及GPU並行運算庫、機器學習程序的開發框架和分佈式AI訓練；第3章剖析GPU的硬件架構，涉及GPU的總體設計、Nvidia GH100芯片架構和擁有其他Hopper架構的GPU；第4章講解GPU服務器的設計與實現；第5章講解機器學習所依托的I/O框架體系；第6章講解GPU集群的網絡設計與實現；第7章講解GPU板卡算力調度技術；第8章講解GPU虛擬化調度方案；第9章講解GPU集群的網絡虛擬化設計與實現；第10章講解GPU集群的存儲設計與實現；第11章講解如何基於雲原生技術為機器學習應用設計與實現更好的開發和運行平臺；第12章講解基於雲平臺的GPU集群的管理與運營，涉及雲運維平臺、雲運營平臺和雲審計平臺；第13章基於一個服務機器學習的GPU計算平臺落地案例，展示如何針對機器學習應用進行需求分析、設計與實現。無論是高等院校電腦與人工智能等相關專業的本科生或研究生，還是對並行計算技術、雲計算技術、高性能存儲及高性能網絡技術感興趣的研究人員或工程技術人員，都可以參考和閱讀本書。

目錄大綱

第1章 AI與大模型時代對基礎架構的需求
1.1 我們在談論AI時，到底在談論什麼
1.2 機器學習算法初窺
1.3 一元線性回歸算法剖析
1.4 機器學習算法對電腦硬件的特殊需求
1.4.1 機器學習算法的核心運算特徵
1.4.2 使用CPU實現機器學習算法和並行加速
1.4.3 機器學習算法的主力引擎——GPU
1.4.4 機器學習算法的新引擎——TPU和NPU
1.5 本章小結

第2章軟件程序與專用硬件的結合
2.1 GPU並行運算庫
2.2 機器學習程序的開發框架
2.3 分佈式AI訓練
2.4 本章小結

第3章 GPU硬件架構剖析
3.1 GPU的總體設計
3.2 Nvidia GH100芯片架構剖析
3.3 其他Hopper架構的GPU
3.4 本章小結

第4章 GPU服務器的設計與實現
4.1 初識Nvidia DGX
4.2 Nvidia DGX A100的總體設計
4.3 Nvidia DGX A100 CPU與內存子系統的設計
4.4 Nvidia DGX A100 PCI-E子系統的設計
4.5 Nvidia DGX A100 NVLink子系統的設計
4.6 其他輔助子系統的設計
4.7 本章小結

第5章機器學習所依托的I/O框架體系
5.1 Magnum IO的需求來源
5.2 Magnum IO的核心組件
5.3 服務器內部的GPU互通
5.4 跨服務器節點的GPU通信
5.5 RDMA的兩種實現
5.6 GPU對存儲的訪問
5.7 Magnum IO所依賴的其他支撐技術
5.7.1 DPDK（ Data Plane Development Kit，數據平面開發套件）
5.7.2 DPU（Data Processing Unit，數據處理器）
5.7.3 MPI Tag Matching
5.8 本章小結

第6章 GPU集群的網絡設計與實現
6.1 GPU集群中RoCE計算網絡的設計與實現
6.2 GPU集群中存儲與業務網絡的設計與實現
6.3 GPU集群中帶外管理監控網絡的設計與實現
6.4 GPU集群中網絡邊界的設計與實現
6.5 本章小結

第7章 GPU板卡級算力調度技術
7.1 基於虛擬化技術的GPU調度
7.2 基於容器技術的GPU調度
7.3 本章小結

第8章 GPU虛擬化調度方案
8.1 Nvidia的GPU虛擬化調度方案
8.1.1 API Remoting與vCUDA
8.1.2 GRID vGPU
8.1.3 Nvidia MIG
8.2 其他硬件廠商的GPU虛擬化調度方案
8.2.1 AMD的SRIOV方案
8.2.2 Intel的GVT-G方案
8.3 雲廠商與開源社區基於容器的GPU虛擬化調度方案
8.3.1 TKE vCUDA+GPU Manager
8.3.2 阿裡雲的cGPU
8.3.3 騰訊雲的qGPU
8.4 本章小結

第9章 GPU集群的網絡虛擬化設計與實現
9.1 基於SDN的VPC技術：網絡虛擬化技術的基石
9.2 雲負載均衡：機器學習網絡的中流砥柱
9.3 專線接入、對等連接與VPC網關
9.4 SDN NFV網關的實現與部署
9.4.1 基於virtio-net/vhost的虛擬機部署NFV
9.4.2 基於SRIOV的虛擬機部署NFV
9.4.3 使用DPDK技術對NFV加速
9.5 本章小結

第10章 GPU集群的存儲設計與實現
10.1 程序與系統存儲——分佈式塊存儲
10.1.1 塊存儲的業務需求
10.1.2 集中式塊存儲與分佈式塊存儲
10.1.3 分佈式塊存儲的故障恢復
10.1.4 分佈式塊存儲的性能優化
10.1.5 分佈式塊存儲的快照與回滾
10.2 海量非結構化數據存儲——分佈式對象存儲
10.2.1 入門級對象存儲的首選：Ceph
10.2.2 開源海量對象存儲：Swift
10.2.3 商業化對象存儲：大型公有雲對象存儲私有化
10.2.4 未來之星：Minio
10.3 AI訓練素材存儲——分佈式並發高性能存儲
10.3.1 開源大數據存儲鼻祖：HDFS
10.3.2 業界對HDFS的改進
10.3.3 長青松柏：Lustre
10.4 本章小結

第11章機器學習應用開發與運行平臺的設計與實現
11.1 微服務平臺
11.1.1 Kubernetes：微服務基礎能力平臺
11.1.2 Spring Cloud：Java系專屬微服務平臺
11.1.3 Istio：不挑開發語言，只挑部署架構
11.1.4 商業化微服務平臺：兼顧各類需求的選擇
11.2 中間件服務
11.2.1 消息中間件
11.2.2 緩存中間件
11.2.3 數據庫（數據中間件）
11.3 應用日誌服務
11.4 本章小結

第12章基於雲平臺的GPU集群的管理與運營
12.1 雲運維平臺
12.1.1 硬件基礎設施管理
12.1.2 系統監控與告警平臺
12.1.3 CMDB
12.2 雲運營平臺
12.3 雲審計平臺
12.4 本章小結

第13章服務機器學習的GPU計算平臺落地案例
13.1 需求來源：自動駕駛模型訓練
13.2 總體設計——基於雲原生的高性能計算
13.3 計算需求分析與設計實現
13.4 存儲需求分析與設計實現
13.5 網絡需求分析與設計實現
13.6 本章小結
後記