AI大模型服务器规划方案
- 项目概述
1.1项目背景
随着AI大模型技术的快速发展和企业智能化转型的加速,公司现有服务器在支撑大模型训练与推理方面已显不足。为确保未来2–3年AI业务的稳定发展与技术竞争力,亟需对现有服务器资源进行科学评估与规划,提出可落地的升级与采购方案。
1.2项目目标
- 提升AI大模型训练与推理能力,支持更大参数规模的模型部署。
- 确保系统在高并发、长时间运行下的稳定性与数据准确性。
- 兼顾成本与性能,提供分阶段、可扩展的解决方案。
- 建立符合企业级标准的AI基础设施,支撑未来业务扩展。
- 现状分析
现有服务器资源概况
| 公司服务器资源 | ||||||||||
| 服务用途 | CPU(核) | 内存(GB) | 磁盘(TB) | IP地址 | ||||||
| 容量 | 已使用 | 使用率 | 容量 | 已使用 | 使用率 | 容量 | 已使用 | 使用率 | ||
| 生产环境(主) | 46.7 | 6.6 | 14.2% | 128 | 112.8 | 88.1% | 30.0 | 9.9 | 33.0% | 192.168.211.181 |
| 测试服务器 | 26.3 | 8.5 | 32.2% | 96 | 85.9 | 89.5% | 7.6 | 3.8 | 50.6% | 192.168.211.191 |
| 生产环境(备) | 16.8 | 7.5 | 44.9% | 256 | 194.5 | 76.0% | 56.4 | 43.9 | 77.8% | 192.168.211.195 |
| 图形跑模 | 12.0 | 1.8 | 14.8% | 64 | 21.5 | 33.6% | 30.0 | 26.9 | 89.5% | 192.168.211.200 |
由以上服务器资源使用情况可知:181服务器、191服务器、195服务器此三台服务器CPU余量较充足,磁盘可用容量尚可,但内存余量紧张,三台服务器总内存480GB,已使用393.2GB,剩余可用内存86.8GB,三台服务器内存可用量分别为:15.2GB、10.1GB、61.5GB。
其他考虑,考虑此三台服务器的功耗、插槽规格、散热以及服务器固件与显卡版本的兼容性,对业务的影响,不适合扩展安装GPU显卡。
- AI大模型测试与性能评估
3.1测试时间
2025.12.24 9:00~9:15
3.2测试人员
公司全体员工
3.3测试对象
部署在200服务器上的AI智能问答模型http://192.168.211.200/chat/ZUOd0J8gPZ6vSZ13
3.4测试数据分析
(测试详情见下表“AI智能问答-在线测试”)
根据测试情况看,服务器硬件资源分析如下
- CPU使用情况分析:CPU使用率基本在10%-20%之间,峰值36.7%(9:12:44),整体CPU负载不高,说明系统CPU瓶颈不明显。
- 内存使用情况分析:内存使用率稳定在33%-35%之间(约21-22GB),内存资源充足。
- GPU使用情况分析:GPU计算核心使用率,波动极大,从3%到100%,多个时间段达到90%以上,频繁出现低使用率(3%-29%)的波谷;显存使用率,相对稳定在61.4%-72.1%,表明模型已加载到显存中。
3.5测试结论
(1)当前服务器CPU、内存硬件资源满足测试要求;
(2)服务器GPU使用率频繁达到100%,计算能力不足,8GB显存使用率72.1%接近上限,限制更大模型的部署。
| AI智能问答-在线测试 | |||||
| 测试对象 | http://192.168.101.200/chat/ZUOd0J8gPZ6vSZ13 | 测试时间 | 2025.12.24 9:00~9:15 | ||
| 服务器参数 | CPU | Intel i7-12700KF 12核20线程 | 磁盘 | 1TB SSD+29TB | |
| 内存 | 64GB DDR4(4*16GB,3200MHZ) | 网卡 | 千兆以太网 | ||
| GPU | NVIDIA RTX 3070 Ti 8GB (256位宽) | 系统 | windows 11专业版 | ||
| 时间戳 | CPU使用率 | 内存使用率 | GPU使用率 | 并发用户数(个) | |
| 计算核心 | 显存 | ||||
| 9:00:02 | 11.5 | 33.9 | 29 | 61.4 |
|
| 9:00:32 | 11.6 | 32.9 | 3 | 8.6 |
|
| 9:01:14 | 14.5 | 34.6 | 95 | 72.1 |
|
| 9:01:30 | 11.9 | 34.6 | 92 | 72.1 |
|
| 9:02:00 | 14.7 | 34.6 | 100 | 72.1 |
|
| 9:02:30 | 13.9 | 34.5 | 93 | 72.1 |
|
| 9:03:00 | 18.1 | 34 | 13 | 45.2 |
|
| 9:03:30 | 12.3 | 34.6 | 94 | 72.1 |
|
| 9:04:01 | 12.2 | 34.6 | 93 | 72.1 |
|
| 9:04:25 | 12.8 | 34.6 | 93 | 72.1 |
|
| 9:06:30 | 11.2 | 34.6 | 92 | 72.1 |
|
| 9:07:39 | 12.9 | 34 | 51 | 69.7 |
|
| 9:08:01 | 13.7 | 33.6 | 11 | 61.4 |
|
| 9:08:28 | 14.1 | 34.1 | 88 | 69.8 |
|
| 9:09:38 | 13.3 | 34.7 | 98 | 71.7 |
|
| 9:10:01 | 10.8 | 34.8 | 93 | 72.1 |
|
| 9:11:52 | 21.8 | 34.1 | 3 | 52.2 |
|
| 9:12:07 | 6.9 | 34.2 | 3 | 69.8 |
|
| 9:12:22 | 9.9 | 35 | 6 | 10.9 |
|
| 9:12:44 | 36.7 | 33.1 | 3 | 52.2 |
|
| 9:13:02 | 12.3 | 34.6 | 86 | 72.1 |
|
| 9:13:13 | 13.5 | 34.2 | 29 | 61.4 |
|
| 9:13:45 | 10.2 | 34.1 | 92 | 69.8 |
|
| 9:13:58 | 10.2 | 34.8 | 100 | 72.1 |
|
| 9:14:09 | 12.2 | 33.8 | 3 | 10.9 |
|
| 9:14:17 | 9.9 | 34.7 | 99 | 72.1 |
|
| 9:14:43 | 10.5 | 34.8 | 92 | 72.1 |
|
| 9:15:02 | 6.1 | 34.2 | 3 | 69.8 |
|
| 9:15:22 | 14.3 | 33.8 | 35 | 52.1 |
|
| 9:15:26 | 14.7 | 34.2 | 93 | 69.7 |
|
四.规划实施方案
4-1.方案分类
根据公司当前情况,提供两个方案:
方案一:“公司内部开发测试用13B~34B参数轻量级AI模型”
实现方式:采购替换显卡为NVIDIA 4090 24GB,电源替换为1000W以上ATX 3.0规范金牌电源,优化散热
方案二:“匹配未来市场70B以上参数级别轻中量级AI模型”
实现方式:采购全新AI服务器整机,主要配置:NVIDIA A100 80GB PCle、Intel Xeon Silver 4316(同级别)、256GB+DDR5 ECC内存、企业级NVMe与RAID存储
4-2.核心配件GPU参数与性能对比
| 显卡参数对比 | ||||
| 参数规格 | NVIDIA GeForce RTX 4090 24GB (涡轮版) | NVIDIA A100 80GB (PCIe) | 说明 | |
| 核心规格 | 核心工艺 | TSMC 4N (4nm) | TSMC 7N (7nm) | 核心用途不同:4090核心专为图形和32位计算优化;A100核心包含大量专用Tensor Core和FP64双精度核心,为科学计算和AI优化 |
| CUDA核心数 | 16384个 | 6912 个 (FP64: 3456个) | ||
| 核心频率 | 2520MHz(峰值) | 1410GHz(峰值) | ||
| 显存系统 | 容量 | 24 GB | 80 GB | 80GB容量可以轻松加载一个完整的70B(700亿)参数模型,支持高并发任务、超长文本处理 |
| 位宽 | 384-bit | 5120-bit (通过HBM堆叠) | HBM的极致位宽带来了巨大带宽优势。 | |
| 带宽 | 约1.0 TB/s | 2.0 TB/s | A100带宽是4090的2倍,对于需要频繁读写显存的大模型推理和训练,这是决定性性能因素。 | |
| 类型 | GDDR6X (无ECC) | HBM2e (带ECC) | 最核心差异。HBM2e拥有远超GDDR6X的带宽和能效,是A100处理超大规模模型和数据集的根本。A100的ECC能纠正数据错误,确保7x24小时计算绝对准确;4090无此功能,长时间运行可能产生静默错误。 | |
| 功耗 | 450W | 300W |
| |
| 电源接口 | 8-pin*3 | 标准PCIe 8-pin接口 |
| |
| 推荐电源 | 850W | 不低于1100W |
| |
| 尺寸 | 267mm*111mm*38mm | 267mm*111.15mm (全高) |
| |
| 最 大分辨率 | 7680*4320 | 无 |
| |
| 输出 | DP*3 /HDMI*1 | 无 |
| |
| 总线接口 | PCI Express 4.0 x16 | PCI Express 4.0 x16 |
| |
| 显卡性能对比 | ||||
| 类别 | NVIDIA GeForce RTX 4090 24GB | NVIDIA A100 80GB (PCIe) | ||
| 可靠性设计 | 为间歇性高负载(如游戏、渲染)设计,元器件寿命和散热目标非7x24小时满负载 | 为7x24小时不间断满负载运行设计,所有元件(电容、电感、散热)均采用更高工业标准 | ||
| 数据准确性 | 无ECC显存。显存位翻转会产生静默错误,导致AI推理出现不可预测的乱码或错误答案 | 全系标配ECC显存。自动检测并纠正显存错误,确保计算过程和数据输出的绝对准确 | ||
| 企业级支持 | NVIDIA不提供数据中心级别的驱动支持或技术服务。遇到问题需自行解决或依赖社区 | 提供数据中心驱动和企业级技术响应(通过服务器厂商)。出现兼容性、性能问题时,有明确的支持路径 | ||
| 虚拟化与 | 在GPU虚拟化(vGPU)和容器化部署的支持上非常有限或不稳定 | 对NVIDIA vGPU, MIG(多实例GPU) 等技术有完善支持,方便实现资源隔离、多模型部署 | ||
| 采购与合规 | 作为消费电子产品,通常无法纳入政企采购目录,难以提供符合审计要求的供货证明、维保协议和资产化管理 | 作为企业级固定资产,可通过服务器厂商提供完整的合规采购流程、发票、原厂维保合同 | ||
4-3.现有服务器上升级的可行性
实施操作:更换200服务器的显卡为NVIDIA 4090 24GB,电源为1000W以上ATX 3.0规范金牌电源(带原生12VHPWR(16-pin)接口)。
升级后预期效果:可测试模型大小由7B参数模型变为可轻松运行13B~34B模型,推理速度极大加快,可支持更长的对话历史和文档检索,可小规模并发压力测试,可验证接近生产环境的模型效果。
风险隐患:数据静默错误,NVIDIA RTX 4090 24GB显卡不支持ECC纠错,长时间AI推理中,显存或内存的位翻转可能产生无法察觉的错误结果;可扩展性,主板限制,无法加装第2块显卡。其他机箱散热与电源供电方面对稳定性的影响。
| 200服务器现状 | |||||||
| 服务器主机 | 品牌型号 | 主板硬件规格 | 当前硬件配置 | 剩余可扩展配置 | 管理IP | ||
| 图形跑模 | 主板: 微星PRO Z690-P DDR4 |
| CPU:Intel i7-12700KF 12核20线程 GPU:NVIDIA RTX 3070 Ti 8GB | CPU:无插槽 GPU:无插槽 | 192.168.101.200 | ||
| GPU显卡替换选型 | |||||||
| 类型 | 品牌型号 | 规格参数 | 安装位置 | 购买链接 | 数量(条) | 价格 (元) | |
| 显卡 | NVIDIA GeForce RTX 4090 24GB (涡轮版) | 核心数:16384个 | PCI_E1:PCLe 5.0*16插槽 | 1 | 21499 | ||
| 核心频率:2520MHz | |||||||
| 显存容量:24GB | |||||||
| 显存位宽:384-bit | |||||||
| 电源接口:8-pin*3 | |||||||
| 推荐电源:850W | |||||||
| 尺寸:267mm*111mm*38mm | |||||||
|
电源 | 华硕 (ASUS) ROG-STRIX-1000P AURA | 额定功率:1000W | 机箱 |
1 |
1496 | ||
| 接口:1个12VHPWR 16pin+4个 8(6+2)PCI-E接口 | |||||||
| 尺寸:长160mm 宽150mm 高86mm | |||||||
| INTEL规范:ATX3.1 | |||||||
4-4.购买全新AI服务器整机
服务器配置:整机,主要配置NVIDIA A100 80GB PCle、Intel Xeon Silver 4316(同级别)、256GB+DDR5 ECC内存、企业级NVMe。
预期效果:可无损、全精度(FP16/BF16) 运行当前及未来几年主流的 70B参数模型;可稳定支撑 50-150路 的实时对话并发;响应速度在单路请求下可达到亚秒级至数秒级;得益于品牌服务器的ECC内存、冗余电源、企业级硬盘和严格散热设计,可保障 7x24小时 持续稳定运行。
可扩展性:纵向扩展,可在服务器的另一个空闲GPU插槽中安装第二张A100 80GB,算力翻倍,可处理更高并发。通过NVLink桥接,可尝试将两张卡显存池化,以研究模式运行140B+级别的超大规模模型。存储与内存扩展,增加内存至512GB或1TB,增加NVMe SSD,更大内存可支持更复杂的多模型驻留或向量数据库,组成RAID以提升I/O性能,增加大容量硬盘扩展知识库存储,更快存储能加速模型加载和知识检索,减少响应延迟。
| AI大模型服务器整机选型 | |||||
| 类型 | 品牌型号 | 规格参数 | 数量(个) | 价格(元) | |
| 服务器整机 | 浪 浪潮NF5280M6机架式2U服务器 | CPU:Intel Xeon Silver 4316 | 2 | 45万左右(含税) | |
| 内存: 32GB DDR4 3200 RDIMM ECC | 8 | ||||
| 显卡:NVIDIA A100 80GB PCIe | 2 | ||||
| 系统存储:960GB SATA固态 | 2 | ||||
| 模型存储:1.92TB SSD NVMe | 1 | ||||
| 数据存储:4T SATA 机械硬盘 | 2 | ||||
| 阵列卡:PM8204 4G缓存PCIE | 1 | ||||
| 网卡:四口千兆电口网卡PCIE | 1 | ||||
| 电源:1300W | 2 | ||||
| 质保期:3年 |
| ||||
| D Dell PowerEdge R7500机架式2U服务器 | 处理器:英特尔 至强 4316 2.3GHZ 20C/40T | 1 | 21万左右(含税) | ||
| 内存:32GB DDR4 3200 RDIMM ECC | 8 | ||||
| 显卡:NVIDIA A100 80GB PCIe | 1 | ||||
| 数据储存:4T SATA 7.2K 3.5寸企业级 | 2 | ||||
| 系统储存:960G 英特尔SATA 2.5寸SSD硬盘 | 2 | ||||
| 模型存储:1.92TB NVME固态硬盘 | 1 | ||||
| 阵列卡:H755 8G缓存阵列卡 | 1 | ||||
| 网卡:2个千兆电口 | 1 | ||||
| 电源:热插拔电源 1400W | 2 | ||||
| 服务:三年硬件质保服务 |
| ||||
| 浪潮NF5280M6机架式2U服务器 器 | CPU:Intel Xeon Silver 4316 | 2 | 26万左右(含税) | ||
| 内存:64GB DDR4 3200 RDIMM ECC | 4 | ||||
| 显卡:NVIDIA A100 80GB PCIe | 1 | ||||
| 系统存储:960GB SATA SSD | 2 | ||||
| 模型存储:1.92TB SSD NVMe | 1 | ||||
| 数据存储:4T SATA HDD | 2 | ||||
| 阵列卡:PM8204 4G缓存PCIE | 1 | ||||
| 网卡:四口千兆电口网卡PCIE | 1 | ||||
| 电源:1300W | 2 | ||||
| 质保期:3年 |
| ||||
|
数聚红芯H6320 机架式2U服务器 | CPU:Intel Xeon Silver 4316 | 2 |
20万左右(含税) | ||
| 内存:32GB DDR4 3200 RDIMM ECC | 8 | ||||
| 显卡:联科Linkupai A100 80GB PCIe定制卡 | 2 | ||||
| 系统存储:960GB SATA固态 | 2 | ||||
| 模型存储:1.92TB SSD NVMe | 1 | ||||
| 数据存储:4T SATA 机械硬盘 | 2 | ||||
| 网卡:双口千兆电口网卡OCP | 1 | ||||
| 电源:1500W | 1 | ||||
| 质保期:4年 |
| ||||
| 组装机架式4U服务器 | CPU:AMD epyc 7543,32核(64线程)/ 2.8~3.7Ghz/7nm/SP3插槽 | 1 | ¥5,400.00 |
| SP3 塔式铜管散热器 | 1 | ¥260.00 | |
| 技嘉MZ72-HB双路主板(参数如下): | 1 | ¥4,750.00 | |
| CPU支持:双路EPYC 7002/7003系列 | |||
| 内存:三星32GB/DDR4 ECC/3200MHz/1.2V | 4 | ¥2,100.00 | |
| 英伟达Tesla A100 80G(定制版): | 1 | ¥57,000.00 | |
| 固态存储:三星990Pro 2T m2 2280,NVMe SSD/M.2 PCIe 4.0 *4 | 1 | ¥1,978.00 | |
| 数据储存:希捷16T企业盘,转速7200 RPM、256MB缓存、SATA 6Gb/s | 1 | ¥3,900.00 | |
| 电源:长城 1600W,3200W(冗余)可支持未来增加2~3张A100 | 2 | ¥- | |
| 空间充足、散热好、支持扩展卡多 | 1 | ¥- | |
| 风扇:尺寸120mm | 4 | ¥- | |
| 合计8.4万元 | |||











