基于 H3C UniServer R5300 G6 平台 · 覆盖标准推理与高性能推理两套方案
知识问答 · 内容生成 · 30用户标准并发
复杂推理 · 知识库 · 多业务并发扩展
企业内部知识库检索、FAQ 自动回答、日常文档撰写辅助。并发量低于 30,对话上下文中等长度(≤16K Token)。
✓ 方案一适用部门级 AI 助理,集成企业微信/钉钉,提供 API 接口供业务系统调用,日常 QPS 要求稳定,不超过 30 并发。
✓ 方案一适用多部门同时接入、长上下文对话(32K+)、含 RAG 知识检索,要求更大 KV Cache 容量,支持超长文档分析。
✓ 方案二适用启用 Thinking 模式的深度分析任务,内存占用远超普通对话;需要更充裕的系统 RAM 支撑推理过程及缓冲区。
✓ 方案二适用
计算公式:TPS = 并发数 × 平均Token数 / 目标完成时间 = 30 × 600 / 60 ≈ 300 Token/s
实际响应速度受上下文长度、是否启用 RAG、是否开启思维链模式、并发峰值压力及模型量化程度影响,建议按 1.3x 余量规划。
| 序号 | 类型 | 品类 | 产品型号 | 产品名称 | 数量 | 单价 (RMB) | 总价 (RMB) |
|---|---|---|---|---|---|---|---|
| 1_1 | 硬件 | 服务器 | R5300G6 #1 方案一:标准推理 |
H3C UniServer R5300 G6 · 2 × Intel Xeon 6530 (2.1GHz/32C/160MB/270W) · 4 × 64GB DDR5-5600 RDIMM(共 256GB) · 2 × 960GB SATA SSD + 4 × 3.84TB NVMe SSD(RAID 5 可用 11.52TB) · 2 × NVIDIA L20 48GB PCIe GPU(GPU 显存共 96GB) · 4 × 2700W 冗余电源 · P460-B4 12G SAS RAID · 2 × 25Gb SFP28 + 4 × 1Gb OCP 以太网 |
1 | ¥284,200 | ¥284,200 |
| 2_1 | 硬件 | 服务器 | R5300G6 #1 方案二:高性能 |
H3C UniServer R5300 G6 · 2 × Intel Xeon 6530 (2.1GHz/32C/160MB/270W) · 8 × 64GB DDR5-5600 RDIMM(共 512GB,较方案一翻倍) · 2 × 960GB SATA SSD + 4 × 3.84TB NVMe SSD(RAID 5 可用 11.52TB) · 4 × NVIDIA L20 48GB PCIe GPU(GPU 显存共 192GB) · 4 × 2700W 冗余电源 · P460-B4 12G SAS RAID · 2 × 25Gb SFP28 + 4 × 1Gb OCP 以太网 |
1 | ¥414,300 | ¥414,300 |
| 3_1 | 软件 | AI 平台软件 | 元智 Cube 一体化 标准版 · 4年授权 |
H3C 元智 Cube 一体化软件平台标准版授权 · AIGC 融合产品平台融合策略授权 · 支持模型管理、AI 服务调度、知识库管理 · 4年使用授权 |
1 | ¥85,800 | ¥85,800 |
| 4_1 | 授权 | 商业增强模块 | LIS-LINSEER2-HUB-ADV |
H3C 企业智能模块使用平台增强版授权 · 企业级智能推理平台高级功能授权 · 含高级 API 管理、多租户隔离、安全审计 · 多模型接入、负载均衡、监控告警 |
1 | ¥226,000 | ¥226,000 |
| 方案一(硬件 1_1)+ 软件 + 授权 合计: | ¥596,000 | ||||||
| 方案二(硬件 2_1)+ 软件 + 授权 合计: | ¥726,100 | ||||||
| 内存用途 | 方案一 (256GB) | 方案二 (512GB) |
|---|---|---|
| 系统/框架/进程 | ~20 GB | ~20 GB |
| 模型推理基础 | ~15 GB | ~15 GB |
| 知识库向量索引 | ~60 GB | ~150 GB |
| 文档/Embedding 缓存 | ~40 GB | ~80 GB |
| 请求缓冲/队列 | ~20 GB | ~40 GB |
| 日志 & 安全模块 | ~15 GB | ~20 GB |
| 所需小计 (25%安全余量) | ≈ 213 GB | ≈ 406 GB |
| 实际配置 | 256 GB ✓ | 512 GB ✓ |
30 并发用户同时占用的 KV Cache 估算(FP16精度)
| 上下文长度 | 单请求 KV | 30 并发合计 | 压力等级 |
|---|---|---|---|
| 4K Token | ≈ 256 MB | ≈ 7.5 GB | 轻松 |
| 8K Token | ≈ 512 MB | ≈ 15 GB | 轻松 |
| 16K Token | ≈ 1 GB | ≈ 30 GB | 轻松 |
| 32K Token | ≈ 2 GB | ≈ 60 GB | 适中 |
注:方案一(2×L20=96GB),FP16权重54GB,可用 KV Cache ≈ 22GB,8K上下文30并发约需15GB,余量尚可但偏紧;方案二(4×L20=192GB)FP16权重54GB,可用KV Cache ≈ 98GB,32K上下文30并发约需60GB,余量充裕。
2 × L20 FP16 全精度部署,可用 KV Cache ≈ 22 GB,支持 30 用户 ≤ 8K Token 场景(显存较紧,推荐方案二)
4 × L20 FP16 全精度部署,可用 KV Cache ≈ 98 GB,支持 30 用户 ≤ 32K Token 场景
✅ 标准知识问答,对话轮次中等(≤8K)
✅ 内部员工助理,日常办公 AI 辅助
✅ FP16 全精度部署,30 并发 ≤ 8K 场景
❌ 不适合超长上下文、复杂推理链
✅ 多部门大规模 RAG 知识库应用
✅ 思维链模式(Thinking Mode)深度推理
✅ 长上下文(16K+),FP16 全精度部署
✅ 更充裕 GPU 显存,支持更多并发