- N +

DeepSeek爆火,一体机狂飙:谁在裸泳?

AI推理一体机:虚火还是真刚需?

最近,AI圈子被一种叫做“推理一体机”的玩意儿炒得火热,特别是和DeepSeek扯上关系之后,更是成了香饽饽。听说有老板抱怨“一亿元的需求都没满足”,又有云服务厂商电话被打爆,全是咨询DeepSeek一体机的。 机器人展位被挤掉,取而代之的是各家厂商摆出的DeepSeek一体机,颇有些“全民炼钢”的味道。二级市场更是夸张,“一体机概念股”一飞冲天,仿佛买了这些股票,就能坐等AI红利落入口袋。

但作为一名浸淫科技圈多年的老兵,我总觉得这股热潮背后,有些东西需要冷静下来仔细琢磨。DeepSeek一体机真的有那么神吗?它真的是解决中国AI算力困境的灵丹妙药吗?还是说,这又是一场由资本、政策和“国产替代”共同导演的狂欢?

我不是来泼冷水的,只是觉得在追逐风口的时候,我们更应该保持清醒的头脑。别被那些“高歌猛进”、“颠覆创新”的口号冲昏头脑,也别被那些“概念股暴涨”、“千亿市场”的数字迷花了眼。毕竟,科技的本质是解决问题,而不是制造焦虑。

DeepSeek引爆一体机市场?别被表象迷惑!

狂热背后的真相:一场由开源、政策与资本共同导演的戏码

DeepSeek火了,这毋庸置疑。它的MoE架构确实降低了对算力的需求,加上开源策略,让不少企业看到了“低成本拥有大模型”的希望。政府也跟着摇旗呐喊,什么“AI公务员上岗”,什么“政务系统全面启用”,恨不得一夜之间把所有部门都塞满AI。国资委更是直接下场,要求央企加速“AI+”转型,这下好了,本地部署成了“政治任务”,一体机自然成了“刚需”。

资本市场当然也不会放过这个机会。“DeepSeek概念股”一路高歌,仿佛只要沾上DeepSeek,就能鸡犬升天。一些企业为了股价,为了估值,也开始盲目跟风,采购一体机,搞得好像不用DeepSeek,就要被时代抛弃一样。

一体机并非万能灵药:它只是个‘AI工具箱’,并非‘点金石’

说白了,一体机就是个“AI工具箱”,把CPU、GPU、存储、操作系统、AI平台软件等等打包在一起,让你不用自己吭哧吭哧地组装,开箱即用。这玩意儿确实方便,对于那些对数据安全有要求的政府、银行、医院来说,也确实有吸引力。

但是,一体机并不是什么新鲜玩意儿。早在DeepSeek火之前,就有些企业用它来搞私有化部署了。它只是成本比服务器集群低,操作更简单,适合中小企业或者个人用。

关键在于,DeepSeek并没有让一体机“质变”,它只是让“量变”加速了。DeepSeek降低了部署门槛,让更多企业能用得起大模型,这才是它引爆一体机市场的真正原因。但别忘了,工具再好,也得看用的人会不会用。

厂商混战:谁在浑水摸鱼,谁又真心实意?

现在市面上做一体机的,简直是八仙过海,各显神通。互联网公司、硬件厂商、集成商、软件公司、组装厂,甚至连做交换机的都跑来凑热闹。只要是跟IT沾边的,都想分一杯羹。有些是自己研发的,有些是OEM的,反正只要能贴上“DeepSeek”的标签,就能卖个好价钱。

这种鱼龙混杂的市场,最容易出现的就是浑水摸鱼的。一些厂商根本没有核心技术,只是简单地把硬件组装起来,就敢号称“DeepSeek一体机”。他们恨不得把“性价比”三个字写在脸上,用低价来吸引客户。

推理 or 训推?客户的真正需求是什么?

从类型上来看,现在市面上的DeepSeek一体机主要分两种:推理一体机和训推一体机。推理一体机主要用来跑模型,适用于那些需要高效推理计算的企业,价格从几十万到数百万不等。训推一体机则可以用来训练和推理模型,价格更高,主要用于预训练和微调大模型。

问题是,有多少企业真的需要训推一体机?大部分企业只是想用大模型来解决一些实际问题,比如做个智能客服,搞个知识库,或者提高办公效率。他们根本不需要自己训练模型,只需要调用现成的API就行了。

一体机卖给谁?央国企的“面子工程”,民企的“算力焦虑”?

国产替代的政治正确:央国企的无奈选择

毫无疑问,政府和央国企是这波DeepSeek一体机上新潮的最大客户。这年头,谁敢跟国家政策对着干?“信创产业”、“国产替代”的大旗一挥,关键领域必须优先采用国产技术,降低对外依赖。DeepSeek作为本土AI企业,天然就符合这一政策导向。

更何况,政府和央国企手里掌握着大量敏感数据,对数据安全和隐私保护的要求极高。DeepSeek一体机的本地化部署和封闭式架构,正好能满足他们的合规要求。而且,这玩意儿开箱即用,不需要雇佣庞大的运维团队,省时省力。

当然,这其中也不排除一些“面子工程”的成分。一些单位为了响应号召,为了展现自己的“政治觉悟”,也会采购一些一体机,至于实际效果如何,可能就没那么重要了。

民企的选择:H20的“真香”定律,还是国产卡的“爱国情怀”?

除了政府和央国企,一些有实力的大型民企,或者有数字化转型需求的中小民营企业,也是DeepSeek大模型的潜在客户。但和财大气粗的央国企不同,民企在选择一体机时,会更加注重性价比。

由于百度、阿里等互联网巨头自己就是云服务商,自己就卖一体机,所以大部分民企都会选择购买第三方厂商的一体机。问题来了,选谁家的?

如果预算充足,对性能要求高,那么英伟达的H20系列芯片自然是首选。这玩意儿虽然是“阉割版”,但在跑DeepSeek模型时,性价比极高。所以,H20的市场行情才能从“卖不出去”变成“供不应求”。这年头,谁跟钱过不去?

当然,也有一些民企会出于“爱国情怀”,或者为了响应“国产替代”的号召,选择搭载国产AI芯片的一体机。但不得不承认,在性能上,国产芯片和英伟达还有一定的差距。

预算决定脑袋:10万-50万的价格带,是“尝鲜”还是“将就”?

根据我了解到的情况,大型央国企的预算一般在200万-500万之间,中小型政府机关、央国企和民营企业的预算则在100万以内。而在这100万中,又根据预算金额的不同,分为50万-100万、10万-50万、10万以内三个区间。

目前,客户预算主要集中在10万-50万的区间内。这与客户对部署大模型“尝鲜”的需求,以及企业的预算审批制度密切相关。说白了,就是“有多少钱,办多少事”。

有的部门,领导手里就批50万,那一体机厂商自然要围绕这个价格来定价。毕竟,能把钱花出去,才是硬道理。

满血版 vs. 阉割版:效果至上,还是够用就行?

虽然大家都想部署满血版DeepSeek大模型,但现实是,大部分中小企业只能选择70B的模型。原因很简单,预算有限。

更重要的是,绝大多数企业还处于对大模型的“试验”和“尝鲜”阶段。70B的模型已经足够应对办公场景的需求,比如做个知识库,搞个办公助手,或者当个智能客服。

而且,70B的模型可以直接扩容到满血版,企业可以先用70B试试水,如果效果好,再增加机器台数,升级到满血版。这样一来,既能满足需求,又能控制成本,何乐而不为?

国产卡一体机:看似美好的“单机跑满血版”,实则暗藏玄机

数据说话:国产卡与英伟达的性能鸿沟

说到国产卡一体机,很多厂商都会强调“单机跑满血版”。听起来很厉害,但实际效果如何呢?我们不妨用数据来说话。

衡量大模型推理性能的两个关键指标是:系统吞吐(TPS,Tokens Per Second)和并发数(Concurrency)。系统吞吐指的是单位时间内模型处理的Token数量,直接影响实时交互的流畅性;并发数则是模型同时处理多个请求的能力,直接影响系统的扩展性。

目前,大部分国产芯片一体机跑DeepSeek满血版大模型的时间大概是10 token/s。有的厂商虽然声称月底能优化到25Token/s,但和英伟达相比,仍然有不小的差距。

我看到有国内AI Infra厂商用141G显存的8卡H20一体机做了测试。结果显示,在单路并发、268tokens输入、2869tokens输出的情况下,英伟达8卡H20一体机实现了单用户吞吐最高32.9 tokens/s、平均TTFT 191.72ms的成绩。

https://tlcj-static.tuoluo.cn/sync/b564414a346b334ec31d62d7a566d7d6

而在1024路并发、1000/1000的输入/输出长度的情况下,英伟达8卡H20一体机实现了3975.76 tokens/s的总设备吞吐。

https://tlcj-static.tuoluo.cn/sync/f423a88947b878e127fe4715310ece7f

还有工程师用八张141G显存的H20 GPU做了测试,结果显示,在单路并发、128tokens输入、1024tokens输出的情况下,平均用户吞吐率达到了23.68tokens/s,平均TTFT为174.51ms。

https://tlcj-static.tuoluo.cn/sync/762f831fb95604d3f110d9b28f776d49

在系统吞吐和并发率这两个关键指标上,国产AI芯片一体机确实落后于搭载了英伟达芯片的一体机。

性能瓶颈:数据精度、芯片制程与互联技术的三重限制

为什么国产卡一体机跑满血版DeepSeek大模型的情况不如英伟达呢?我认为主要有三个原因:

  • 数据精度不匹配:DeepSeek模型采用FP8混合精度训练,但目前公开市场上只有少数几款国产AI芯片支持FP8。这意味着,想要跑DeepSeek大模型,必须要将模型转译成FP16或BF16精度,或者通过动态量化技术将模型变成量化版。转译成FP16或者BF16需要在原来基础上两倍的显存,而将模型变成量化版则需要损失一定的精度。
  • 芯片制程落后:国产AI芯片当前制程能力以7-12纳米为主,并在28纳米及以上成熟制程占据市场优势,但在5纳米及以下先进制程领域仍需突破技术和设备限制。而国外的AI芯片已经将制程突破到了3纳米,并且在2025年正式进入2纳米工艺元年。
  • 互联技术不足:国产卡由于显存不足,仍然需要依靠多机互联来跑满血版大模型。目前英伟达的NVLink、NVSwitch互联带宽可达900GB/s以上,且支持大规模并行计算和低延迟通信;而国内仍然主要依赖PCIe 4.0/5.0或以太网互联,带宽和延迟均表现弱于NVLink。

软件优化:厂商们心照不宣的“降智”手段

当然,除了硬件上的差距,软件优化也是影响性能的关键因素。但一些国产一体机厂商为了追求更好的跑分,会采用一些“降智”手段,比如降低模型精度,或者采用量化版模型。

这些所谓的“优化”,实际上都是在降低模型智商的情况下进行的。很多国产卡一体机如果要在智商不下降的情况下运行满血版大模型,连单用户10token/s的吞吐都跑不到。

Beware!一体机选购的那些坑:参数陷阱与虚假宣传

在一体机选购时,一定要擦亮眼睛,避免掉入参数陷阱。有些厂商会故意隐瞒输入和输出长度,只强调自己的产品跑671B大模型能输出多少Token、达到多少并发。

这种不公布测试条件的性能测试,都是耍流氓!

还有一些厂商会专门给客户推销搭载了32B、70B等蒸馏版DeepSeek模型的一体机,销售出去后就不再提供后续的安装和维护服务。一旦客户觉得不好用了,就让客户接着再买“升级版”的下一代产品。

更有甚者,直接给客户推32B的低价一体机,然后说“预算一定的情况下,我让合作伙伴多赚点钱不香吗”。

一体机并非最优解:DeepSeek的最佳归宿,是星辰大海般的集群

MoE架构的特性:显存的“虚胖”,算力的“精瘦”

虽然现在几乎各家IT厂商都在做一体机,市场上也有价格不等、规格各异的一体机产品能满足客户各种各样的需求,但是DeepSeek大模型最好的部署方式并不是一体机。

这与DeepSeek的模型架构有关。DeepSeek-R1模型采用了MoE架构,每次只激活一堆专家里的少量专家。根据DeepSeek最新发布的文章,每层256个专家仅激活其中8个,相当于只激活了671B参数里的37B参数,因而极大降低了计算量。

但是,MoE模型里那些未激活专家,虽然不消耗算力,但它们的参数量仍然要占用显存/内存,带来巨大的存储开销和调度复杂性。也就是说,必须要有很大的总batch size,才能给每个专家提供足够的expert batch size,从而实现更大的吞吐、更低的延迟。

如果要实现在一体机上运行满血版DeepSeek大模型,就必须把参数、配置拉满,起码显存要做到808-846GB,机器才能装得下6710亿参数。然而,由于每次真正激活的参数只有370亿,剩余参数的存放对于显存、内存、硬盘来说是极大的浪费,因此一体机并不适合运行DeepSeek这种MoE模型,而是更适合那些非MoE的全参数激活模型。

规模化并行:DeepSeek官方钦点的“通关密码”

DeepSeek官方在其推理系统概览文章里也说,要实现更大的吞吐、更低的延迟就需要需要大规模的跨节点专家并行(Expert Parallelism/EP)。也就是说,对企业来说,多机多卡的大规模的并行集群才是DeepSeek官方推荐的路线。

https://tlcj-static.tuoluo.cn/sync/2a3f80c52725bf39fa44086e425d1551

正因为采用了这种大规模并行架构,DeepSeek才实现了令人惊讶的单服务器平均推理性能。英伟达官方实测显示,DeepSeek-V3/R1使用H800集群(单节点8卡),在FP8混合精度下实现输入吞吐73.7k tokens/s(含缓存命中)和输出吞吐14.8k tokens/s。而国产一体机厂商们给出的性能指标,输出+输入的吞吐量总和最多也不过4k tokens/s。

昇腾的大EP方案:亡羊补牢,为时未晚?

或许也是看到了当前的一体机运行DeepSeek大模型的技术局限,近日,昇腾推出了大规模跨节点专家并行(大EP)集群推理方案,并和科大讯飞合作实现了基于昇腾算力的8机64卡DeepSeek大规模跨节点专家并行集群推理。这是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于自研算力的全新解决方案。

昇腾大EP方案采用了MoE负载均衡、PD分离部署、双流/多维混合并行、MLAPO融合算子、MTP(多Token预测)等技术,实现了MoE模型专家之间的负载均衡,专家数据交换效率提升40%,降低跨机流量60%,卡间负载差异小于10%,集群吞吐提升30%;此外,推理集群的性能和吞吐量也得以提升,单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。

升级后的昇腾大EP方案,可支持从几十卡到几千卡甚至更大规模的推理集群。而企业之前采购的一体机,也可以通过软件升级,扩展为大EP的推理方案。

客户转向:从“开箱即用”到“量身定制”的理性回归

据我了解,目前大部分企业都已经结束了“尝鲜”,正式进入了采购和部署阶段,而部分企业的采购决策也从开箱即用的DeepSeek一体机,转向了可支撑高并发、低时延的大规模专家并行(EP)推理集群。这也是DeepSeek开源自己的技术方案后给市场带来的改变。

一体机的未来:进化 or 淘汰?

破除二律背反:国产芯片的突围之路

尽管一体机在运行DeepSeek大模型方面存在一些局限性,但这并不意味着它是一个很差的产品形态。对于预算有限或者业务场景对AI需求不大的企业,一体机仍然是他们尝试AI、初步探索大模型赋能业务场景的最佳选择。

对这些企业来说,无论是搭载了蒸馏版DeepSeek模型的一体机,还是搭载了非MoE架构的小体积新模型的一体机,都足以应对现有业务的AI部署需求。

长期来看,一体机要真正打破“性能妥协”与“国产合规”的二律背反,唯有国产芯片在算力密度、互联技术和开源生态上实现突破。只有当国产芯片能够提供与英伟达相媲美的性能,同时又能满足国家政策对国产替代的要求,一体机才能真正发挥其价值。

理性看待:一体机作为AI普及的过渡方案

我认为,一体机可以看作是AI普及过程中的一个过渡方案。它降低了AI部署的门槛,让更多企业能够接触到AI技术,从而加速了AI在各行各业的应用。

但随着AI技术的不断发展,随着企业对AI需求的不断深入,一体机可能无法满足更高的性能要求。届时,大规模并行集群可能会成为主流的AI部署方案。

静待花开:DeepSeek R2与更多可能性

DeepSeek R2的推出,可能会给一体机市场带来新的机遇。新的模型架构、更高效的算法,可能会降低对硬件的需求,从而让一体机在性能和成本之间找到更好的平衡点。

此外,随着更多企业加入AI芯片的研发,随着国产AI芯片技术的不断进步,一体机的硬件性能也会得到提升。

总之,一体机的未来充满了不确定性。但可以肯定的是,AI技术的发展永不停歇,AI应用场景的探索永无止境。让我们拭目以待,看看一体机最终会走向何方。

返回列表
上一篇:
下一篇: