发布日期:2026-02-15 10:03 点击次数:67


出品 | 虎嗅科技组开yun体育网
作家 | 丸皆山
剪辑 | 苗正卿
头图 | 视觉中国
继B200/GB200芯片委用推迟后,或又面对新品难产的问题。
12月24日,据Wccftech报说念,英伟达最新旗舰芯片B300/GB300的参数仍是证实。其中B300的显存规格从上代居品的192Gb种植至288Gb;GB300平台将初度使用LPCAMM内存模块瞎想,并配备带宽种植至1.6Tbps的光模块,以确保数据高速传输。
在性能大幅种植的同期,B300/GB300的功耗也被拉到史无先例的高度,TDP(热瞎想功耗)达到1400W。四肢对比,Hopper架构的拳头居品H100芯片,其TDP为350W。
这关于管事器的散热瞎想来说,无疑是个纷乱的挑战。
而就在上周,天风海外分析师郭明錤在研报中暗示,英伟达在为B300/GB300开拓测试DrMos技巧时,发现芯片存在严重的过热问题,这可能会影响B300/GB300的量产程度。
尽管此前曾屡次暗示,英伟达未来将严格遵从“一年一换代”的原则,但旗下GPU在改用Blackwell架构后,不啻一次出现“跳票”的情况。
Blackwell架构,真有问题?
在郭明錤发布的研报中,指出了B300/GB300当前边临的问题:由AOS(Alpha & Omega Semiconductor)公司提供的5*5 DrMos决策在测试中过热。
先来说说DrMos是什么。
这是英特尔在2004年推出的技巧,主要旨趣是将驱动器和MOS集成在扫数,以减小多个元件的空间占用以及镌汰寄生参数带来的负面影响,从而种植转移恶果和功率密度。
节略地来说,它就是一个高度集成的电源经管决策。

在英伟达Hooper架构芯片上,包括H100/A100/H800/A800在内,其DrMos决策全部由MPS(Monolithic Power Systems)供应,可能是基于“不把鸡蛋放在脱色个篮子”的原则,在Blackwell架构芯片上,英伟达开动测试AOS的决策。
那是否能证明,AOS应该为B300芯片的过热问题“背锅”呢?
或许并不可。
首先,AOS的5*5 DrMos芯片是一款散热能效高,且至极进修的决策瞎想,这在行业内仍是得到鄙俚考证。
其次,郭明錤的财报中也提到了,有产业链东说念主士指出,B300的发烧问题除了DrMos芯片自身除外,还源于系统芯片经管的瞎想不及。
这仍是不是Blackwell第一次被曝出存在瞎想问题。
本年8月,据《The Information》报说念,B200在台积电流片历程中,发现瞎想存在弱势。
首先业内觉得可能是台积电的N4P制程工艺存在问题,但在与高盛的投资东说念主交流会中,黄仁勋说出了问题场地:由于GPU芯片、LSI桥、RDL中介层和主板基板之间的热延迟特质不匹配,导致封装结构出现周折。
“100%是英伟达的包袱。”
在芯片瞎想被曝出弱势后,B200/GB200芯片的委用时候从本年3季度被推迟至4季度。况且从内容情况来看,现阶段仍莫得公司拿到B200芯片,从公开贵府中得知,马斯克凭借10.8亿好意思元的订单,取得了B200芯片的优先委用权,这些芯片将被用于增强xAI的超等意象打算集群Colossus。
而即等于取得优先委用权xAI,也得比及来岁1月份才智收到B200芯片。
回到B300芯片上,这是一枚原定在来岁3月GTC大会上发布的旗舰居品,当今却面对“未发布先难产”的问题。
满盈把持AI管事器芯片的英伟达,为什么会在Blackwell上一再翻车。
一个很蹙迫的原因是,英伟达过于追求芯片性能上断代首先,从而导致Blackwell系列芯片四肢量产型居品,险些造成一个实践性平台。
比如CoWoS-L封装技巧的诓骗。
这里需要说一个配景是,Blackwell是一枚基于MCM(多芯片封装)瞎想的GPU,即在脱色个芯片上集成两颗GPU die。
为了迎合英伟达的需求,台积电方面初度将CoWoS-L技巧诓骗在这枚芯片的封装上。而在此之前,CoWoS-L封装也莫得经过大边界考证。
有业内东说念主士指出,CoWoS-L封装现阶段的良率可能在90%足下,四肢一项后段工艺,这个数字很不睬念念。
需求是否过于乐不雅?
在Blackwell架构芯片推出后,有名华尔街投行Keybanc Capital Markets曾发出了一份展望:
“Blackwell芯片将激动英伟达数据中心业务的收入,从2024财年(甩手2024年1月)的475亿好意思元增长到2025年的2000多亿好意思元。”
大家皆知,在大模子的检修与部署中,英伟达的GPU居功至伟,但BlackWell架构芯片确凿能凭一己之力带动功绩翻倍高涨吗?
即便忽略掉B200/B300的宽限委用问题,仅从阛阓需求来看,可能并不是越过的乐不雅。
关于各大互联网公司来说,一个首当其冲的问题是,淌若大边界引入基于Blackwell芯片的管事器,那么算力中心的建造资本将会被大大提高。
因为B200芯片高达1000W的TDP内容上已进步了传统风冷散热的极限,好多管事器厂商为了经管散热问题,不得以堆砌3D VC(真空腔均热板)的数目和面积,由此导致在42U的圭臬管事器机柜中,可容纳的芯片越来越少。
而到了B300芯片上,风冷散热决策不管若何修修补补皆无法压住1400W的功耗,必须全面改用液冷。
但关于仍是搭建好意象打算中心的厂商而言,改用液冷会导致其资本骤增。比如在传统管事器机房中在搭建时皆会对空调系统进行重点瞎想,一些大型意象打算中心的空调系统不错扶植0°以下的送风。
淌若改用液冷,则意味着在加入配套基础措施的同期,往日花大价钱打造的空调系统沦为闲置。

另外就是管事器自身的价钱问题。现阶段,一组基于GB200的AI管事器凭据带宽建树的各别,订价约在200-300万好意思元之间,而淌若这些管事器全部基于GB300改用液冷决策,价钱以致可能会翻倍。
还有一个很蹙迫的问题是,阛阓关于最先进GPU的需求是否狠恶?
就在12月14日的NeurIPS大会上,OpenAI连合独创东说念主Ilya Sutskever)暗示,大模子预检修行将结束,因为AI的化石燃料“数据”仍是用尽了。
淌若Ilya的判断莫得问题,一个可想而知的回荡将是大模子的商讨要点将从检修转向推理,在这么的配景下,固然英伟达Blackwell系列芯片具备强硬的“训推一体”智商,但有几许厂商未来空隙握续性地高资本进入,还有待不雅察。