XPJ官网-梁文锋的担子更重了

2026-05-04 16:02:05

首页财产阐发评论ai正文 梁文锋的担子更重了 梁文锋用V4打破质疑,但Coding、to B贸易化、人材争取,DeepSeek还有有硬仗要打。 2026-04-30 08:02 ·中国企业家杂志文|《中国企业家》记者 闫俊文 见习编纂|李原 编纂|何伊凡 AI投资人解读· DeepSeek-V4参数放年夜,有1M超长上下文,Pro版模子参数范围达1.6T,于开源阵营居最高梯队,还有实现国产算力适配,且价格优惠。其立异的混淆留意力架构降低了计较及缓存需求。· 面对焦点人材流掉、国产算力适配难题、与模子年夜厂竞争激烈和融资传说风闻等问题。于模子正确率、不变性及代码能力方面也有待晋升。总结:DeepSeek-V4上风凸起,但也面对诸多挑战。其技能实力及立异能力使其具备投资潜力,但需存眷人材、竞争及技能完美等危害,建议深切评估其成长远景与应答计谋。内容由AI天生,仅供参考

DeepSeek-V4上线几日,缭绕它的会商仍未住手。梁文锋用V4的强势发布,回手了外界对于在DeepSeek迭代迟缓的质疑。

从效果来看,V4参数放年夜较着。其拥有1M(百万字)超长上下文,分为DeepSeek-V4-Pro及Flash两个版本。此中,Pro版本模子参数范围到达1.6T,比V3年夜出两倍,于开源阵营位列最高梯队,向OpenAI及google看齐。

年夜参数版本也标记着,DeepSeek正于抛却“小而美”线路,转而寻求“参数暴力美学”与稀少架构效率并行。

更主要的冲破来自在国产算力适配。DeepSeek将华为昇腾及英伟达配合写进技能陈诉,于英伟达GPU及华为昇腾NPU平台上均验证了细粒度专家并行方案。于昇腾平台上,V4实现了1.50至1.73倍的推理加快,使患上V4成为全世界*于国产算力底座上完成练习与推理验证的万亿参数级模子。

于这暗地里,DeepSeek面对的模子适配及上下流财产链,事情量之重大、艰难,被千芯科技董事长陈巍形容为“爬雪山、过草地”。这也难免让DeepSeek难以将全数精神,放于模子的机能优化上。

但这场胜利象征着甚么,市场情绪给出了有力证实。4月24日当天,寒武纪、摩尔线程、沐曦等国产芯片公司收盘价上涨2%至7%不等,并同时公布,当天全量适配V4模子。

发布同时,DeepSeek的价格霹雳战也同步上演。

《中国企业家》获悉,DeepSeek近日推出DeepSeek-V4-Pro模子API限时2.5折优惠,勾当截至2026年5月31日。优惠后,该模子输入价格降至0.025元(缓存掷中)、3元(未掷中),输出6元,较原价1元、12元、24元年夜幅下调,已经靠近Flash版本程度。

DeepSeek称,受高端算力限定,当前Pro版办事吞吐有限,估计下半年昇腾950超节点批量上市后,价格还有将进一步下调。

不外需要留意的是,于模子厂商正掀起“Token涨价潮”的配景下,DeepSeek逆势而行,一方面于在其素以“价格杀手”自居,算力能力及供应资源足够——但另外一个可能性是:用户热忱不足。

《中国企业家》不雅察到:于4月24日、25日上线两天,DeepSeek的API办事及网页对于话办事均很不变,没有发生“拥挤”的变乱陈诉。市场整体对于DeepSeek的反馈体验,也比力“沉着”。

而V4的“难产”自己,是这家明星创业公司正于面临的多重压力:焦点人材被竞争敌手争抢、国产算力适配还有面对漫长攻坚、与模子年夜厂及创企缭绕代码能力需要贴身格斗,以和悬而未决的融资传说风闻。

DeepSeek的上风依然清楚:技能*、开源心智强、性价比凸起、国产芯片适配*、开发者生态基础好。但其短板一样实际:to B年夜客户交付经验不足、场景化解决方案不敷富厚、构造范围与巨头差距较着、贸易化仍处在爬坡期。

如今年夜模子已经再也不是单一维度的天才或者技能方面的竞赛,而是一家公司资金、资源、人材、构造、战略的集团作战,这也需要DeepSeek不停于技能抱负及严重实际之间做出选择。

实测V4:能力很强,Coding仍需冲破

一直以来,DeepSeek的立异要领论是,经由过程底层架构立异,实现*成本节制,压榨每个Token的潜力。

这一次,V4于架构上,DeepSeek创始了全新的留意力机制——“CSA(压缩稀少留意力)+HCA(重度压缩留意力)”的混淆留意力架构。这一立异重要方针是对于Token举行条款化的*压缩,以进一步降低对于计较及显存的需求。

技能陈诉显示,于100万Token的上下文设置下,与DeepSeek-V3.2比拟,DeepSeek-V4-Pro仅需27%的单Token推理FLOPs(‌浮点运算数‌)及10%的KV缓存。

一名专家对于《中国企业家》指出,V4于练习及推理中采用“FP4+FP8”混淆精度,而非业界通用的FP32尺度精度格局。DeepSeek当然是为了实现更快的计较速率、更低的缓存需求,但也为此捐躯了正确率。

尤其是当模子参数范围到达1.6万亿时,这类“压榨”是否仍能维持输出质量的不变性,同样成为了V4于现实运用中的*磨练。

于模子不变性上,《中国企业家》将V4的技能陈诉丢给了DeepSeek,要求V4举行翻译并给出要害指标的解读。于专家模式下,上传文件花了15秒,全文翻译年夜概耗时20分钟。虽然从长文本理解、信息抽取、逻辑梳理能力上,V4体现不错,但也呈现了丢掉图片的问题。

此外,跟着代码能力正成为*模子的必争之地,DeepSeek也正于遭受强力阻击。

于V4技能陈诉的Coding相干测试集里,呈现了多处较着的数据空缺,显示缺乏与月之暗面K2.六、智谱GLM-5.1的直接对于标成果。DeepSeek给出的注释是:“因为K2.6及GLM-5.1的API太忙,没法回应查询。”

这句略带无奈的表述,也折射出了年夜模子战局的残暴:已往半年,月之暗面与智谱均将代码能力、Coding Agent、工程化能力作为战略制高点,API挪用量与企业接入量暴涨。

只管DeepSeek夸大,V4-Pro于代码智能体使命上已经与K2.六、GLM-5.1到达可比程度,但行业遍及认为,代码能力、东西不变性、工程化鲁棒性将直接决议MaaS收入、开发者生态黏性与年夜客户付费意愿。这也象征着,DeepSeek下一轮攻坚的焦点疆场,必需清楚指向代码与Agent。

要害的衡量

虽然V4的体现有不尽如人意之处,但它对于全行业的标记性意义,显然更为庞大。

上海财经年夜学特聘传授、FutureLabs将来试验室首席专家胡延平对于《中国企业家》说:V4预览版可以说不负各方期待,同样成功于国产芯片适配的条件下,经由过程对于留意力机制的改良,降低了计较及缓存开消,晋升了效率。

已往近5个月,于外界对于DeepSeek“迭代放缓”的连续质疑中,业内却清晰:DeepSeek的攻坚,并不是纯真于调优模子效果,而是要完成一次从英伟达CUDA生态,向国产芯片“昇腾NPU”等生态的全栈迁徙——这是一场没有硝烟的硬仗。

多位底层架构专家向《中国企业家》证明,超年夜模子于国产芯片上的迁徙,难度远超想象。

一家AI Infra草创公司CEO曾经告诉《中国企业家》:适配新生态架构,碰面临算子缺掉,年夜量自界说算子需从头开发的问题,编译器也会常常出bug,练习半途易瓦解。“相称在我造了一个赛车,理论速率有150千米/小时,但我可能要跑100次才能跑出一个如许的速率,它不是那末不变。”

《中国企业家》综合各方信息来看,DeepSeek为适配国产算力,做出了一系列要害衡量:采用更低精度混淆精度(FP4+FP8),降低显存压力与计较繁杂度;强化稀少留意力与KV缓存压缩,削减芯片间通讯量;优化MoE负载平衡计谋,晋升于非匀称芯片集群上的不变性;抛却了部门极度基准刷分,优先包管长上下文、多轮、Agent场景的鲁棒性。

陈巍将DeepSeek对于华为昇腾的适配,比作“爬雪山、过草地”的工作。这个事情量很是年夜,会让DeepSeek难以将全数精神,放于模子的机能优化上。

对于在DeepSeek来讲,其通讯库、调集通讯、漫衍式计谋需深度重构;万亿参数MoE模子对于集群不变性、显存带宽、收集延迟要求近乎苛刻。这城市致使,V4开发十分艰巨。

从底子上说,这是触及到整个财产链上下流优化、水准晋升的历程,好比芯片良率、芯片机能,年夜模子的总体Infra部署及优化等,是一个水长船高的历程。

胡延平暗示,超年夜参数的年夜模子最先练习以后,需要集群里的每一一张卡都要连结*状况,计较集群协同事情的要求度很高,除了了算力卡的不变,还有要求显存带宽、毗连与收集等方方面面跟患上上。练习使命动辄连续一两个月,任何一张卡、一条链路不稳,均可能致使总体使命掉败。

不外,DeepSeek走出了最艰巨的全栈迁徙*步后,已经经证实中国年夜模子的自立可控,已经经于成为可落地、可商用、可范围化的实际。跟着下半年,昇腾950批量交付,V4-Pro的吞吐能力还有将年夜幅晋升。

增加暗战:人材、本钱、竞争三座年夜山

V4的强势发布,暂时平息了外界对于DeepSeek技能能力的质疑,但更多的挑战,也摆于了梁文锋眼前。人材流掉、本钱选择、行业内卷、贸易化压力,都于把这家以技能抱负主义著称的公司,拖入集团作战。

V4技能陈诉显示,本次介入作者共270人,名单中包括梁文锋——但一个不容轻忽的细节是:已往5个月,已经经有10位签名作者脱离了DeepSeek。

此中最受存眷的,是代码与推理焦点卖力人郭达雅。据《晚点LatePost》报导,郭达雅以亿元年薪,加盟了字节跳动。他深度介入了DeepSeekV三、R一、Coder、Math等要害模子研发,是代码能力、推理架构、工程化的焦点孝敬者。

基座架构、MoE漫衍式、推理引擎、长上下文、代码Agent等要害岗亭,都高度依靠焦点职员的判定与经验;主干流掉不仅影响研发节拍,更可能带来技能线路、架构偏好、工程文化的颠簸。

梁文锋能于职员变更的环境下,准期推出V4并实现1.6T的年夜参数更新,申明其已经成立了可复制、可扩大、不依靠单一小我私家的工程化系统。但怎样留住焦点人材、激励初期成员、不变团队军心,仍是DeepSeek必需解决的持久问题。

V4发布先后,市场也再次传出重磅动静:DeepSeek规划开启新一轮融资,估值约200亿美元,阿里、腾讯等都被列为潜于投资方。

胡延平直言:“DeepSeek应该融资,甚至上市。模子上限晋升,来自用户反馈、参数范围、Agent收集,这些都需要巨年夜投入。”

更主要的是,整个行业正于从模子竞赛转向Token工场竞赛。DeepSeek选择降价、扩参数,都是于为Token时代做预备——而Token工场,也需要更巨额的资金投入。

对于在梁文锋来讲,更深层的命题方才最先:怎样把模子上风,转化为连续、高毛利、可范围化的收入?怎样成立不依靠小我私家的技能迭代机制与人材激励系统?怎样于技能摸索与贸易交付之间连结均衡?怎样从“模子公司”进级为“平台生态公司”?

梁文锋已经经用V4回应了一切质疑,DeepSeek仍于最强玩家序列。但将来真实的决斗,才方才最先。

【本文由投资界互助伙伴中国企业家杂志授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。

-XPJ官网

下载360浏览器