对话墨芯人工智能郭威俊:“不拿大炮打蚊子”,死磕推理成本优化
admin
1小时前
1

近日,国产稀疏 AI 算力龙头墨芯人工智能完成近十亿元 C 轮融资,产业资本与国资机构密集加码,公司第二代通用推理计算卡 SparsePrime® 官宣年内落地量产。围绕行业高企的大模型推理成本痛点,墨芯人工智能市场部副总裁郭威俊接受专访,以 “不拿大炮打蚊子” 通俗诠释墨芯差异化技术路线:摒弃全参数稠密算力堆砌,依托原生硬件稀疏计算,从芯片底层精简无效运算,系统性破解 AI 落地成本桎梏,走出国产推理芯片降本增效新路径。

当下生成式 AI 全面产业化,国内日均 Token 调用量迈入百万亿级别,大模型落地从比拼模型参数、训练峰值算力,转向推理成本可控化。郭威俊在采访中直言行业普遍痛点:用户一句简短提问,动辄调动万亿参数大模型全量运算,绝大多数权重、激活参数属于无效计算,如同动用重型火炮击打小型目标,算力资源严重浪费,居高不下的硬件采购、机房能耗、运维 TCO(总拥有成本),成为中小 AI 企业商业化盈利最大阻碍。“行业多数算力产品沿用传统稠密计算架构,不分场景全参数运算,算力虚胖带来的成本浪费是结构性难题,墨芯的研发初心,就是用稀疏计算精准匹配真实推理需求,按需调动算力,杜绝资源空耗。” 郭威俊表示36氪。

所谓稀疏计算,核心是权重 + 激活双稀疏自研技术,区别于通用 GPU 全量参数运算模式,墨芯从 Antoum 自研芯片架构底层重构计算逻辑,通过软硬件协同识别模型冗余参数,仅启用推理所需有效单元,闲置计算模块休眠关停,在保证模型推理精度零损耗前提下,砍掉无效算力开销,实现算力利用率与能效比双重突破。依托这套原创技术,墨芯 S30、S40 系列加速卡连续三届登顶国际权威 MLPerf Inference 基准测试,在自然语言处理、计算机视觉、通用大模型等场景实测中,单卡可实现等效多卡稠密算力输出,开源大模型推理速度最高提升 10 倍,单 Token 推理成本较主流稠密算力产品实现大幅下探,落地互联网、运营商、智慧城市、生物医药等上百个产业项目,全国多地千卡智算中心规模化部署落地。

谈及近十亿元 C 轮融资用途与产品规划,郭威俊透露,本轮融资资金将重点投向新一代 SparsePrime® 计算卡量产落地与全国算力网络布局。新品基于 Antoum2.0 全新自研架构,依托过往海量数据中心真实负载迭代优化,深度适配全系列主流 Transformer 大模型,兼容 PyTorch、TensorFlow、vLLM 等主流推理框架,开发者近乎零代码即可完成模型迁移部署,大幅降低企业替换算力的接入门槛。“SparsePrime® 延续‘精准算力、拒绝浪费’的产品思路,进一步放大稀疏计算降本优势,面向智算中心、政企私有算力、边缘推理全场景,补齐大模型通用化适配短板,让各类 AI 应用不用再靠堆硬件换取推理能力。” 郭威俊补充道。

在国产 AI 芯片赛道分化加剧的当下,行业一部分厂商持续追逐峰值算力参数竞赛,墨芯逆势深耕稀疏细分赛道,坚守成本优化主线。郭威俊认为,AI 产业已告别野蛮烧钱扩张周期,低成本推理能力是算力厂商穿越周期的核心竞争力,随着东数西算、数据中心绿色低碳政策落地,高功耗、低利用率的稠密算力空间持续收窄,硬件原生稀疏计算将从行业备选方案,成为 AI 基础设施刚需选择。凭借卡内基梅隆科研团队 + 一线半导体量产专家组成的研发班底,墨芯在全球累计落地百余项稀疏计算核心专利,完成从芯片架构、算法工具链到整机解决方案的全栈自研闭环,构建技术壁垒36氪。

面向行业未来发展,郭威俊表示墨芯将持续聚焦推理成本优化主线不动摇,一方面迭代稀疏芯片架构、完善全栈工具链,持续压缩单位推理成本;另一方面联合产业链伙伴落地普惠算力集群,赋能中小 AI 公司低成本做大模型落地。“‘不拿大炮打蚊子’不止是产品研发思路,更是墨芯对 AI 产业的长期判断:算力的终极价值是按需服务产业,用最少资源实现最优推理效果,依托稀疏技术助力国产 AI 摆脱高算力成本束缚,推动大模型从大型企业专属,走向千行百业普惠落地。”

结语

伴随国产算力自主替代加速与 AI 商业化落地提速,以稀疏计算为代表的能效型算力正在重塑行业格局。墨芯锚定推理降本的差异化路线,依托一代代自研芯片落地验证技术可行性,有望持续凭借成本优势打开广阔市场,为国内人工智能产业高质量发展提供高效低成本的底层算力底座。

收藏
打赏
英伟达发布全模态 Cosmos 3 大模型:单模型打通物理智能 “看、想、做、演”,开启实体 AI 规模化落地新时代
上一篇
深耕全栈智能算力布局 英特尔陈立武:全面重构AI时代计算体系
下一篇

发表评论

注册不是必须的

admin
63 文章
0 评论
0 喜欢
最新文章

OpenAI重磅推出Sites功能:零代码一键将创意与工作成果转化为交互式网站应用

全球人工智能领域领军企业OpenAI正式推出全新功能Sites,依托强大的Codex智能技术,彻底打破传统建站与应用开发的技术壁垒,支持用户通过自然语言指令,将各类创意想法、办公数据、工作方案与分析报告,快速转化为可访问、可交互、可共享的轻量化网站与智能应用,重塑个人创作与企业团队协作模式。目前,Sites功能已开启预览体验,面向OpenAI Business及Enterprise企业订阅用户全面 […]

机器人战争全面升级:OpenAI、英伟达、特斯拉群雄逐鹿,抢占物理AI行业规则话语权

当生成式AI的虚拟赛道竞争进入白热化,人工智能产业的战场正快速向实体世界迁移。近期,物理AI(具身智能)赛道迎来格局剧变,OpenAI、英伟达、特斯拉三大科技巨头全力加码,从算法框架、算力底座、硬件落地三大维度展开深度博弈,一场决定未来机器人产业标准、技术路线与生态规则的行业争夺战正式打响。不同于传统机器人企业的单品竞争,此次巨头对决的核心,不再是单一产品的优劣比拼,而是对物理AI未来发展底层规则 […]

微软发布全新拓扑量子芯片:AI智能体协助开发,可靠性提升1000倍

在微软 Build 2026 全球开发者大会上,微软重磅发布第二代拓扑量子芯片Majorana 2,依托自研 AI 智能体科研平台 Microsoft Discovery 全程协同研发,新一代拓扑量子比特综合可靠性较前代产品实现 1000 倍跨越式提升,量子相干时长从毫秒级迈入秒级时代,微软同步将规模化商用量子计算机落地节点由 2033 年提前至 2029 年,研发周期直接减半 作为微软深耕 20 […]

深耕全栈智能算力布局 英特尔陈立武:全面重构AI时代计算体系

在2026台北国际电脑展(Computex 2026)主旨演讲中,英特尔首席执行官陈立武(Lip-Bu Tan)发表题为《人工智能的下一个时代》的核心演讲,明确提出英特尔正全面推进计算体系重构,依托工程技术核心优势,立足Agentic AI(智能体AI)产业变革趋势,打造覆盖终端、边缘、数据中心的全栈AI计算平台,助力行业迈入异构协同、高效智能的全新算力时代。 立足AI产业迭代关键节点,陈立武深度 […]
标签
#AI #机器人 #OpenAI #英特尔 #半导体 #微软 #量子计算 #九章四号 #生态修复 “技术工具箱” #“超级大脑” #海上蓝色粮仓 #气象耦合预报人工智能模型 #太空引力波探测 #“太极计划” #国产开源模型 #MiniMax M3 #绿氢产业 #低成本制氢技术 #IPO #侵入式脑机接口 #北脑一号 #量子随机存取存储器 #量子计算机 #全息体积3D打印 #人工智能+ #太空培育水稻 #天舟十号 #EC芯片 #Codex智能技术 #特斯拉 #英伟达 #Majorana 2 #Agentic AI #推理成本优化 #墨芯人工智能 #Cosmos 3 大模型 #可编程三维光子神经网络 #2026台北国际电脑展 #光电共封装 #芯海科技 #AI + 车规芯片 #全球开发者大会 #全域技术 #锟铻®全骨科手术机器人 #国产骨科手术机器人 #量子纠错盈亏平衡 #果纳半导体 #CPO #DeepSeek #AI 芯片产能与良率 #三星 #Agent OS #物理 AI #自动化 #数字化 #微机电系统 #“九章四号” #AI Agent #"龙虾"时代 #Samsung Gauss #光芯片 #AI 与能源 #台积电 #国产芯片 #华为 #手术机器人 #国家电网 #算力 #token #储存 #闪存芯片 #先进封装与测试技术创新峰会 #祖冲之三号 #锂电池核心材料 #电解液技术 #智能规模化落地 #人形机器人 #光子 AI 芯片 #6G技术突破 #6G #原子相机 #AI降价 #4nm 智驾芯片 #比亚迪 #AI 智眸系统 #电池数字大脑 #日内瓦国际发明展金奖 #自研电力无人机 #AI机器人 #四足机器狗 #超分辨成像技术 #韬定律 #Sites功能
生成中...
扫描二维码
扫描二维码