对话墨芯人工智能郭威俊：“不拿大炮打蚊子”，死磕推理成本优化

近日，国产稀疏 AI 算力龙头墨芯人工智能完成近十亿元 C 轮融资，产业资本与国资机构密集加码，公司第二代通用推理计算卡 SparsePrime® 官宣年内落地量产。围绕行业高企的大模型推理成本痛点，墨芯人工智能市场部副总裁郭威俊接受专访，以 “不拿大炮打蚊子” 通俗诠释墨芯差异化技术路线：摒弃全参数稠密算力堆砌，依托原生硬件稀疏计算，从芯片底层精简无效运算，系统性破解 AI 落地成本桎梏，走出国产推理芯片降本增效新路径。

当下生成式 AI 全面产业化，国内日均 Token 调用量迈入百万亿级别，大模型落地从比拼模型参数、训练峰值算力，转向推理成本可控化。郭威俊在采访中直言行业普遍痛点：用户一句简短提问，动辄调动万亿参数大模型全量运算，绝大多数权重、激活参数属于无效计算，如同动用重型火炮击打小型目标，算力资源严重浪费，居高不下的硬件采购、机房能耗、运维 TCO（总拥有成本），成为中小 AI 企业商业化盈利最大阻碍。“行业多数算力产品沿用传统稠密计算架构，不分场景全参数运算，算力虚胖带来的成本浪费是结构性难题，墨芯的研发初心，就是用稀疏计算精准匹配真实推理需求，按需调动算力，杜绝资源空耗。” 郭威俊表示36氪。

所谓稀疏计算，核心是权重 + 激活双稀疏自研技术，区别于通用 GPU 全量参数运算模式，墨芯从 Antoum 自研芯片架构底层重构计算逻辑，通过软硬件协同识别模型冗余参数，仅启用推理所需有效单元，闲置计算模块休眠关停，在保证模型推理精度零损耗前提下，砍掉无效算力开销，实现算力利用率与能效比双重突破。依托这套原创技术，墨芯 S30、S40 系列加速卡连续三届登顶国际权威 MLPerf Inference 基准测试，在自然语言处理、计算机视觉、通用大模型等场景实测中，单卡可实现等效多卡稠密算力输出，开源大模型推理速度最高提升 10 倍，单 Token 推理成本较主流稠密算力产品实现大幅下探，落地互联网、运营商、智慧城市、生物医药等上百个产业项目，全国多地千卡智算中心规模化部署落地。

谈及近十亿元 C 轮融资用途与产品规划，郭威俊透露，本轮融资资金将重点投向新一代 SparsePrime® 计算卡量产落地与全国算力网络布局。新品基于 Antoum2.0 全新自研架构，依托过往海量数据中心真实负载迭代优化，深度适配全系列主流 Transformer 大模型，兼容 PyTorch、TensorFlow、vLLM 等主流推理框架，开发者近乎零代码即可完成模型迁移部署，大幅降低企业替换算力的接入门槛。“SparsePrime® 延续‘精准算力、拒绝浪费’的产品思路，进一步放大稀疏计算降本优势，面向智算中心、政企私有算力、边缘推理全场景，补齐大模型通用化适配短板，让各类 AI 应用不用再靠堆硬件换取推理能力。” 郭威俊补充道。

在国产 AI 芯片赛道分化加剧的当下，行业一部分厂商持续追逐峰值算力参数竞赛，墨芯逆势深耕稀疏细分赛道，坚守成本优化主线。郭威俊认为，AI 产业已告别野蛮烧钱扩张周期，低成本推理能力是算力厂商穿越周期的核心竞争力，随着东数西算、数据中心绿色低碳政策落地，高功耗、低利用率的稠密算力空间持续收窄，硬件原生稀疏计算将从行业备选方案，成为 AI 基础设施刚需选择。凭借卡内基梅隆科研团队 + 一线半导体量产专家组成的研发班底，墨芯在全球累计落地百余项稀疏计算核心专利，完成从芯片架构、算法工具链到整机解决方案的全栈自研闭环，构建技术壁垒36氪。

面向行业未来发展，郭威俊表示墨芯将持续聚焦推理成本优化主线不动摇，一方面迭代稀疏芯片架构、完善全栈工具链，持续压缩单位推理成本；另一方面联合产业链伙伴落地普惠算力集群，赋能中小 AI 公司低成本做大模型落地。“‘不拿大炮打蚊子’不止是产品研发思路，更是墨芯对 AI 产业的长期判断：算力的终极价值是按需服务产业，用最少资源实现最优推理效果，依托稀疏技术助力国产 AI 摆脱高算力成本束缚，推动大模型从大型企业专属，走向千行百业普惠落地。”

结语

伴随国产算力自主替代加速与 AI 商业化落地提速，以稀疏计算为代表的能效型算力正在重塑行业格局。墨芯锚定推理降本的差异化路线，依托一代代自研芯片落地验证技术可行性，有望持续凭借成本优势打开广阔市场，为国内人工智能产业高质量发展提供高效低成本的底层算力底座。