近日,国产稀疏 AI 算力龙头墨芯人工智能完成近十亿元 C 轮融资,产业资本与国资机构密集加码,公司第二代通用推理计算卡 SparsePrime® 官宣年内落地量产。围绕行业高企的大模型推理成本痛点,墨芯人工智能市场部副总裁郭威俊接受专访,以 “不拿大炮打蚊子” 通俗诠释墨芯差异化技术路线:摒弃全参数稠密算力堆砌,依托原生硬件稀疏计算,从芯片底层精简无效运算,系统性破解 AI 落地成本桎梏,走出国产推理芯片降本增效新路径。
当下生成式 AI 全面产业化,国内日均 Token 调用量迈入百万亿级别,大模型落地从比拼模型参数、训练峰值算力,转向推理成本可控化。郭威俊在采访中直言行业普遍痛点:用户一句简短提问,动辄调动万亿参数大模型全量运算,绝大多数权重、激活参数属于无效计算,如同动用重型火炮击打小型目标,算力资源严重浪费,居高不下的硬件采购、机房能耗、运维 TCO(总拥有成本),成为中小 AI 企业商业化盈利最大阻碍。“行业多数算力产品沿用传统稠密计算架构,不分场景全参数运算,算力虚胖带来的成本浪费是结构性难题,墨芯的研发初心,就是用稀疏计算精准匹配真实推理需求,按需调动算力,杜绝资源空耗。” 郭威俊表示36氪。
所谓稀疏计算,核心是权重 + 激活双稀疏自研技术,区别于通用 GPU 全量参数运算模式,墨芯从 Antoum 自研芯片架构底层重构计算逻辑,通过软硬件协同识别模型冗余参数,仅启用推理所需有效单元,闲置计算模块休眠关停,在保证模型推理精度零损耗前提下,砍掉无效算力开销,实现算力利用率与能效比双重突破。依托这套原创技术,墨芯 S30、S40 系列加速卡连续三届登顶国际权威 MLPerf Inference 基准测试,在自然语言处理、计算机视觉、通用大模型等场景实测中,单卡可实现等效多卡稠密算力输出,开源大模型推理速度最高提升 10 倍,单 Token 推理成本较主流稠密算力产品实现大幅下探,落地互联网、运营商、智慧城市、生物医药等上百个产业项目,全国多地千卡智算中心规模化部署落地。
谈及近十亿元 C 轮融资用途与产品规划,郭威俊透露,本轮融资资金将重点投向新一代 SparsePrime® 计算卡量产落地与全国算力网络布局。新品基于 Antoum2.0 全新自研架构,依托过往海量数据中心真实负载迭代优化,深度适配全系列主流 Transformer 大模型,兼容 PyTorch、TensorFlow、vLLM 等主流推理框架,开发者近乎零代码即可完成模型迁移部署,大幅降低企业替换算力的接入门槛。“SparsePrime® 延续‘精准算力、拒绝浪费’的产品思路,进一步放大稀疏计算降本优势,面向智算中心、政企私有算力、边缘推理全场景,补齐大模型通用化适配短板,让各类 AI 应用不用再靠堆硬件换取推理能力。” 郭威俊补充道。
在国产 AI 芯片赛道分化加剧的当下,行业一部分厂商持续追逐峰值算力参数竞赛,墨芯逆势深耕稀疏细分赛道,坚守成本优化主线。郭威俊认为,AI 产业已告别野蛮烧钱扩张周期,低成本推理能力是算力厂商穿越周期的核心竞争力,随着东数西算、数据中心绿色低碳政策落地,高功耗、低利用率的稠密算力空间持续收窄,硬件原生稀疏计算将从行业备选方案,成为 AI 基础设施刚需选择。凭借卡内基梅隆科研团队 + 一线半导体量产专家组成的研发班底,墨芯在全球累计落地百余项稀疏计算核心专利,完成从芯片架构、算法工具链到整机解决方案的全栈自研闭环,构建技术壁垒36氪。
面向行业未来发展,郭威俊表示墨芯将持续聚焦推理成本优化主线不动摇,一方面迭代稀疏芯片架构、完善全栈工具链,持续压缩单位推理成本;另一方面联合产业链伙伴落地普惠算力集群,赋能中小 AI 公司低成本做大模型落地。“‘不拿大炮打蚊子’不止是产品研发思路,更是墨芯对 AI 产业的长期判断:算力的终极价值是按需服务产业,用最少资源实现最优推理效果,依托稀疏技术助力国产 AI 摆脱高算力成本束缚,推动大模型从大型企业专属,走向千行百业普惠落地。”
结语
伴随国产算力自主替代加速与 AI 商业化落地提速,以稀疏计算为代表的能效型算力正在重塑行业格局。墨芯锚定推理降本的差异化路线,依托一代代自研芯片落地验证技术可行性,有望持续凭借成本优势打开广阔市场,为国内人工智能产业高质量发展提供高效低成本的底层算力底座。