近日,南边科技年夜学深港微电子学院余浩传授研发团队于具身智能硬件范畴取患上多项冲破性结果。南科年夜微电子学院是第一单元或者通信单元,该项目获得国度科技部重点研发规划和深圳高条理人材团队项目撑持。起首于芯片标的目的,团队乐成流片验证了立方脉动架构,面向具身深度进修收集,经由过程收集搜刮优化,实现了最优的能效比(29.12TOPS/W)及面积比(7.94 TOPS/妹妹2)。同时于加快卡标的目的,团队研发的具备立方脉动架构端侧年夜模子推理卡,乐成实现了年夜语言模子(LLM)于边端部署,到达了近80%带宽使用率(75tps)。于体系运用标的目的,团队将LLM加快卡实体化到边沿侧的下一代测序仪,实现了及时现场举行智能基因诊断。
具身智能芯片
跟着年夜模子时代的到来,深度神经收集模子的算力需求呈指数级增加,但传统芯片架构面对能效与机能的两重瓶颈。研究团队针对于这一挑战冲破传统AI芯片设计中“能效-面积-矫捷性”三角抵牾,实现了三年夜技能立异:
动态精度调控:打破固定精度限定,于能效与正确率间实现动态均衡;
布局化稀少编码:经由过程对于数标准稀少计谋,于压缩率晋升30%的同时连结模子精度;
矢量脉动阵列:立异的脉动架构将内存带宽使用率晋升至92%,显著降低数据搬运能耗。



图1 混淆精度加快器芯片和混淆稀少加快器芯片图

图2 具备混淆精度和稀少的立方脉动架构芯片的机能比力
该结果发表于集成电路设计范畴顶级期刊IEEE Journal of Solid-State Circuits
IEEE: Journal of Solid-State Circuits (JSSC)
DOI:10.1109JSSC.2025.3558287
具身智能加快卡
研发团队与深圳市迈特芯科技有限公司互助,进一步霸占年夜语言模子(LLM)于资源受限边沿装备上的部署,使用已经验证的混淆精度计较单位以和立方脉动阵列架构,乐成部署了多个7B LLM语言模子和多模态模子。与GPU比拟,该体系的吞吐量提高了1.91倍,能效提高了7.55倍;与开始进的FPGA加快器FlightLLM比拟,总体机能晋升了10%到24%。

图3端侧年夜模子推理卡

图4 差别端侧年夜模子推理卡对于比
该结果发表于电路与体系范畴顶级期刊IEEE Transactions on Circuits and Systems I: Regular Papers。
IEEE:https://ieee-cas.org/publication/TCAS-I
DOI:10.1109/TCSI.2025.3546256
具身智能体系运用落地
作为端侧年夜模子推理卡运用,团队及上海芯像生物科技有限公司互助研发了LLM具身化的NGS测序仪-emGene,优化后的年夜语言模子患上以于端侧年夜模子推理卡上高效部署,使诊断流程年夜幅提速,从而实实际时、现场DNA阐发,于医疗范畴实实际时、现场基因智能诊断的现实运用。


图5emGene年夜语言模子(LLM)边沿NGS测序仪
该结果发表于电路与体系范畴顶级期刊IEEE Integrated Circuits and Systems。
IEEE:https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=10410247
DOI:10.23919/ICS.2025.3552542
南边科技年夜学深港微电子学院余浩传授研发团队专注在年夜语言、年夜视觉模子的具身智能化,于具身芯片、具身加快卡和具身智能体系的运用落地等多环节的结果冲破,为我国从信息智能到物理智能,终极到生物智能提供了焦点的AI芯片技能撑持。
-米兰milan