摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。
射频微波器件采购网(www.ic-king.com)专注整合国内外厂商的现货渠道,实时查询射频微波器件代理商的真实库存,提供合理的行业价格,放心采购射频微波器件,是国内专业的射频微波芯片采购平台。
近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。
然而,长时间的交互暴露出两大显著问题:
首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;
其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。
为此,摩尔线程提出了Round Attention,以解决这些问题。
首先,摩尔线程提出以轮次为分析单元研究AttADSANTEC代理商ention规律:
Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。
其次,摩尔线程提出了Round Attention推理流水线;
基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。
这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。
摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。
测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。
- 荷兰 “叛逆”?ASML 欲挣脱束缚自由卖光刻机给中国
- 韩泰索尔维携手,可持续轮胎制造突破,生物基材料占比提升至 35%
- 用 1000 个传感器开启智能家居新篇章(上篇)
- 黄仁勋无奈发声:断供先进芯片非英伟达本意,离不开中国市场
- Cipia-FS10 集成 ADAS,车队安全性能升级,事故率降低 35%,覆盖 10 万 + 商用车
- MWC25 抢先看:5 分钟速览参展厂商关键信息与创新亮点
- 中汽协大胆预测:2025 新能源汽车销量剑指 1600 万辆
- Cipia 雷达红外融合,车内监控精度提升 50%,疲劳检测准确率达 99.7%
- 思特威稳步前行,积极布局新兴产业领域
- 科研新突破!石墨炔新碳结构有望改写硅芯片技术格局
- RTX 5090、5080 供货告急,1.6 万起售或加价一倍才能入手
- IoT 无线开发新纪元:25 周年品牌焕新升级,推出 Zigbee 3.0+Matter 双协议模组
- 嵌入式 > FPGA(现场可编程门阵列)(集成电
- 片式电阻器 - 表面贴装(电阻器)
- RFID 天线(射频和无线)
- RF 天线(射频和无线)
- 麦克风(音频产品)
- 开关配件(开关)
- 嵌入式 > FPGA(现场可编程门阵列)(集成电
- 巴伦转换器 ,平衡-不平衡转换器(射频和无
- 同轴连接器(射频) > 同轴连接器(RF)适配
- 逻辑 > 缓冲器,驱动器,接收器,收发器(集
- 同轴连接器(射频) > 同轴连接器(RF)配件
- 白色 LED 照明(光电器件)
