
谷歌近日推出了一种新的压缩算法TurboQuant,旨在裁减东谈主工智能系统的内存需求。该算法绝顶针对鬼话语模子和向量搜索引擎中的键值缓存瓶颈问题。跟着高下文窗口的增大,这些缓存成为主要的内存瓶颈。TurboQuant不错在无需再行历练或微调模子的情况下,将键值缓存压缩至3比特精度,亚搏(中国)app何况基本保握模子准确率不受影响。
测试为止浮现小九体育在线直播官网,小九体育直播TurboQuant对包括Gemma和Mistral在内的开源模子杀青了约6倍的键值缓存内存压缩后果。在英伟达H100加快器上的测试中,与未量化的键向量比较,该算法最高可杀青约8倍的性能耕作。商酌东谈主员暗意,这项工夫不仅适用于AI模子,还能增弘大领域搜索引擎的向量检索智力。谷歌计较在2026年4月的外洋学习表征会议上展示这一工夫。
金佰利国际娱乐官网入口





备案号: