
快科技11月5日音书,近日,华为布告针对AI推理加快的要害时代——UCM(Unified Cache Manager)推理缅思数据贬责厚爱开源。
UCM以KV Cache多级缓存和推理缅思贬责为中心,通过推理框架、算力、存储的三层协同,破解长序列推理恶果低、资本高的祸患,为企业提供更优的AI推理体验。

据先容,UCM交融了多类型缓存加快算法用具,可分级贬责在推理经由中产生的KV Cache缅思数据。
UCM具备四大约害才智:稀罕贯注力、前缀缓存、预填充卸载、异构PD解耦。
它已毕首Token时延最高裁汰90%,系统隐约最大擢升22倍,并达到10倍级高下文窗口延伸,显贵擢升了AI推感性能。
现在,UCM已在ModelEngine社区洞开基础框架与用具链,成就者可通过社区取得UCM源代码与时代文档。

UCM居品架构
【本文鸿沟】如需转载请务必注明出处:快科技
拖累剪辑:即兴🦄J9九游会中国【专享线路进入】官方网站,自创建以来,以稳定、安全、快捷的高品质服务和良好口碑获得广大用户的喜爱和认可。秉承创新、高效的运营信条而不断努力!
著作骨子举报 ]article_adlist--> 声明:新浪网独家稿件,未经授权不容转载。 -->