news 2026/6/24 14:10:48

CANN/ge LLM数据分布交换块API

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/ge LLM数据分布交换块API

# swap_blocks

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

产品支持情况

  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持
  • Atlas A2 推理系列产品:支持
  • Atlas A2 训练系列产品:不支持

函数功能

对cpu_cache和npu_cache进行换入换出。

对于swap out功能,该接口启用了4个线程执行并行任务;对于swap in功能,该接口启用了1个d2d线程。为了性能稳定,建议进行进程绑核。

swap in功能分为H2D和D2D两个阶段,为了保障性能,该接口申请了4个block大小的buffer用作流水拷贝,所以建议预留出对应的Device内存,防止出现OOM。

函数原型

swap_blocks(src: KvCache, dst: KvCache, src_to_dst: Dict[int, int])

参数说明

参数名称数据类型取值说明
srcKvCache源Cache。
dstKvCache目标Cache。
src_to_dstDict[int, int]dict里面内容代表(原始block index,目标block index)

调用示例

from llm_datadist import KvCache ... npu_cache = kv_cache_manager.allocate_blocks_cache(npu_cache_desc, npu_cache_key) cpu_cache = KvCache.create_cpu_cache(cpu_cache_desc, cpu_addrs) # cpu_addrs来自创建的cpu tensors # swap in kv_cache_manager.swap_blocks(cpu_cache, npu_cache, {1:2, 3:4}) # swap out kv_cache_manager.swap_blocks(npu_cache, cpu_cache, {1:2, 3:4})

返回值

正常情况下无返回值。

传入数据类型错误,源Cache和目标Cache不匹配情况下会抛出TypeError或ValueError异常。

传入参数为None,会抛出AttributeError异常。

约束说明

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/24 14:10:43

CANN/catlass稀疏矩阵乘法示例

SparseMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass Code Organization ├── 41_sparse_matmul_tla │ ├── CMakeL…

作者头像 李华
网站建设 2026/6/24 14:10:22

bitsandbytes快速入门:10分钟掌握8位量化训练技巧

bitsandbytes快速入门:10分钟掌握8位量化训练技巧 【免费下载链接】bitsandbytes Library for 8-bit optimizers and quantization routines. 项目地址: https://gitcode.com/gh_mirrors/bit/bitsandbytes bitsandbytes 是一个强大的Python库,专门…

作者头像 李华
网站建设 2026/6/24 14:05:11

终极优化指南:提升PixLoc相机姿态估计精度的10个实用技巧

终极优化指南:提升PixLoc相机姿态估计精度的10个实用技巧 【免费下载链接】pixloc Back to the Feature: Learning Robust Camera Localization from Pixels to Pose (CVPR 2021) 项目地址: https://gitcode.com/gh_mirrors/pi/pixloc PixLoc是一个基于深度学…

作者头像 李华
网站建设 2026/6/24 14:05:01

hspec扩展开发指南:如何为Haskell测试框架编写自定义插件

hspec扩展开发指南:如何为Haskell测试框架编写自定义插件 【免费下载链接】hspec A Testing Framework for Haskell 项目地址: https://gitcode.com/gh_mirrors/hs/hspec Hspec是Haskell生态中最流行的测试框架之一,它提供了丰富的测试功能和灵活…

作者头像 李华
网站建设 2026/6/24 13:56:05

sccache编译缓存终极指南:如何用云端缓存加速你的构建速度

sccache编译缓存终极指南:如何用云端缓存加速你的构建速度 【免费下载链接】sccache Sccache is a ccache-like tool. It is used as a compiler wrapper and avoids compilation when possible. Sccache has the capability to utilize caching in remote storage …

作者头像 李华