news 2026/5/9 13:21:30

HCCL rank table文件加载失败故障诊断

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
HCCL rank table文件加载失败故障诊断

rank table文件加载失败

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

定位思路

基于rank table创建通信域的方式需要加载rank table文件,若文件路径不存在、无权限或文件的格式、配置错误,HCCL则会加载失败,报错返回。

后续内容为一些常见的rank table文件校验失败报错案例,若未找到对应案例可根据实际的报错信息进行定位排查。

rank table文件读取失败(EI0004)

问题现象

在CANN日志中存在关键字"is not a valid real path",如下所示:

[ERROR] HCCL(1104629,test_one_side):2025-10-28-17:45:13.679.684 [param_check.cc:66] [1104629][InitGroupStage][RanktableConfig]errNo[0x0000000005010001] path /ranktable.json is not a valid real path

可能原因

基于rank table文件初始化通信域时,传入的rank table文件路径不存在或者权限不足。

解决方法

修改正确的rank table文件路径或者配置正确的可读权限。

rank table字段配置错误(EI0004)

问题现象

针对Atlas A3 训练系列产品/Atlas A3 推理系列产品,在CANN日志中存在关键字“RanktableCheck”,如下所示:

[ERROR] HCCL(1265,):2025-10-21 07:56:47.198.454 [topoinfo_ranktableConcise.cc:727][15326][InitGroupStage][RanktableCheck]errNo[0x0000000005010001] super_device_id[] is invalid

可能原因

rank table的"version"字段为"1.2",但rank table里"super_device_id"字段填写为空,导致rank table校验失败。

解决方法

在rank table文件中补充"super_device_id"字段,配置说明可参考rank table配置资源信息(Atlas A3 训练系列产品/Atlas A3 推理系列产品)。

rank table文件中device_ip字段校验失败(EI0014)

问题现象

在CANN日志中存在关键字the IP address(***) in the ranktable is inconsistent with the IP(***)address of the network adapter,如下所示:

[ERROR] HCCP(166192,eExecutor):2025-01-21-16:59:39.962.565 [ra_host.c:480]tid:167056,ra_rdev_init_check_ip(480) : [check][ip]fail, ret(129) the IP address(127.10.0.0) in the ranktable is inconsistent with the IP address(127.10.0.1) of the network adapter, please make sure they're consistent. num(2)

可能原因

HCCL在校验device ip时发现当前device侧获取的device ip与rank table中给当前rank配置的device ip不一致,因此校验失败。

比如在rank0上,绑定的device对应的device ip为127.10.0.1,但是在rank table中给rank0配置的device ip为127.10.0.0,导致HCCL检验失败。

解决方法

需检查rank table的配置与通信域中每个rank实际执行的device ip是否一致。

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 13:18:50

华为CANN/ops-cv广播关系详解

broadcast关系 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 广播概念 broadcast(广播)描述了算子在运算期间如何处理不同形状的…

作者头像 李华
网站建设 2026/5/9 13:18:50

云边端协同空间智能架构,构筑智慧港口低时延、高可靠实时算力底座

云边端协同空间智能架构,构筑智慧港口低时延、高可靠实时算力底座副标题:边缘端实时重构 云端全局调度,满足港区毫秒级态势感知与决策响应一、技术应用背景与行业算力瓶颈智慧港口全域数字化、智能化升级进程中,全域空间感知、三…

作者头像 李华
网站建设 2026/5/9 13:18:48

空间智能优化作业链路,赋能智慧港口降本、提效、减碳三重价值升级

空间智能优化作业链路,赋能智慧港口降本、提效、减碳三重价值升级副标题:智能路径规划 泊位智能编排,减少集卡空驶等待,提升港区周转效能一、行业背景与核心痛点大型枢纽港口作为物流集散核心枢纽,作业链路冗长、环节…

作者头像 李华
网站建设 2026/5/9 13:16:29

统好 AI 采购管理:全流程数字化精益管控

在企业供应链运营中,采购业务链条长、单据多、流程杂,很容易出现预算失控、单据流转繁琐、对账复杂、成本难以分析等问题。绵阳统好软件有限公司旗下的统好 AI,依托自研采购管理模块,搭建起从采购需求发起、寻源计划、业务执行、物…

作者头像 李华
网站建设 2026/5/9 13:14:40

2026年荆州成人AI学习口碑好机构揭秘

在当今数字化时代,AI已成为推动各行业发展的核心力量。对于荆州的成人学习者来说,找到一家靠谱且口碑良好的AI学习机构至关重要。炽培星AIGC产业赋能基地凭借其卓越的教学质量、全面的服务体系和显著的成果,在众多机构中脱颖而出,…

作者头像 李华
网站建设 2026/5/9 13:13:33

CANN运行时跨机内存共享

12_cross_server_physical_memory_sharing_withoutpid 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了 aclrtMemExportToShareableHandleV2 和 aclrtMemImportFromShareableHandleV…

作者头像 李华