news 2026/6/10 14:26:07

openstack计算节点nova-compute服务启动异常处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
openstack计算节点nova-compute服务启动异常处理

#你处理过openstack中计算节点nova-compute服务假死的问题吗,正常状态下,突发指定到该节点的云主机创建失败,本篇介绍两个案例。#

在openstack云计算平台,nova计算节点经常出现nova-compute服务假死的状态,重启也起不来。创建云主机指定该节点创建云主机失败。该问题在我运维过程当中遇到过几次,在节点正常状态下,突然出现指定到该节点的云主机创建失败,但是其已存在的云主机是没有任何影响的时候,可能是存在脏数据,以下故障问题可以借鉴。

实例脏数据导致nova-compute服务启动异常

底层kvm的虚拟机和数据库中的云主机对应不上关系,导致nova-compute服务启动失败

1. 重启nova-conpute服务失败,查看nova-compute日志,因为数据库中的instances表中的数据和kvm层的信息不一致导致

根据uuid确认 instance-ID。

确认该实例状态,如果确实不一致了,定义为脏数据,查询示列ID的UUID,从kvm层销毁该云主机。

virsh dumpxml 实例ID | grep "<entry name='uuid'>"

nova show 379121c9-6ce2-49bc-8fec-a3fb9cbfb588 //没有该uuid virsh list --all |grep instance-00000015 //确认的实例状态 virsh destroy instance-00000015 //关机 virsh undefine instance-00000015 //销毁该云主机

然后重启libvirt服务和nova-compute服务

systemctl restart libvirtd.service systemctl restart openstack-nova-compute

在重新加入computeha 监控

consul members|grep server //登录server节点执行haclient.sh list-dangling haclient.sh list-dangling //加入fence的节点,也就是consul 隔离的节点重新加入monitor架空 haclient.sh monitor node-xx

修复nova-compute服务异常

1.确认libvirt服务运行情况

nova-compute服务异常的原因和ceph存储有关,可能存储网络连通异常。

//nova-compute服务在部分节点启动失败 systemctl stop openstack-nova-compute.service computeha-slave.service wdmd nova service-force-down --unset node-24 nova-compute nova service-enable node-24 nova-compute systemctl start openstack-nova-compute.service sys //重启libvirtd可以修复 systemctl restart libvirtd //检查是否受HAcomputer检测 haclinet.sh list-dangling //如果存在,执行重新加入 haclient.sh monitor node-24

2.查看异常节点nova-compute.log日志

nova-compute如果还是没法恢复,查看节点上nova-compute日志,确认有没有阻碍nova-compute服务启动的虚拟机资源,然后从数据库中

cat /var/log/nova/nova-compute.log|grep -i "InstanceNotFound"

tailf /var/log/nova/nova-compute.log //确认有没有阻碍nova-compute服务启动的虚拟机资源,然后从数据库中 cat /var/log/nova/nova-compute.log|grep -i "InstanceNotFound" mysql -uroot -p set foreign_key_checks = 0 delete from nova.instances where uuid="对应的UUID" //脚本 #!/bin/bash a=($(cat /var/log/nova/nova-compute.log | grep -Eo 'InstanceNotFound: Instance .* could not be found.' | awk '!a[$3]++ {printf"\"%s\"\n",$3}')) passwd=`consul kv get settings/cluster/database_password` echo "${a[@]}" for i in "${a[@]}" ;do mysql -u root -p${passwd} -e"set foreign_key_checks = 0; delete from nova.instances where uuid="$i";" done

3.重新启动nova-compute,接触节点隔离

如果重新加入force监控之后,服务启动正常,但是在server节点执行haclient.sh list-dangling,显示节点还在的问题。可以通过控制节点查看nova-monitor.log日志,很可能是该节点的租户网卡异常。

往期推荐

云计算平台 分析云主机迁移过程

openstack常用命令集

openstack 计算节点nova-compute配置优化

云计算:什么是云计算

云计算:openstack架构

你用的云计算,底层其实是虚拟化

云计算 云平台虚拟机镜像定制化生成方案

关注订阅不迷路

云计算 | 市场分析 | 为梦想启航 | linux命令大全 | linux技术博客

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 21:35:13

小剧场短剧影视小程序源码分享,搭建自己的短剧小程序

温馨提示&#xff1a;文末有资源获取方式&#xff5e;一、市场前景&#xff1a;千亿蓝海&#xff0c;风口正当时“昨晚又为一部短剧熬夜了&#xff01;”这已成为当代年轻人的日常。3分钟一集&#xff0c;连续反转&#xff0c;极致爽点——短剧正以惊人的速度占领我们的碎片时间…

作者头像 李华
网站建设 2026/6/9 16:57:13

Minecraft基岩版跨平台启动器技术解析

Minecraft基岩版跨平台启动器技术解析 【免费下载链接】mcpelauncher-manifest The main repository for the Linux and Mac OS Bedrock edition Minecraft launcher. 项目地址: https://gitcode.com/gh_mirrors/mc/mcpelauncher-manifest 架构设计概述 Minecraft基岩版…

作者头像 李华
网站建设 2026/6/10 11:35:46

多种行业与场景的万能设计模板的全能电子画册源码系统

温馨提示&#xff1a;文末有资源获取方式如何让您的企业或产品在众多竞争对手中脱颖而出&#xff1f;静态的图片和文字已显乏力&#xff0c;动态、交互且富有感染力的多媒体展示成为关键。电子画册&#xff0c;作为融合了图文、音视频、动画的数字化综合载体&#xff0c;正是当…

作者头像 李华
网站建设 2026/6/10 11:42:11

0xc000007b错误解决:以管理员权限运行OCR镜像容器

0xc000007b错误解决&#xff1a;以管理员权限运行OCR镜像容器 &#x1f4d6; 项目简介 本镜像基于 ModelScope 经典的 CRNN (卷积循环神经网络) 模型构建&#xff0c;专为通用文字识别场景设计。相比于传统轻量级 OCR 模型&#xff0c;CRNN 在处理复杂背景、低分辨率图像和中…

作者头像 李华
网站建设 2026/6/9 22:51:55

电商革命:如何用阿里通义Z-Image-Turbo实现商品图的智能生成

电商革命&#xff1a;如何用阿里通义Z-Image-Turbo实现商品图的智能生成 跨境电商卖家经常面临一个共同的痛点&#xff1a;为不同平台、不同国家/地区的用户制作符合当地审美偏好的商品展示图。传统拍摄方式不仅成本高昂&#xff0c;而且难以快速响应市场需求变化。阿里通义Z-I…

作者头像 李华
网站建设 2026/6/10 11:37:38

AI绘画模型安全指南:Z-Image-Turbo隔离环境快速部署

AI绘画模型安全指南&#xff1a;Z-Image-Turbo隔离环境快速部署 在企业级AI应用场景中&#xff0c;如何安全地测试高性能图像生成模型Z-Image-Turbo而不影响现有系统&#xff1f;本文将详细介绍通过完全隔离的容器化环境快速部署该模型的完整方案。Z-Image-Turbo作为阿里通义实…

作者头像 李华