GBase 8a集群业务及资源使用情况分析方法总结-编程阁

重点从集群任务、系统资源、集群状态及变量三方面进行分析。

重点对并发任务数较高、资源使用率较高的集群进行分析；

定期抽取集群任务趋势数据、审计日志，分析任务数趋势、重点观察高并发任务数时点及趋势，分析不同类型/用户等维度的任务分布情况、任务总体的耗时情况；

定期对TOP任务(超时SQL、大SQL)进行分析优化；

不定期对特定应用、用户反馈的脚本等进行专项分析优化；

主要分析内容包括：

1)任务趋势分析

2)任务分类统计分析

3)TOP任务分析

4)专项任务分析

集群任务数趋势可通过集群监控系统获取，SQL任务统计数据通过审计日志获取，需要部署相关的监控及设置审计日志归档，此处不冗述。

部署nmon监控，定期抽取集群节点的nmon日志，重点观察CPU使用率趋势、磁盘Disk Busy趋势、Swap使用率趋势，看是否存在瓶颈。

定期分析，重点观察集群线程数、堆内存使用率的趋势，针对性优化。

分析结束后，需要输出集群优化分析记录，主要内容包括：集群应用场景、集群任务并发情况、集群任务耗时情况、系统资源使用情况、集群优化举措，举例如下：

6点至14点集群较活跃，9点至12点任务数较大，约在100至150之间，少数时点会超过150接近180，其他时段任务数基本在50以下；

SELECT任务占大头，全天约700万，其次是insert（66万）和delete（19万），gbinst1用户任务占绝对多数，99.8%的SELECT在3秒以内，超过60秒的很少，90%的INSERT在3秒以内，93%的DELETE在3秒以内；

CPU使用率平均约25%，最大约90%，6点至12点CPU使用率较高，有少数时点接近90%，DiskBusy最高不超过60%，其他资源无明显瓶颈；

业务场景偏向高频、高并发小数据量操作，除了相对简单的统计查询（较集市集群而言），还有一些单表频繁增删改的场景，集群IO资源是关键，当IO资源不足时，增删改业务容易变慢积压。

建议的优化方法如下：

降低gbinst1等用户的Insert/delete/update执行频率，优化单条insert/delete/update为攒批模式。
大部分查询SQL使用了多表关联、union、order by等运算，过于复杂，高并发场景下会占用过多CPU资源。对于高并发、高响应要求的场景，根据业界经验，应当尽量简化SQL（最好是单表、如能避免排序最佳）。
尽量减小表的数据规模，以尽量较少查询复杂度，降低SQL的资源消耗，从而增加并发能力。
部分表规模太大，也会消耗过多的计算资源，应尽量减小单表数据量，定期清理历史数据，或按账期分拆建表。

第一章：Open-AutoGLM 人机协同操作新模式Open-AutoGLM 是一种基于大语言模型与自动化执行框架深度融合的人机协同系统，旨在通过自然语言指令驱动复杂任务的自动执行。该模式打破了传统脚本化操作的壁垒，使用户能够以对话形式完成部署、调试与…

李华

第一章：3大信号揭示语义关联失效的本质在现代自然语言处理系统中，语义关联的稳定性直接影响模型推理的准确性。当语义结构出现断裂或偏差时，系统往往表现出难以察觉却影响深远的异常行为。以下是三种典型信号，揭示了语义关联失效的…

李华

第一章：视觉模型训练成本太高？动态剪枝的破局之道在深度学习领域，视觉模型的性能提升往往伴随着计算资源的急剧增长。大型卷积神经网络和视觉Transformer虽然在图像分类、目标检测等任务中表现出色，但其高昂的训练与推理成本限制了…

李华

第一章：Open-AutoGLM内存碎片清理全揭秘在大规模语言模型推理过程中，Open-AutoGLM 会频繁申请与释放显存，导致 GPU 内存碎片化问题日益严重，直接影响推理吞吐与响应延迟。内存碎片分为外部碎片与内部碎片：外部碎片指空…

李华

第一章：Open-AutoGLM计算资源动态分配概述在大规模语言模型训练与推理场景中，Open-AutoGLM 通过智能调度机制实现计算资源的动态分配，显著提升集群利用率与任务响应效率。系统根据实时负载、任务优先级和硬件拓扑结构自动调整 GPU、内存与通信…

李华

题目描述 32. 最长有效括号 - 力扣（LeetCode） 给你一个只包含 ( 和 ) 的字符串，找出最长有效（格式正确且连续）括号子串的长度。左右括号匹配，即每个左括号都有对应的右括号将其闭合的字符串是格式正确…

李华