Linux sched_core核心调度cookie匹配与强制idle
sched_core是CONFIG_SCHED_CORE引入的SMT同步调度机制,解决超线程环境下同核两个硬件线程执行不同trust domain任务的侧信道安全问题。每个task_struct携带一个unsigned long cookie(core_cookie),通过prctl(PR_SET_CORE_SCHED_CTX)或cgroup的cpu.core_tag接口设置。核心调度决策的核心约束是:同一个物理核心上的两个硬件线程(CPU)必须同时运行cookie相同的任务,否则其中一个线程必须强制idle。
```c
struct task_struct {
#ifdef CONFIG_SCHED_CORE
unsigned long core_cookie; /* 核心调度cookie */
#endif
};
struct rq {
#ifdef CONFIG_SCHED_CORE
unsigned int core_enabled; /* 该CPU是否开启了核心调度 */
unsigned int core_forceidle; /* 是否处于强制idle状态 */
unsigned int core_forceidle_occupation;
struct cpumask *core_pick_mask; /* 已挑选的任务集合 */
#endif
};
```
核心调度的任务选择入口在__schedule()的pick_next_task()中。标准pick_next_task经过stop_sched_class -> idle_sched_class -> ... -> fair_sched_class的优先级遍历,在sched_core模式下被替换为sched_core_pick_next_task()。该函数为同一个物理核心上的每个CPU选择任务时,强制校验cookie匹配约束。
```c
#ifdef CONFIG_SCHED_CORE
static struct task_struct *
sched_core_pick_next_task(struct rq *rq)
{
struct task_struct *next, *p;
struct rq *core_rq;
int cpu, core_cpu = cpu_of(rq);
if (!rq->core_enabled)
return pick_next_task(rq);
core_rq = rq->core_rq; /* 指向同核master rq */
if (rq != core_rq)
return core_rq->core_pick_task; /* 从伙伴CPU的pick结果获取 */
/* master CPU负责为整个核心做cookie匹配 */
for_each_cpu_and(cpu, cpu_smt_mask(core_cpu), cpu_online_mask) {
struct rq *sibling_rq = cpu_rq(cpu);
struct task_struct *sibling_curr = sibling_rq->curr;
/* 优先选择cookie匹配的任务 */
next = pick_next_task(sibling_rq);
if (next && next->core_cookie != sibling_curr->core_cookie) {
/* cookie不匹配:查找匹配cookie的任务 */
for_each_class(class) {
p = class->pick_task(sibling_rq);
if (p && p->core_cookie == sibling_curr->core_cookie) {
next = p;
break;
}
}
}
if (!next || next->core_cookie != core_rq->core_pick_cookie) {
/* 找不到匹配cookie的任务,强制idle */
next = idle_sched_class.pick_task(sibling_rq);
sibling_rq->core_forceidle = 1;
}
__set_bit(cpu, core_rq->core_pick_mask);
core_rq->core_pick_task = next;
}
return core_rq->core_pick_task;
}
```
sched_core强制idle的触发条件是:一个CPU选择了某个cookie的任务,但核心上其他CPU在各自runqueue中都找不到相同cookie的可运行任务。此时pick_result中的core_forceidle被置位。强制idle状态下,当前CPU的实际C-state不会进入深睡眠(因为核心上的另一个线程还在运行共享L1 cache),idle thread通过play_dead或mwait的c1e浅睡眠轮询等待cookie匹配的任务到达。
```c
/*
* sched_core的核心选择逻辑——pick_task迭代所有调度类
* 返回与给定cookie匹配的任务,找不到则返回NULL
*/
for_each_class(class) {
p = class->pick_task(rq);
if (p && (!cookie || p->core_cookie == cookie)) {
if (cookie)
cookie_found = true;
next = p;
break;
}
}
/* 如果找不到匹配cookie的任务,强制idle */
if (cookie && !cookie_found) {
rq->core_forceidle = 1;
next = idle_sched_class.pick_task(rq);
}
```
cookie匹配的粒度是per-task。当任务通过execve()执行新程序时,core_cookie不会被清除——它继承自父进程的prctl设置。但set_user()或seccomp事件可能通过security_task_alloc()钩子重置cookie。一个常见竞态是:核心上的CPU0持有cookie A的任务正在运行,CPU1的任务完成IO后wakeup但其cookie为B。此时CPU1在scheduler_tick的resched路径中检查到core力core_forceidle标记,选择idle线程。但CPU1的__schedule()需要等待CPU0先完成当前调度周期——因为sched_core要求核心上所有CPU的pick_task在同一个rq->lock临界区内进行。
core scheduler的deactivation路径也涉及cookie检查。当任务调用deactivate_task()(如退出或阻塞)时,如果该任务是核心上最后一个携带特定cookie的任务,则核心上所有CPU必须被重新pick_task——否则另一个CPU可能仍然拿着该cookie的idle强制并在等待一个已退出的任务。dequeue_task中通过sched_core_dequeue()检查是否需要触发core re-pick:
```c
static inline void sched_core_dequeue(struct rq *rq, struct task_struct *p)
{
if (!sched_core_enabled(rq))
return;
/*
* 如果该任务是当前核心上该cookie的唯一任务,
* 标记core resched让所有CPU重新pick
*/
if (p->core_cookie && task_on_rq_queued(p)) {
struct task_struct *tmp;
bool last = true;
for_each_online_cpu(cpu) {
if (cpu == cpu_of(rq))
continue;
tmp = cpu_rq(cpu)->curr;
if (tmp->core_cookie == p->core_cookie && task_on_rq_queued(tmp)) {
last = false;
break;
}
}
if (last || rq->core_forceidle) {
/* 唤醒所有SMT兄弟CPU重新选择 */
smt_mask = cpu_smt_mask(cpu_of(rq));
for_each_cpu_and(i, smt_mask, cpu_online_mask)
resched_curr(cpu_rq(i));
}
}
}
```
sched_core的migration偏移处理存在一个显著性能折衷。当任务从cookie A的CPU migrate到cookie B的CPU时(通过load balance),它必须等待核心上其他所有CPU的当前任务完成——因为pick_next_task时无法在同一核心上混合不同cookie。社区解决方向是引入core-wide wakeup,即wakeup路径检测到目标核心上正在运行不同cookie的任务时,不立即唤醒而延迟到核心空闲。这通过TTWU_QUEUED -> try_steal_cookie机制实现,但仍处于experimental状态。
另一个边界条件涉及PI优先级继承。持有mutex的任务cookie为A但被cookie B的高优先级任务等待时,核心调度无法直接进行——因为mutex unlock发生在不同cookie的上下文。sched_core通过core_waiters计数器追踪:当核心上等待锁的线程与持有者cookie不同时,强制idle策略不应生效(任务必须运行才能释放锁),否则会导致ABBA死锁。
Linux sched_core核心调度cookie匹配与强制idle
张小明
前端开发工程师
5G通信与数据中心加速中的10AX066H4F34I3SG:48路收发器Arria 10 FPGA应用解析
10AX066H4F34I3SG:Intel Arria 10 GX系列高性能FPGA深度解析在现代通信基础设施、数据中心加速、广播视频以及各类对性能和功耗有综合要求的高端嵌入式应用中,FPGA的选型往往需要在逻辑容量、收发器性能和系统成本之间寻求最佳平衡。Intel(原…
终极指南:如何让Windows任务栏变得透明美观
终极指南:如何让Windows任务栏变得透明美观 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 你是否对Windows系统一成不变的任…
终极Mac鼠标优化指南:让普通鼠标超越苹果触控板的5个专业技巧
终极Mac鼠标优化指南:让普通鼠标超越苹果触控板的5个专业技巧 【免费下载链接】mac-mouse-fix Mac Mouse Fix - Make Your $10 Mouse Better Than an Apple Trackpad! 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 还在为macOS上第三方鼠…
深圳市企业技术改造项目扶持计划申请与受理的工作程序
一、深圳市企业技术改造项目扶持计划两大审核环节项目扶持计划的组织实施,分组织申请与受理、审核与核准两大审核环节。属于“免申即享”的项目类别可在年度项目扶持计划的申报指南中明确采用“免申即享”的方式实施。二、深圳市企业技术改造项目扶持计划组织申请与…
架构 - 知识体系详解
如何学习架构 # 架构高并发和高可用 架构高并发和高可用技术点主要包含如下方面。 # 架构的安全 此外还需要关注下架构的安全。 包含如何学习架构? 基础到方法论 包括架构的概述,特点,目标,本质以及方法论等 架构 - 架构基础: 特点,本质... 本节总结下架构相关的基础知识:…
InstructPix2Pix终极指南:用自然语言指令重塑图像的完整实践手册
InstructPix2Pix终极指南:用自然语言指令重塑图像的完整实践手册 【免费下载链接】instruct-pix2pix 项目地址: https://gitcode.com/gh_mirrors/in/instruct-pix2pix 想象一下,你只需对一张照片说"把它变成梵高风格的油画"࿰…