雾无线接入网络中的资源管理与动态分配
1. 切片F - RAN中的资源管理
1.1 目标问题
为了最小化漂移加惩罚的上界,在时隙t可以解决以下问题:
[
\begin{align}
\min_{ {s_T X_{k,m,n},P_{k,n}}}& V P - \sum_{i = 1}^{K_0} Q_i R_i\
\text{s.t.}& C1 \sim C7
\end{align}
]
上述目标关于优化变量 (s_T X_{k,m,n}) 和 (P_{k,n}) 是非凸的。
1.2 正交和复用子信道策略的解决方案
1.2.1 正交子信道分配下的集中式RL解决方案
为了有效地为用户设备(UE)选择通信模式,提出了一种基于Q学习的方法。为了降低Q表的维度,系统状态定义为 (s = {k_0, s_k|k = 1, 2, \ldots, K_0 + K_1})。只有UE (k_0) 会根据动作重新选择模式,当 (s_k = n + mN) 时,(s_T X_{k,m,n} = 1),表示子信道n已分配给接入F - AP m的UE k。选择动作a后,s中的 (k_0) 和 (s_{k_0}) 会更新,导致状态转移。
Q值的更新规则为:
[Q_{k,m,n} \leftarrow (1 - \alpha)Q_{k,m,n} + \alpha W_{k,m,n}]
其中 (W_{k,m,n}) 表示采用动作a的反馈奖励,(\alpha \in (0, 1)) 表示学习率