news 2026/4/16 13:54:59

计算机基础·cs336·MoE

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
计算机基础·cs336·MoE

MoE 混合专家

核心思想

混合专家模型(Mixture of Experts,MoE)是一种先进的神经网络架构,旨在通过整合多个模型或“专家”的预测来提升整体模型性能。MoE模型的核心思想是将输入数据分配给不同的专家子模型,然后将所有子模型的输出进行合并,以生成最终结果。这种分配可以根据输入数据的特征进行动态调整,确保每个专家处理其最擅长的数据类型或任务方面,从而实现更高效、准确的预测。

优势

  • 模型索然很大,但是推理速度快。例如同样的FLOPs,由于只激活少数专家,实际激活参数量比较低,推理速度比同样参数的密集模型快,而且可以得到更好的结果
  • 训练起来不像密集架构那样全部参数都要训练,只有少数专家激活并参与训练
  • 分布式架构:专家可以分配到不同设备上去。

劣势

  • 理论上分布式,在缺乏分布式节点和计算设备时比较鸡肋
  • 训练不稳定:路由算法往往不可微分,路由算法的学习不稳定。

MoE的基本原理

MoE的架构

  • 多个不同的MLPvs 多个不同的 Transformer头
  • 注意:为了确保参数量不会爆炸,MLP的d_ff通常会大幅度减小,甚至比d_model还小

路由算法

  • 基本分类:为每一个token选专家vs 为每一个专家选token
  • 通常是为每一个token选专家:具体策略可以分类为 随机选择,RL算法,TOPK,哈希法。

TOPK算法

  • 基本思想:将路由器认为是一个简单的MLP,给定token x,映射为专家选择的概率s,选择前K个专家。
  • 将专家计算的结果和选择概率加权求和与原输入残差链接。

路由选择函数的训练目标(损失函数)

  • 核心思想:避免只选择特定专家和设备
  • fif_ifi:统计所有batch/设备中实际选择专家i的比例
  • PiP_iPi:统计所有batch/设备中路由器选择专家i的概率(想选择专家i的比例)
  • 惩罚路由器想选择专家i且实际选择专家i的情况

  • 直接对于softmax分数进行显示调整的方法:
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 17:47:57

测试文件所使用的依赖

依赖如下&#xff1a;<dependency><groupId>org.junit.jupiter</groupId><artifactId>junit-jupiter</artifactId></dependency>测试文件&#xff1a;package org.example.simplemybatis3.service;// src/main/java/com/example/TestInMai…

作者头像 李华
网站建设 2026/4/5 14:41:20

告别条码错误:信创RFID资产管理系统如何实现零失误管理

条码管理瓶颈凸显&#xff0c;资产管控亟需技术升级企业资产管理中&#xff0c;条码识别曾是主流方案&#xff0c;但在高频流转、批量盘点等场景中&#xff0c;固有缺陷逐渐成为效率与准确性的桎梏。条码识别依赖光学扫描&#xff0c;需满足“视线可见”“近距离对准”双重条件…

作者头像 李华
网站建设 2026/4/13 12:24:51

Bootstrap5 轮播

Bootstrap5 轮播 Bootstrap 是一个流行的前端框架,它简化了网页设计和开发。Bootstrap5 作为其最新版本,提供了丰富的组件和工具,其中轮播组件(Carousel)是网页设计中常见的功能。本文将详细介绍 Bootstrap5 的轮播组件,包括其基本用法、配置选项以及如何自定义轮播效果…

作者头像 李华
网站建设 2026/4/13 22:21:31

Web 标准

Web 标准 引言 随着互联网技术的飞速发展,Web 标准(Web Standard)已经成为互联网领域的基础和核心。本文将详细介绍Web标准的概念、重要性以及在我国的发展现状。 一、Web 标准的概念 Web标准是指一系列用于构建互联网内容的规范,包括HTML、CSS、JavaScript等技术规范。…

作者头像 李华