news 2026/4/16 16:20:04

Agent学习——小米MiMo-V2-Flash使用方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agent学习——小米MiMo-V2-Flash使用方法

一、MiMo-V2-Flash的亮点
①API 定价为输入$0.1/M tokens,输出$0.3/M tokens,且目前限时免费,推理成本仅为Claude 4.5 Sonnet的2.5%。

②在多个Agent测评基准中保持全球开源模型Top 2,代码能力强。

③使用场景多为智能通场景设计,支持深度思考和联网搜索。

④架构上使用混合注意力机制和多层MTP进行推理加速。

⑤模型权重和推理代码使用的是MIT协议,适用商业场景。

二、技术剖析

①窗口大小为128

②原生支持32K上下文,外扩技术支持可达256K的上下文处理

多层MIT推理加速,并行效率倍增

三、在线体验

①体验链接:https://aistudio.xiaomimimo.com

②API地址(限时免费哦!各位白嫖党抓紧机会!!!):https://platform.xiaomimimo.com/

③收费定价:输入 $0.1/M tokens,输出 $0.3/M tokens

③本地部署:

a.模型权重:https://hf.co/XiaomiMiMo/MiMo-V2-Flash

b.GitHub仓库:https://github.com/xiaomimimo/MiMo-V2-Flash

四、模型效果

从公布的基准测试图中看,性能上有了些许提升,主要的提升应该还是在Agent场景、推理效率的提升和价格吧!但是目前架不住他免费呀!!!

五、调用方法

由于MiMo-V2-Flash 已封装成 OpenAI-Compatible HTTP 服务,启动后直接用OpenAI SDK 或curl -i http://localhost:9001/v1/chat/completions,模型路径、推理参数全部在启动命令里一次性配好,无需再写 .from_pretrained()。以下是四种不同场景的调用方式:

# ①启动服务 pip install sglang python3 -m sglang.launch_server \ --model-path XiaomiMiMo/MiMo-V2-Flash \ --served-model-name mimo-v2-flash \ --tp-size 8 --trust-remote-code \ --host 0.0.0.0 --port 9001 # ②API调用 from openai import OpenAI client = OpenAI(base_url="http://localhost:9001/v1", api_key="dummy") response = client.chat.completions.create( model="mimo-v2-flash", messages=[{"role": "user", "content": "Nice to meet you MiMo"}], max_tokens=4096, temperature=0.8, top_p=0.95, stream=True, extra_body={"chat_template_kwargs": {"enable_thinking": True}} ) for chunk in response: print(chunk.choices[0].delta.content or "", end="") # ③curl方式 curl http://localhost:9001/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "mimo-v2-flash", "messages": [{"role": "user", "content": "Nice to meet you MiMo"}], "max_tokens": 4096, "temperature": 0.8, "top_p": 0.95, "stream": true, "chat_template_kwargs": {"enable_thinking": true} }' # ④JaveScript方式 const { OpenAI } = require('openai'); const client = new OpenAI({ baseURL: 'http://localhost:9001/v1', apiKey: 'dummy' }); const stream = await client.chat.completions.create({ model: 'mimo-v2-flash', messages: [{ role: 'user', content: 'Nice to meet you MiMo' }], max_tokens: 4096, temperature: 0.8, top_p: 0.95, stream: true, chat_template_kwargs: { enable_thinking: true } }); for await (const chunk of stream) { process.stdout.write(chunk.choices[0]?.delta?.content || ''); }

使用流程:启动服务一次 → 拿到 http://localhost:9001/v1 → 当成 OpenAI 接口 用即可,模型、推理参数全部在启动命令里配置完成,无需再加载模型或写 .from_pretrained(

重要的事情说三遍:限时免费!限时免费!!限时免费!!!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:05:35

safe_sleep.sh: GitHub Actions Runner 中那个偶尔无限挂起的“小睡眠”脚本

在 GitHub Actions Runner 代码库里,有一个看似简单的 Bash 脚本——safe_sleep.sh,它负责让 Runner 在某些场景下“安全地睡眠”一段时间。但这个小脚本却因为一个 subtle 的逻辑缺陷,让许多开发者和 CI 系统管理员困扰不已,甚至…

作者头像 李华
网站建设 2026/4/15 12:36:14

SiYuan知识管理终极指南:从零开始搭建个人知识库

SiYuan知识管理终极指南:从零开始搭建个人知识库 【免费下载链接】siyuan A privacy-first, self-hosted, fully open source personal knowledge management software, written in typescript and golang. 项目地址: https://gitcode.com/GitHub_Trending/si/siy…

作者头像 李华
网站建设 2026/4/16 12:15:01

从0到1:东南亚跑腿配送平台的技术架构

东南亚已成为全球增长最快的数字经济体之一。根据谷歌、淡马锡和贝恩公司联合发布的报告,东南亚互联网经济规模预计在2025年将达到3630亿美元。在这个蓬勃发展的市场中,跑腿配送服务作为“最后一公里”解决方案的核心环节,正吸引着大量创业者…

作者头像 李华
网站建设 2026/4/15 14:06:30

pgvector Windows环境完整安装指南:快速搭建向量搜索系统

pgvector Windows环境完整安装指南:快速搭建向量搜索系统 【免费下载链接】pgvector Open-source vector similarity search for Postgres 项目地址: https://gitcode.com/GitHub_Trending/pg/pgvector PostgreSQL pgvector扩展为数据库提供了强大的向量相似…

作者头像 李华
网站建设 2026/4/16 9:21:47

Cap开源录屏工具:告别复杂设置,一键开启专业级录制体验

Cap开源录屏工具:告别复杂设置,一键开启专业级录制体验 【免费下载链接】Cap Effortless, instant screen sharing. Open-source and cross-platform. 项目地址: https://gitcode.com/GitHub_Trending/cap1/Cap 还在为录制屏幕视频而烦恼吗&#…

作者头像 李华