news 2026/5/17 2:39:48

OpenClaw技能扩展实战:用Gemma-3-12b-it构建会议纪要生成器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenClaw技能扩展实战:用Gemma-3-12b-it构建会议纪要生成器

OpenClaw技能扩展实战:用Gemma-3-12b-it构建会议纪要生成器

1. 为什么需要自动化会议纪要

每次开完会最头疼的事情是什么?对我来说就是整理会议纪要。作为团队里经常主持会议的人,我试过各种方法:手动记录关键词、用录音笔事后回听、甚至让同事轮流做纪要。但这些方法要么漏掉关键信息,要么耗费大量时间。

直到上个月在调试OpenClaw的音频处理功能时,我突然想到:能不能让AI自动完成录音转写、信息提取和格式整理的全流程?经过两周的折腾,终于用Gemma-3-12b-it模型搭建出一套可用的自动化方案。现在每次会议结束后5分钟内,飞书群里就会自动出现结构化会议纪要的草稿。

2. 技术方案设计思路

2.1 核心组件选型

这个方案需要三个关键组件协同工作:

  1. 音频采集模块:使用ClawHub社区的audio-transcriber技能包,支持实时录音和语音转文字
  2. 信息处理模块:调用本地部署的Gemma-3-12b-it模型,从转写文本中提取结构化信息
  3. 输出交付模块:通过飞书机器人将生成的Markdown纪要推送到指定群聊

选择Gemma-3-12b-it是因为它的指令微调特性。在测试中发现,相比基础版模型,它对"提取关键决议"、"识别待办事项"这类任务的理解更精准,且12B参数量的模型在我的开发机上(RTX 3090)能流畅运行。

2.2 工作流设计

整个自动化流程分为四个阶段:

  1. 会议录音阶段:通过audio-transcriber技能持续录制会议音频
  2. 文本转写阶段:会议结束后自动调用Whisper模型进行语音转文字
  3. 信息提取阶段:将转写文本发送给Gemma模型,提取以下结构化信息:
    • 会议主题
    • 关键讨论点
    • 达成的决议
    • 待办事项(含负责人和截止时间)
  4. 格式整理与推送:将模型输出转换为Markdown格式,通过飞书机器人发送

3. 具体实现步骤

3.1 基础环境准备

首先确保已部署好OpenClaw核心服务,并配置了飞书通道。我的环境是Ubuntu 22.04 + OpenClaw v1.3.2,飞书机器人采用WebSocket连接方式。

# 检查OpenClaw版本 openclaw --version # 查看已安装插件 openclaw plugins list

3.2 安装音频处理技能

通过ClawHub安装audio-transcriber技能包:

clawhub install audio-transcriber # 安装后需要重启网关 openclaw gateway restart

这个技能包依赖PyAudio和Whisper模型。安装过程中会自动下载约1.4GB的模型文件,建议保持网络畅通。

3.3 配置Gemma模型接入

~/.openclaw/openclaw.json中添加Gemma模型配置:

{ "models": { "providers": { "local-gemma": { "baseUrl": "http://localhost:5000/v1", "apiKey": "sk-no-key-required", "api": "openai-completions", "models": [ { "id": "gemma-3-12b-it", "name": "Gemma 3 12B Instruct", "contextWindow": 8192, "maxTokens": 4096 } ] } } } }

这里假设Gemma模型服务运行在本地5000端口。我使用的是星图平台的Gemma镜像,启动命令如下:

docker run -p 5000:5000 --gpus all gemma-3-12b-it-webui --api --model gemma-3-12b-it

3.4 创建自动化任务脚本

在OpenClaw的工作目录下创建meeting_miner.py

from openclaw.skills.audio_transcriber import MeetingRecorder from openclaw.utils import markdown_formatter def process_meeting(): # 1. 录制会议 recorder = MeetingRecorder() audio_file = recorder.record(duration_minutes=60) # 2. 语音转文字 transcript = recorder.transcribe(audio_file) # 3. 调用Gemma提取关键信息 prompt = f"""请从以下会议记录中提取: 1. 会议主题(单行总结) 2. 3-5个关键讨论点(带序号列表) 3. 达成的决议(每个决议包含执行人和截止时间) 4. 待办事项(格式:[负责人] 任务内容 @截止时间) 会议记录:{transcript}""" analysis = openclaw.models.complete( model="gemma-3-12b-it", prompt=prompt, max_tokens=1024 ) # 4. 格式化为Markdown md_content = markdown_formatter(analysis) # 5. 通过飞书发送 openclaw.channels.feishu.send_markdown( title="会议纪要草稿", content=md_content, group_id="your_chat_id" )

3.5 设置触发方式

有两种方式可以触发这个自动化流程:

  1. 手动触发:在OpenClaw控制台直接运行Python脚本
  2. 自动触发:通过飞书机器人命令,比如发送"开始记录会议"

我选择了第二种方式,需要在飞书开放平台配置自定义指令:

{ "commands": [ { "name": "record_meeting", "description": "开始记录会议并生成纪要", "handler": "meeting_miner.process_meeting" } ] }

4. 实际效果与优化

4.1 生成示例

上周三的产品评审会测试了这套系统,生成的Markdown纪要包含:

# 产品V2.3版本评审会 ## 关键讨论点 1. 用户反馈新界面学习成本较高 2. 导出PDF功能性能瓶颈 3. 移动端适配进度滞后 ## 决议事项 - [前端组] 增加新手引导流程 @2024-05-30 - [后端组] 优化PDF生成算法 @2024-05-25 ## 待办事项 - [设计师] 提供简化版界面方案 @2024-05-20 - [测试] 完成移动端回归测试 @2024-05-22

4.2 遇到的坑与解决方案

问题1:转写文本分段混乱初期直接使用原始转写文本时,Gemma经常把不同人的发言内容混淆。解决方案是在发送给模型前,先用简单的正则表达式按时间戳分段:

# 在process_meeting()中添加 segments = re.split(r'\[\d{2}:\d{2}\]', transcript) clean_transcript = "\n".join([f"发言{i}: {s.strip()}" for i,s in enumerate(segments)])

问题2:待办事项识别不准Gemma有时会把普通讨论误判为待办项。通过改进prompt engineering解决:

prompt = f"""...(前略)... 待办事项识别规则: - 必须包含明确的责任人(在方括号内) - 必须包含具体可执行的动作 - 必须有明确的截止时间(@开头) """

5. 方案适用边界

经过一个月的使用,我发现这个方案最适合以下场景:

  • 5-8人规模的团队会议
  • 60分钟以内的会议时长
  • 有明确议程的结构化讨论

而对于以下情况效果会打折扣:

  • 多人同时发言的头脑风暴
  • 涉及大量专业术语的技术评审
  • 需要保留完整发言记录的法律会议

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 23:43:55

OpenClaw安全审计助手:SecGPT-14B自动解析防火墙规则与策略建议

OpenClaw安全审计助手:SecGPT-14B自动解析防火墙规则与策略建议 1. 为什么需要自动化防火墙审计 每次面对密密麻麻的防火墙规则表时,我总有种面对天书的感觉。作为运维人员,最头疼的就是在数百条规则中找出那条导致业务异常的配置。传统方法…

作者头像 李华
网站建设 2026/5/3 1:43:37

ST7567S LCD轻量驱动库:I²C兼容与低功耗嵌入式显示方案

1. 项目概述st7567sfGK 是一款专为 Generation Klick 硬件平台优化的轻量级 ST7567S LCD 驱动库,面向 Arduino 生态系统设计,支持 ESP32 和 ESP8266 等主流 3.3V MCU 平台。该库针对 12864 像素单色点阵液晶屏(黑白显示)实现 IC 接…

作者头像 李华
网站建设 2026/4/13 6:05:48

用OpenCV 4.8.0和C++从零搭建增量式三维重建系统(附完整源码与避坑指南)

从零构建三维重建系统:OpenCV 4.8.0与C实战指南 三维重建技术正在重塑我们与数字世界的交互方式。想象一下,仅凭几张普通照片就能重建出物体的三维模型——这正是计算机视觉领域最激动人心的应用之一。本文将带你用OpenCV 4.8.0和C实现一个完整的增量式三…

作者头像 李华
网站建设 2026/5/1 2:22:46

OpenClaw+SecGPT-14B黄金组合:自动化渗透测试报告生成术

OpenClawSecGPT-14B黄金组合:自动化渗透测试报告生成术 1. 为什么需要自动化渗透测试报告 作为安全工程师,每次渗透测试最头疼的不是漏洞挖掘,而是写报告。记得上个月连续三天熬夜整理某金融系统的测试结果,光是手动截图、标注风…

作者头像 李华