Google DeepMind 团队宣布对 Gemini API 的 File Search 工具进行重大扩展,推出多模态支持、自定义元数据过滤和页码级引用三项核心功能更新,助力开发者构建 RAG 系统。
长期以来,RAG 系统检索局限于文本,此次更新引入基于 Gemini Embedding 2 模型的多模态处理能力,能同时理解图像与文本。开发者可用自然语言检索图片,如创意 agency 可按情绪氛围找视觉资产,新模型处理图片文字表现出色。
在大规模数据管理中,检索噪音影响 RAG 效率。Google 推出的自定义元数据功能,允许用户为文件附加键值对标签,查询时通过元数据过滤器限定范围,减少干扰,提升检索速度与结果准确性。
当模型从大型 PDF 文档提取答案时,页码级引用会自动记录索引信息来源页码,用户可直接跳转验证,增强模型可解释性和可信度,对事实核查场景重要。
开发者可通过 google - genai 库快速上手,Google 提供完整开发指南和 API 文档,让开发者将重心转移到应用创新。目前,File Search 三项新功能已向 Gemini API 用户开放。
编辑观点:此次更新增强了 File Search 工具的功能,有望推动 RAG 系统发展,为开发者带来更多便利,也将提升数据处理和检索效率,在相关领域或引发新变革。