news 2026/4/16 12:28:40

shibing624/text2vec-base-chinese中文语义向量模型使用指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
shibing624/text2vec-base-chinese中文语义向量模型使用指南

shibing624/text2vec-base-chinese中文语义向量模型使用指南

【免费下载链接】text2vec-base-chinese项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/text2vec-base-chinese

模型简介

shibing624/text2vec-base-chinese是一个基于CoSENT方法训练的中文句子嵌入模型,能够将句子映射到768维的密集向量空间,适用于句子嵌入、文本匹配和语义搜索等任务。

环境配置

使用该模型前需要安装必要的Python库:

pip install -U text2vec transformers sentence-transformers

基础使用方法

使用text2vec库

from text2vec import SentenceModel # 加载模型 model = SentenceModel('shibing624/text2vec-base-chinese') # 输入句子 sentences = ['如何更换花呗绑定银行卡', '花呗更改绑定银行卡'] # 获取句子嵌入 embeddings = model.encode(sentences) # 打印句子嵌入 print(embeddings)

使用HuggingFace Transformers

from transformers import BertTokenizer, BertModel import torch # 均值池化函数 def mean_pooling(model_output, attention_mask): token_embeddings = model_output[0] input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float() return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9) # 加载模型和分词器 tokenizer = BertTokenizer.from_pretrained('shibing624/text2vec-base-chinese') model = BertModel.from_pretrained('shibing624/text2vec-base-chinese') sentences = ['如何更换花呗绑定银行卡', '花呗更改绑定银行卡'] # 分词处理 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt') # 计算嵌入向量 with torch.no_grad(): model_output = model(**encoded_input) sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask']) print("Sentence embeddings:") print(sentence_embeddings)

使用sentence-transformers

from sentence_transformers import SentenceTransformer model = SentenceTransformer("shibing624/text2vec-base-chinese") sentences = ['如何更换花呗绑定银行卡', '花呗更改绑定银行卡'] sentence_embeddings = model.encode(sentences) print("Sentence embeddings:") print(sentence_embeddings)

性能优化版本

ONNX优化版本(GPU加速)

from sentence_transformers import SentenceTransformer model = SentenceTransformer( "shibing624/text2vec-base-chinese", backend="onnx", model_kwargs={"file_name": "model_O4.onnx"}, ) embeddings = model.encode(["如何更换花呗绑定银行卡", "花呗更改绑定银行卡", "你是谁"]) print(embeddings.shape)

OpenVINO版本(CPU加速)

from sentence_transformers import SentenceTransformer model = SentenceTransformer( "shibing624/text2vec-base-chinese", backend="openvino", ) embeddings = model.encode(["如何更换花呗绑定银行卡", "花呗更改绑定银行卡", "你是谁"]) print(embeddings.shape)

INT8量化版本(CPU极致加速)

from sentence_transformers import SentenceTransformer model = SentenceTransformer( "shibing624/text2vec-base-chinese", backend="onnx", model_kwargs={"file_name": "model_qint8_avx512_vnni.onnx"}, ) embeddings = model.encode(["如何更换花呗绑定银行卡", "花呗更改绑定银行卡", "你是谁"]) print(embeddings.shape)

模型架构

该模型基于以下架构构建:

  • Transformer编码器:基于hfl/chinese-macbert-base预训练模型
  • 池化层:均值池化,输出768维句子向量
  • 最大序列长度:128个token

训练细节

模型在中文自然语言推理数据集shibing624/nli_zh上使用CoSENT方法进行微调,关键训练参数包括:

  • 训练数据集:shibing624/nli_zh
  • 最大序列长度:128
  • 最佳训练轮数:5
  • 句子嵌入维度:768

应用场景

  • 文本相似度计算
  • 语义搜索系统
  • 文档聚类分析
  • 智能问答匹配
  • 信息检索任务

注意事项

  • 输入文本长度超过256个字符会被自动截断
  • 对于不同的硬件环境,可以选择合适的优化版本以获得最佳性能
  • 模型支持中文文本处理,在语义匹配任务中表现优异

性能表现

该模型在多个中文文本匹配基准测试中均表现出色,包括ATEC、BQ、LCQMC、PAWSX、STS-B等数据集,平均性能指标达到51.61。

通过本指南,您可以快速上手使用shibing624/text2vec-base-chinese模型,在实际项目中实现中文文本的语义向量表示。

【免费下载链接】text2vec-base-chinese项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/text2vec-base-chinese

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 1:45:31

终极指南:如何用RenameIt插件彻底解决Sketch图层命名混乱问题

终极指南:如何用RenameIt插件彻底解决Sketch图层命名混乱问题 【免费下载链接】RenameIt Keep your Sketch files organized, batch rename layers and artboards. 项目地址: https://gitcode.com/gh_mirrors/re/RenameIt 你是否曾经面对Sketch文件中杂乱无章…

作者头像 李华
网站建设 2026/4/13 18:15:15

MoneyPrinterPlus AI视频生成器:10分钟打造批量原创短视频的终极指南

还在为制作短视频而烦恼吗?MoneyPrinterPlus这款AI驱动的视频生成工具,让你一键批量制作各类原创短视频内容。通过智能混剪技术,快速打造出海量视频素材,将内容创作效率提升数倍。无论是个人创作者还是团队运营,都能轻…

作者头像 李华
网站建设 2026/4/10 13:13:59

Steam Deck控制器Windows兼容性终极指南:3步解决游戏手柄识别问题

Steam Deck控制器Windows兼容性问题是困扰众多游戏玩家的核心难题。这款开源驱动通过虚拟XBox 360控制器技术,完美解决Steam Deck在Windows系统上的手柄识别和游戏兼容性问题。无论您是想在PC上畅玩3A大作,还是进行日常桌面操作,本指南都将为…

作者头像 李华
网站建设 2026/4/10 11:20:24

终极解决方案:彻底突破Cursor试用限制的完整指南

终极解决方案:彻底突破Cursor试用限制的完整指南 【免费下载链接】go-cursor-help 解决Cursor在免费订阅期间出现以下提示的问题: Youve reached your trial request limit. / Too many free trial accounts used on this machine. Please upgrade to pro. We have …

作者头像 李华
网站建设 2026/4/16 9:07:52

Obsidian知识管理新范式:模板化系统如何重构你的学习效率

Obsidian知识管理新范式:模板化系统如何重构你的学习效率 【免费下载链接】obsidian-template Starter templates for Obsidian 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-template 你是否曾经在翻阅数月前的笔记时,发现那些曾经灵光…

作者头像 李华
网站建设 2026/4/15 22:21:54

Spark大数据处理:5个你必须掌握的实战技巧

想要快速上手Spark大数据处理?别被那些复杂的技术文档吓到!其实Spark就像是你数据处理工具箱里的多用途工具,功能强大却使用简单。今天我就带你用5个实用技巧,从零开始玩转Spark大数据处理。 【免费下载链接】spark-doc-zh Apache…

作者头像 李华