CiteSpace关键词聚类分析实战：AI辅助下的高效解读与可视化-编程阁

CiteSpace关键词聚类分析实战：AI辅助下的高效解读与可视化

1. 背景与痛点：为什么聚类图越看越懵

第一次把CiteSpace跑完，看到那张五颜六色的“关键词聚类时间线”时，我的表情是：这谁看得懂？

节点标签全是缩写，像“DL”“ML”“NLP”混一起，分不清谁是谁
聚类ID从0到十几，颜色渐变像彩虹糖，却没人告诉我“0号聚类”到底研究啥
手动翻原始文献对关键词，一篇篇点进去，三天过去Excel才填一半，老板已经催周报

痛点总结：

人工解读慢——聚类动辄上百节点，靠肉眼归类效率低
标签歧义高——CiteSpace默认用LLR算法抽关键词，可能把“network”同时丢进三个聚类
趋势难捕捉——时间切片一多，颜色叠成“梵高的星空”，却看不出热点迁移

于是我把目光投向AI：既然大模型擅长读文本、图神经网络擅长玩关系，能不能让它们替我“读图”？

2. 技术方案：让AI当“翻译官”

整体思路一句话：先用NLP给每个聚类生成“人话标题”，再用图神经网络(GNN)把关系图增强成可交互的“知识地图”。

2.1 自然语言处理：聚类标签自动生成

输入：CiteSpace的“cluster”文件夹里.txt关键词列表
做法：
1. 把每个聚类的高频关键词拼成一段伪摘要
2. 调用Sentence-BERT（基于SciBERT，在Semantic Scholar上预训练）做embedding
3. 用GPT-3.5-turbo做zero-shot prompt：“请用8个字概括以下关键词代表的研究主题”
输出：一条中文短语，例如“图神经网络在交通预测中的应用”

2.2 图神经网络：可视化增强

节点特征：关键词的BERT embedding（300维）
边权重：共现次数 + 余弦相似度
模型：直接拿PyTorch Geometric的GraphSAGE，训练二分类任务——“该边是否跨聚类”
目的：让模型学出“哪些边其实可以合并”，从而把冗余边淡化，突出主干路径
结果：在Plotly里把“模型置信度<0.3”的边设成透明，图立刻清爽

3. 实现细节：30行代码跑通全流程

下面代码全部开源依赖，Python≥3.8，CPU也能跑。

3.1 环境准备

pip install pandas sentence-transformers openai torch torchvision torchaudio \ torch-geometric plotly pyvis

3.2 解析CiteSpace输出

CiteSpace导出“Project”后，在path/to/project/cluster里能看到cluster_0.txt、cluster_1.txt……每行是关键词+频次。

from pathlib import Path import pandas as pd cluster_dir = Path("path/to/project/cluster") clusters = {} for file in cluster_dir.glob("cluster_*.txt"): cid = int(file.stem.split("_")[1]) lines = file.read_text(encoding="utf-8").splitlines() kw = [l.split("\t")[0] for l in lines if l.strip()] clusters[cid] = kw

3.3 自动生成聚类标签

from sentence_transformers import SentenceTransformer from openai import OpenAI st = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2") client = OpenAI() def generate_label(kw_list, topK=10): text = "；".join(kw_list[:topK]) prompt = f"用8个汉字概括以下关键词代表的研究主题：{text}" res = client.chat.completions.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": prompt}] ) return res.choices[0].message.content.strip() labels = {cid: generate_label(kws) for cid, kws in clusters.items()}

3.4 构建图并训练GNN

import torch from torch_geometric.data import Data from torch_geometric.nn import GraphSAGE import numpy as np # 1. 节点列表：所有关键词去重 all_kw = sorted({kw for v in clusters.values() for kw in v}) kw2id = {w: i for i, w in enumerate(all_kw)} embeds = st.encode(all_kw, convert_to_numpy=False).cpu() # 2. 边：共现>5的聚类内关键词 edge_index, edge_weight = [], [] for cid, kws in clusters.items(): for i, w1 in enumerate(kws): for w2 in kws[i+1:]: edge_index.append([kw2id[w1], kw2id[w2]]) edge_weight.append(1) # 可换成真实共现次数 edge_index = torch.tensor(edge_index, dtype=torch.long).t().t().contiguous() edge_weight = torch.tensor(edge_weight, dtype=torch.float) # 3. 训练二分类：同一聚类=1，跨聚类=0 y = [] for e in edge_index.t(): c1 = next((c for c, lst in clusters.items() if all_kw[e[0]] in lst), -1) c2 = next((c for c, lst in clusters.items() if all_kw[e[1]] in lst), -1) y.append(1.0 if c1 == c2 else 0.0) y = torch.tensor(y).unsqueeze(1) data = Data(x=embeds, edge_index=edge_index.t().contiguous(), y=y) class Model(torch.nn.Module): def __init__(self, hidden=64): super().__init__() self.gnn = GraphSAGE(data.x.shape[1], hidden, 2) self.fc = torch.nn.Linear(hidden, 1) def forward(self, x, edge_index): x = self.gnn(x, edge_index).relu() return torch.sigmoid(self.fc(x)) device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = Model().to(device) optimizer = torch.optim.Adam(model.parameters(), lr=0.01) criterion = torch.nn.BCEWithLogitsLoss() for epoch in range(100): model.train() optimizer.zero_grad() out = model(data.x.to(device), data.edge_index.to(device)) loss = criterion(out, data.y.to(device)) loss.backward() optimizer.step()

3.5 保存边置信度供可视化

model.eval() with torch.no_grad(): prob = model(data.x.to(device), data.edge_index.to(device)).cpu().numpy().flatten() edge_conf = dict(zip(range(edge_index.shape[0]), prob))

4. 可视化实践：交互式网络图

用PyVis快速搭一个可拖拽的网页，边透明度按GNN置信度调整。

from pyvis.network import Network import random g = Network(height="800px", width="100%", bgcolor="#ffffff", font_color="black") # 加节点 for kw, i in kw2id.items(): cid = next((c for c, lst in clusters.items() if kw in lst), 0) g.add_node(i, label=kw, group=cid) # 加边 for idx, (u, v) in enumerate(edge_index): conf = edge_conf[idx] g.add_edge(u, v, value=float(conf), title=f"conf={conf:.2f}", color=f"rgba(100,100,100,{conf})") # 透明度=置信度 # 物理引擎调参 g.barnes_hut(gravity=-8000, central_gravity=0.3, spring_length=50) g.show("ai_enhanced_cluster.html")

浏览器打开ai_enhanced_cluster.html，拖动任意节点，边线越实表示GNN越确信“它俩该在一起”；虚线则是“可合并的冗余”。配合左上角“group”筛选，可一键只显示某个聚类。

5. 注意事项：别让AI“帮倒忙”

数据清洗
- 先跑CiteSpace的“Remove duplicates”与“Merge synonyms”，否则“deep learning”和“deep-learning”会被当成两条，BERT也救不了
- 中文关键词建议统一用Jieba做分词后再去重
模型参数
- GraphSAGE层数别超过3，文献网络本身稀疏，层数深反而过平滑
- 负样本比例要均衡，跨聚类边通常远多于聚类内边，我按1:2随机下采样
标签幻觉
- GPT生成短语必须人工抽检10%，我遇到过“量子区块链”这种离谱组合，其实是“quantum”“blockchain”两个词被硬拼在一起
- 给prompt加限制：“禁止出现量子、元宇宙等泛化词汇”可显著降低翻车