news 2026/4/16 17:58:30

垃圾 python 挖掘

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
垃圾 python 挖掘

垃圾网页恶意链接挖掘的 Python 实战

网页链接提取、威胁情报校验(Virustotal API)、恶意链接判定

一、环境准备

首先安装依赖库:

pip install requests beautifulsoup4 python-dotenv # 核心依赖

二、核心代码实现

1. 配置项与工具函数(防恶意脚本、链接清洗)
import re import requests from bs4 import BeautifulSoup from dotenv import load_dotenv import os # 加载环境变量(存储Virustotal API Key等敏感信息) load_dotenv() # 禁用requests的SSL警告(部分垃圾网页证书无效) requests.packages.urllib3.disable_warnings() def clean_link(link: str, base_url: str) -> str: """ 清洗链接:处理相对路径、去除锚点、补全域名 :param link: 原始链接 :param base_url: 网页基础URL(用于补全相对路径) :return: 标准化的绝对链接 """ if not link: return "" # 去除锚点(如https://example.com#abc → https://example.com) link = re.sub(r'#.*$', '', link) # 处理相对路径(使用requests的urljoin,需先构造base_url) try: from urllib.parse import urljoin absolute_link = urljoin(base_url, link) # 仅保留http/https协议的链接(过滤javascript:、mailto:等) if absolute_link.startswith(('http://', 'https://')): return absolute_link return "" except Exception: return "" def is_malicious_content(response: requests.Response) -> bool: """ 简单判断响应内容是否包含恶意特征(可扩展) :param response: 网页响应对象 :return: 是否为恶意内容 """ # 特征1:包含恶意文件后缀(.exe、.dll、.bat等) malicious_suffix = r'\.(exe|dll|bat|cmd|scr|pif|vbs|jsx?)$' if re.search(malicious_suffix, response.url, re.IGNORECASE): return True # 特征2:响应内容包含恶意关键词(可根据威胁情报扩展) malicious_keywords = [
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:53:36

6、社交网络与复杂网络构建全解析

社交网络与复杂网络构建全解析 1. 有符号网络的风险与应对 有符号网络存在一定危险性,因为仅通过直观观察,无法揭示有符号连接的真实含义。若网络分析算法忽略权重,就可能误以为连接代表接近程度,但实际情况可能恰恰相反。不过,一些社会理论(如平衡理论)会大量运用有符…

作者头像 李华
网站建设 2026/4/16 11:02:38

告别机械音:EmotiVoice带来拟人化语音合成新可能

告别机械音:EmotiVoice带来拟人化语音合成新可能 在虚拟助手冷冰冰地念出日程提醒、游戏NPC用千篇一律的语调说出“你已阵亡”时,我们不禁会想:机器的声音,真的只能如此单调吗?随着用户对交互体验的要求越来越高&#…

作者头像 李华
网站建设 2026/4/16 7:13:57

智能体“颠覆者”

一.API:1,什么是API:应用程序编程接口,是一系列的规则,规范,协议。让用户不需要了解内部 工作原理,根据规定的输入获取到指定的输出2,实现一个cozeAPI的调用:…

作者头像 李华
网站建设 2026/4/16 16:08:17

用EmotiVoice生成带喜怒哀乐的语音,提升用户体验

用EmotiVoice生成带喜怒哀乐的语音,提升用户体验 在智能音箱回答“今天天气不错”时语气平淡如常,而在用户遭遇挫折轻声说出“我好累”后,它却能以温柔低沉的语调回应:“听起来你经历了很多,要不要听点舒缓的音乐&…

作者头像 李华
网站建设 2026/4/16 10:56:32

城市空气质量监测与预警平台

城市空气质量监测与预警平台 1. 项目概述与设计目标 1.1 项目背景 随着城市化进程的加快,空气质量问题日益受到公众关注。构建一个能够实时监测、历史回溯、深度分析以及未来预测的空气质量平台,对于环保决策和居民健康出行具有重要意义。本项目基于现代…

作者头像 李华