news 2026/5/16 4:02:39

python(爬虫selenium)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
python(爬虫selenium)

Selenium 是一款用于模拟浏览器行为的自动化测试工具,也是爬虫领域中处理动态渲染页面(如 JS 加载、Ajax 请求、登录验证等)的核心工具。

一、导入库

from selenium import webdriver from selenium.webdriver.edge.options import Options from selenium.webdriver.common.by import By import time # edge_options =Options() edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe" # ##edge浏览器的地址 driver = webdriver.Edge(options=edge_options)

1.导入相关库的函数

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By

2.导入edge浏览器的内核

edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"

二、核心操作浏览器与页面控制

1.基础操作

打开页面driver.get("https://www.example.com")访问目标 URL
刷新页面driver.refresh()刷新当前页面
前进 / 后退driver.forward()/driver.back()模拟浏览器前进 / 后退
窗口大小driver.set_window_size(1920, 1080)设置窗口尺寸
全屏driver.maximize_window()窗口最大化
关闭窗口driver.close()关闭当前标签页
退出浏览器driver.quit()关闭所有标签页并退出驱动(必写,否则进程残留)

2.页面元素定位

定位元素是 Selenium 操作的基础,优先使用唯一标识(id/name),其次用 XPath/CSS 选择器,避免用索引(易变)。

IDfind_element(By.ID, "id值")driver.find_element(By.ID, "username")元素有唯一 ID
Namefind_element(By.NAME, "name值")driver.find_element(By.NAME, "password")元素有 name 属性
Class Namefind_element(By.CLASS_NAME, "类名")driver.find_element(By.CLASS_NAME, "btn-submit")类名唯一
Tag Namefind_element(By.TAG_NAME, "标签名")driver.find_element(By.TAG_NAME, "input")标签唯一(如单个 input)
Link Textfind_element(By.LINK_TEXT, "链接文本")driver.find_element(By.LINK_TEXT, "登录")精准匹配超链接文本
Partial Link Textfind_element(By.PARTIAL_LINK_TEXT, "部分文本")driver.find_element(By.PARTIAL_LINK_TEXT, "登")模糊匹配超链接
XPathfind_element(By.XPATH, "XPath表达式")driver.find_element(By.XPATH, '//*[@id="username"]')复杂定位(万能)
CSS Selectorfind_element(By.CSS_SELECTOR, "CSS表达式")driver.find_element(By.CSS_SELECTOR, "#username")高效定位(推荐)

3.元素交互

# 1. 点击元素(按钮/链接/复选框) btn_elem = driver.find_element(By.CLASS_NAME, "submit-btn") btn_elem.click() # 2. 获取元素属性/文本 elem = driver.find_element(By.XPATH, '//div[@class="content"]') print(elem.text) # 获取元素可见文本 print(elem.get_attribute("href")) # 获取href属性 print(elem.get_attribute("innerHTML")) # 获取内部HTML # 3. 输入文本(先清空再输入) input_elem = driver.find_element(By.ID, "username") input_elem.clear() # 清空输入框 input_elem.send_keys("test123") # 输入内容

执行Javascript 代码,可以将页面滚动到底部。
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

4.等待渲染

可以通过time函数用sleep方法等待

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 2:21:50

ManySpeech —— 使用 C# 开发人工智能语音应用

跨平台部署的兼容性问题不同场景(实时 / 离线、多语言)下的模型适配难题复杂工具链的集成门槛作为一套平衡 “易用性、功能性与部署灵活性” 的解决方案,ManySpeech 能够有效提升开发效率,为 .NET 生态下的语音处理需求提供强有力…

作者头像 李华
网站建设 2026/5/14 16:55:14

最长公共子序列(LCS)

题目描述给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列的长度。一个字符串的「子序列」是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(也可以不删除任何字符)后组成的新字…

作者头像 李华
网站建设 2026/5/12 19:44:40

算法驱动搜索变革:亚马逊新规则,卖家如何赢下曝光争夺战?

亚马逊搜索排名的算法,始终是卖家运营的核心变量,随着Cosmo新算法的深度应用,一场围绕搜索曝光的规则变革正在重塑流量分配的底层逻辑。 一、规则重构:从“单点突破”到“矩阵压制” 过去,亚马逊对一个商品父体通常只…

作者头像 李华
网站建设 2026/5/12 18:06:43

绩效反馈与辅导的流程

绩效反馈与辅导是绩效管理体系中的核心环节。**要实现绩效反馈的真正价值,关键在于构建科学的沟通流程与辅导机制,使员工在理解反馈的同时获得成长的动力。**绩效管理不只是评分与总结,更重要的是通过有效的反馈与辅导,帮助员工发…

作者头像 李华
网站建设 2026/5/15 8:48:11

夸克 AI 眼镜全链路“无切换体验“:当AI助手真正走进日常

当我们还在讨论AI能否真正融入生活时,有些产品已经悄然给出了答案。最近上手了夸克最新推出的AI眼镜,说实话,在戴上之前我把预期降到了很低——毕竟市面上打着"智能"旗号却体验糟糕的产品实在太多了。但戴上去的那一刻,…

作者头像 李华
网站建设 2026/5/15 1:04:32

C语言学习第五天

掌握了C语言中goto循环的基本用法,并编写了一个关机程序:当用户输入特定指令才能终止关机操作。此外还练习了数组操作,实现了从两端向中间汇聚的动画效果,配合清屏命令可以呈现出字符逐渐显现的视觉效果。 完成了猜数字游戏的开发…

作者头像 李华