news 2026/4/16 7:21:49

Selenium实战指南:用浏览器驱动轻松实现网络爬虫

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Selenium实战指南:用浏览器驱动轻松实现网络爬虫

Selenium 介绍

1、Selenium 是什么?

Selenium 最初是一款用于 Web 应用程序测试的工具,它可以驱动浏览器执行特定操作,自动按照脚本代码完成点击、输入、打开页面、验证结果等一系列行为,就像真实用户在操作一样。

目前 Selenium 已不仅限于测试领域,还广泛用于网络爬虫、网页自动化、批量操作等场景。

它支持多种主流浏览器,包括:

Internet Explorer(IE)

Firefox

Safari

Microsoft Edge

Google Chrome

等,几乎覆盖了日常开发与爬虫工作中会遇到的所有浏览器类型。

2、Selenium 与 requests 库的区别

很多人在做爬虫时会用到 Python 的 requests库,它通过直接发送 HTTP 请求来获取网页内容,速度快、资源占用少,但只能拿到服务器返回的原始 HTML,对于由 JavaScript 动态渲染生成的数据无能为力。

而 Selenium​ 是基于浏览器驱动程序来控制浏览器执行操作的,浏览器会对网页进行完整的渲染(包括执行 JS、加载 Ajax 数据等),因此 Selenium 可以轻松获取渲染后的页面数据。

简单来说:

requests→ 静态抓取,速度快,适合结构简单、无 JS 渲染的页面。

selenium→ 动态抓取,能获取 JS 渲染后的内容,适合复杂交互或现代前端框架(如 React、Vue)生成的页面,但速度较慢、资源占用高。

3、Selenium 的工作原理

Selenium 的核心是通过 WebDriver​ 与浏览器进行通信。其工作流程如下:

浏览器内核驱动(WebDriver)​

每种浏览器都有自己的 WebDriver,例如 ChromeDriver(Chrome)、GeckoDriver(Firefox)、msedgedriver(Edge)等,并且驱动版本必须与浏览器版本匹配,否则可能无法正常工作。

驱动程序与浏览器内核交互​

WebDriver 会通过浏览器内核提供的接口,将脚本发出的指令(如打开网址、点击按钮、填写表单)转化为浏览器可执行的操作。

浏览器执行并返回结果​

浏览器完成操作后,会将渲染完成的页面信息返回给 WebDriver,再由 WebDriver 将数据传递给我们的脚本进行后续处理。

关键点:不同浏览器使用不同的 WebDriver,且必须对应相应版本的浏览器,否则会出现兼容性问题。

如何使用 Selenium?

(1)使用前准备

要开始使用 Selenium,需要完成以下两个步骤:

a. 安装 Selenium 库​

在命令行中使用 pip 安装(这里以 4.11.0 版本为例):

pipinstallselenium==4.11.0 -i https://pypi.mirrors.ustc.edu.cn/simple/

也可以在 PyCharm 等 IDE 的包管理界面直接搜索安装。
b. 下载并配置浏览器驱动​

不同浏览器需要对应的驱动程序:

Edge 驱动:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

Chrome 驱动:https://chromedriver.storage.googleapis.com/index.html

Firefox 驱动(GeckoDriver):https://github.com/mozilla/geckodriver/releases

注意浏览器内核对应关系:

新版 360 安全浏览器、360 极速浏览器​ 使用的是 Edge 内核​

QQ 浏览器​ 有的版本使用 IE 内核(需注意具体版本)

如果目标网页在 IE 中才能正常显示,则需要用 IE 驱动

(2)驱动程序的放置

Windows 系统:将下载并解压后的驱动文件放到 Python 安装目录下的 Scripts 文件夹​ 中(确保该路径已加入系统环境变量)。

Linux / macOS 系统:同样放在 Python 的 Scripts(或对应可执行路径)目录下;如果系统中有多个 Python 版本,要确定当前运行脚本的 Python 环境,并将其路径配置到环境变量中,避免版本冲突。

实例1:打开网页

fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptions edge_options=Options()edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"driver=webdriver.Edge(options=edge_options)driver.get('https://www.ptpress.com.cn/')input('dengdai')

实例2:打开多个网页

fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptions edge_options=Options()edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"driver=webdriver.Edge(options=edge_options)driver.get('https://www.baidu.com')driver.execute_script("window.open('https://www.bilibili.com/','_blank');")driver.execute_script("window.open('https://www.shuyishe.com/','_blank');")driver.execute_script("window.open('https://www.shuyishe.com/course','_blank');")input('dengdai')
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 15:17:23

10 个研究生课堂汇报 AI 工具推荐,提升效率神器

10 个研究生课堂汇报 AI 工具推荐,提升效率神器 论文写作的“三座大山”:时间、重复率与自我折磨 对于研究生来说,课堂汇报不仅是学术能力的体现,更是对研究深度和表达逻辑的综合考验。然而,面对繁重的课程任务、密集的…

作者头像 李华
网站建设 2026/4/9 6:22:52

终极串口调试指南:专业工程师的高效通信解决方案

终极串口调试指南:专业工程师的高效通信解决方案 【免费下载链接】串口助手SerialPortUtility使用说明 Serial Port Utility是一款功能强大的串口调试工具,以其小巧的体积和简便的操作深受用户喜爱。它支持自动刷新串口号,能够快速检测并连接…

作者头像 李华
网站建设 2026/4/14 21:49:21

http协议中各个网段含义

Informational(信息性)——“请稍等,我还没完呢” 只有协议交互用,浏览器层面基本看不到。 1. 100 Continue 场景:客户端准备在 POST/PUT 里扔几百 KB 甚至几十 MB 的表单或文件,怕一发过去就被拒&#…

作者头像 李华