python利用Selenium爬取电影天堂实现电影自由

liftword1个月前 (03-24)技术文章5

前几期我们实现了小说,音乐自由,当然不能少了影视自由啦,这期我们就来看看如何利用python实现电影自由。

首先老办法我们打开电影天堂的网站,右击检查查看下网站的源码

经过分析后暗暗窃喜,跟之前一个套路,直接requests请求,xpth解析,数据不就手到擒来,开干。

import requests

url="https://www.dygod.net/html/gndy/china/"
headers={
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36",
"cookie": "guardret=UAQF; guardret=C1c=; Hm_lvt_93b4a7c2e07353c3853ac17a86d4c8a4=1710422041; Hm_lvt_0113b461c3b631f7a568630be1134d3d=1710422041; Hm_lvt_8e745928b4c636da693d2c43470f5413=1710422041; guard=b45b4fbfCWp691; Hm_lpvt_93b4a7c2e07353c3853ac17a86d4c8a4=1710508766; Hm_lpvt_0113b461c3b631f7a568630be1134d3d=1710508766; Hm_lpvt_8e745928b4c636da693d2c43470f5413=1710508766"
}
resp=requests.get(url,headers=headers) 
print(resp.text)

这次连user-agent,cookie 都加上应该没问题了吧,可是一运行傻眼了。

网站直接返回了一个javascript脚本,网站做了反爬,数据获取不到了......

既然不返回数据给我们,那我们换个思路,利用selenium所见即所的功能,直接打开网站获取相关的数据就好了。

我们先确认下Chrome的版本:在 chrome地址栏中输入:chrome://version/

可查看chrome版本,根据对应的版本下载驱动

https://chromedriver.storage.googleapis.com/index.html

安装selenium

pip install selenium

利用find_elements方法获取对应的元素值。

find_elements(By.XPATH,'//*[@id="header"]/div/div[3]/div[4]/div[2]/div[2]/div[2]/ul/table/tbody/tr[2]/td[2]/b/a')

运行结果如下:

我们利用相同的方法,循环对获取的电影详情页面进行下载链接的获取。

以下是利用selenium获取电影的代码:

from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.Chrome()
chrome_options = webdriver.ChromeOptions()
# 把允许提示这个弹窗关闭
prefs = {"profile.default_content_setting_values.notifications": 2}
chrome_options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(options=chrome_options)
url = 'https://www.dygod.net/html/gndy/china/'
driver.get(url)

# 返回所有的元素 find_elements
contents=driver.find_elements(By.XPATH,'//*[@id="header"]/div/div[3]/div[4]/div[2]/div[2]/div[2]/ul/table/tbody/tr[2]/td[2]/b/a')
#print(contents)
for i in contents:
    print(i.text, i.get_attribute('href'))

获取下载链接的代码同学们可以自己尝试着写下,把所有的链接都保存到一个txt文件,利用迅雷的批量下载功能进行下载。只要你的硬盘足够大,世界都能装的下!

好了,我们下期见。

相关文章

python爬虫教程之爬取当当网 Top 500 本五星好评书籍

我们使用 requests 和 re 来写一个爬虫作为一个爱看书的你(说的跟真的似的)怎么能发现好书呢?所以我们爬取当当网的前 500 本好五星评书籍怎么样?ok接下来就是学习 python 的正确姿...

Python爬虫:用Beautifulsoup爬取html文本数据

Beautifulsoup介绍:是一个高效的网页解析库,可以从HTML或XML文件中提取数据支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析就是一个非常强大的工具,爬虫利器一个灵...

超有趣!用 Python 爬取抖音热门视频数据,探索爆款密码

在当今的社交媒体时代,抖音无疑是最热门的平台之一。每天都有海量的视频被上传,其中一些视频迅速走红,成为爆款。你是否好奇这些热门视频背后有什么规律?今天,我们就用 Python 来爬取抖音热门视频数据,...

Python“三步”即可爬取,毋庸置疑

声明:本实例仅供学习,切忌遵守robots协议,请不要使用多线程等方式频繁访问网站。#第一步导入模块import reimport requests#第二步获取你想爬取的网页地址,发送请求,获取网页内...

这样用Python爬虫爬取淘宝,京东商品信息,速度快的一皮

无私分享全套Python爬虫干货,如果你也想学习Python,可私信小编: 资料分享 获取。作为一个快乐的爬爬,爬来爬去当然是乐此不疲的事情,这样爬速度真正的快哦。使用的工具(Python+pycha...