Python爬虫实战:1000图库大全,小白也能实操

liftword5个月前 (02-06)技术文章45

今天给大家带来【爬虫实战100例】之41篇,爬虫之路永无止境。

爬取目标

网址:尺度有点大,遭不住...

效果展示

工具准备

开发工具:pycharm 开发环境:python3.7, Windows11 使用工具包:requests

项目解析思路

获取当当前网页的跳转地址,当前页面为主页面数据,我们需要的数据别有一番天地,获取到网页信息提取出所有的跳转地址,获取到源码里的a标签就行当前网页的加载方式为静态数据,直接请求网页地址;

Bash
url = 'https://www.xxxx.com/

从源代码里提取到所有的跳转地址

提取的方式可自行选择,小编这里使用正则的方式提取数据,提取详情页面的地址以及标题,用来保存图片起名字,获取到进入详情页面的地址后对地址发送请求,详情页面的数据也分为很多的页面,每个页面有好几张图片,需要对网址进行拼接,构造出新的地址信息,

Bash
for i in range(1, int(page_num[0]) + 1):            new_url = info_url.replace('.html', f'_{i}.html')        jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')

请求之后提取出所有的图片地址再对图片地址发送请求,保存数据大功告成!!

简易源码分享

Bash
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'    url = 'https://www.xxxx.com/guoneimeinv/list_5_{}.html'.format(i)    response = requests.get(url, headers=headers)    data_list = re.findall('</a> </li><li><a href="(.*?)" class="pic" target="_Blank" alt="(.*?)">', response.content.decode('gbk'))for info_url, title in data_list:        res = requests.get(info_url, headers=headers).content.decode('gbk')        page_num = re.findall('<li><a>共(.*?)页: </a></li><li>', res)for i in range(1, int(page_num[0]) + 1):                new_url = info_url.replace('.html', f'_{i}.html')            jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')            jpg_url_list = re.findall('<p align="center"><img src="(.*?)" /></p><br/>', jpg_data)for jgp_url in jpg_url_list:                result = requests.get(jgp_url, headers=headers).content                f = open('1000图库/' + title + "-" + str(num) + ".jpg", 'wb')print(f"正在下载{title}第{num}张")

相关文章

30分钟掌握用Python写网络爬虫,入门到实战教程,黑客入门第一步

在如今的大数据时代,相信大家都对Python一词有所耳闻。而Python爬虫,简单来说,即通过Python程序获取对我们有用的数据。常用于商业分析,不过偶尔也可以辅助我们解决在日常生活中遇到的一些问题...

从0教你用Python写网络爬虫,内容详细代码清晰,适合入门学习

爬虫是入门Python最好的方式之一,掌握Python爬虫之后再去学习Python其他知识点,会更加地得心应手。当然,用Python爬虫对于零基础的朋友来说还是有一定难度的,那么朋友,你真的会Pyth...

豆瓣9.4,Python网络爬虫实战,助你快速精通爬虫,PDF拿走不谢

计算机技术飞速发展,人们对计算机使用技能的要求也越来越高。在编写软件时,大家既希望有超高的效率,又希望这门语言简单易用。这种鱼与熊掌皆得的要求的确很高,Python编程语言恰好符合这么苛刻的要求。Py...

2024,Python爬虫系统入门与多领域实战

载ke程:itzcw.com/9676/2024,Python爬虫系统入门与多领域实战指南摘要:本文将带领读者了解Python爬虫的基本概念、技术构成,并通过多个领域的实战案例,展示Python爬虫在...

完整的python项目实例-《Python爬虫开发与项目实战》pdf完整版

本书从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言和Web前端基础知识引领入门,之后介绍动态爬虫原理以及Scrapy爬虫框架,最后介绍大规模数据下分布式爬虫的设计以及PySpider爬虫框架等...

豆瓣评分9.0!Python3网络爬虫开发实战,堪称教学典范!

今天我们所处的时代是信息化时代,是数据驱动的人工智能时代。在人工智能、物联网时代,万物互联和物理世界的全面数字化使得人工智能可以基于这些数据产生优质的决策,从而对人类的生产生活产生巨大价值。在这个以数...