3分钟,10行代码教你写Python爬虫

liftword2周前 (12-18)技术文章19

前言:

本文适合新人小白阅读,大佬们感兴趣就看看,不感兴趣就可以划走啦。

话不多说,先看完整源码:

import requests
from lxml import html
url = 'https://movie.douban.com/'#需要爬数据的网址
header = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬虫伪装
page = requests.Session().get(url, headers=header)
tree = html.fromstring(page.text)
result = tree.xpath('//td[@class="title"]//a/text()')#获取需要的数据
print(result)

下面是我们爬取的数据:

['Tinder 诈骗王', 
'逃亡', '寻找黑暗',
 '正发生', '瀑布',
 '沧海渔生', '抱紧我',
 '美国草根:库尔特·华纳的故事',
 '一切顺利', '甘草披萨']

也就是下面爬取的这个页面里红色框框里面的数据,豆瓣电影本周口碑榜。

添加图片注释,不超过 140 字(可选)

那么,这个爬虫代码是怎么写的呢?我们来看一看

第一步:导入模块

import requests
from lxml import html

Python的强大之处就在于,它的库特别多,使用很方便,这个程序我们需要导入requests,lxml这两个模块。

很简单,用pip指令就好。打开cmd(即终端),输入指令:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn requests

然后回车,等待安装完成。

lxml安装我是用这个指令:

pip install lxml http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

同样回车,等待安装完成。

第二步:爬虫的网址

url = 'https://movie.douban.com/'#需要爬数据的网址

至于为什么选豆瓣,额,大概是传承吧,大家都是从爬豆瓣开始的,这不豆瓣都加反爬机制了,不过这难不倒我们,咱可以给爬虫伪装一下,也就是我们接下来要做的。

第三步:爬虫伪装

header = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬虫伪装

我们通过更改User-Agent字段来实现网站请求,实现网页应答。具体步骤如下:

1.打开你要爬虫的网页

2.按F12或通过浏览器右上角的“更多工具”选项选择【开发者工具】

3.按F5刷新网页

4.点击Network,再点击Doc

5.找到Headers,查看Request Headers的User-Agent字段,直接复制

6.将刚才复制的User-Agent字段构造成字典形式(即我们的那段代码)


编辑切换为居中

添加图片注释,不超过 140 字(可选)

看不懂英文的话,右上角那里有个设置,可以换成中文。

第四步:爬取数据

result = tree.xpath('//td[@class="title"]//a/text()')#获取需要的数据

这一步是最重要的一步了。怎么写呢,我们来看看:

1.还是打开网页,按F12,点击左上角那个按钮:

2.鼠标点击需要爬取的数据,这里我们点“诈骗王”,如图所示。

添加图片注释,不超过 140 字(可选)

3.看到大红色框框里的东西,是不是和我们最“重要”的代码有很多相似的地方。

再看来最后一行代码中最“重要”的部分。

‘//td[@class=”title”]//a/text()’

1)//td :这个相当于指定是大目录;

2)[@class=”title”]:这个相当于指定的小目录;

3)//a :这个相当于最小的目录;

4)/text():这个是提取其中的数据。

添加图片注释,不超过 140 字(可选)

这里我们就完成啦,是不是感觉爬虫很简单,你学废了吗

相关文章

Python 创建字典的多样方法 python怎么创建字典

#Python基础##python编程##python#一、Python 字典创建概述介绍 Python 中创建字典的多种方法,对于不同场景有不同的适用方式。Python 是一种功能强大的编程语...

Python学习(七)字典的创建及常用操作详解

什么是字典?1、python内置的数据结构之一,与列表一样是一个可变序列。 【可变序列:可进行增删改的数据操作的序列】。 2、以键值对key-value的方式存储数据,key不允许重复【key重复,v...

python基础:字典 python中字典的基本操作

ps:文中代码块可以长按复制,左滑拖动查看全部在 Python 中,字典(dict)是非常重要的数据结构,它用于存储以“键-值”对形式组织的数据。字典是无序的、可变的、并且键是唯一的。字典非常适合用于...

python 字典(dict)之创建、访问、修改及小案例

字典(1)在Python中,字典是一系列[键:值]对 。(2)每个键都与一个值相关联,你可以使用键来访问与之相关联的值。与键相关联的值可以是数字、字符串、列表乃至字典。事实上,可将任何Python对象...

Python教程-字典 字典 python

作为软件开发者,我们总是努力编写干净、简洁、高效的代码。在这篇文章中,我们将介绍你需要知道的关于Python中字典的一切,包括它们是什么,它们如何工作,以及如何在你的代码中有效地使用它们。什么是 Py...

掌握Python字典写入文件的技巧 python怎么把字典写到文件中

Python字典写入文件有多种方法,本文主要介绍以文本格式、JSON格式、CSV格式写入文件的常用方法。以文本格式写入文件如果字典中的值都是简单的数据类型(如字符串、整数、浮点数等),可以将字典转换为...