Python爬虫基础教学(写给入门的新手)

liftword2个月前 (02-21)技术文章19
私信我,回复:学习,获取免费学习资源包。

环境安装

python3.7.1

pip install requests

pip install beautifulsoup4

pip install lxml

技术讲解

requests库

requests一般用于发起http请求,并且拿到请求的结果。http常用的请求有两种,GET和POST,爬虫主要用的是GET请求。

在不懂http,https和dns,TCP/IP等协议的情况下,我直接打个比方来解释一下什么是GET请求,以360浏览器为例,人在360浏览器输入www.baidu.com,然后敲击enter键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次GET请求。

更专业,更详细的解释,自己去百度学习吧。

如何使用requests库来模拟浏览器的行为来获取页面内容呢?

示例代码如下

import requests
web = requests.get('https://www.baidu.com') #向百度发起一次get请求,返回请求结果的实体类
print(web.status_code) #请求返回的状态码,200是OK,404是页面不存在,500是错误,更多自己百度搜索
print(type(web.content)) #页面内容的数据类型是bytes,因此需要解码
print(type(web.content.decode()))
print(web.content.decode()) #解码之后,得到的页面内容是结构化的字符串


这样看起来,我们获取到的页面内容不是我们在浏览器看到的图形化界面,而是字符串,更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧,现在可以简单学一下,也就花几分钟了解一下就够用了。

html是一种标记语言,可以被浏览器执行,然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里,然后双击打开,你会看到图形化界面的,只不过有些图片可能显示不了,这里就不细说了。

html其实很好理解,不要想得太复杂,就是一段有规律的格式化的文本。

其基本格式就是


...
...




html文本的标签一般都是成双成对,有始有终的,比如和是一队,千万不能拆散,拆散就乱套了。少数除外比如
是换行用的,可以不用配对。

这里我们主要讲body标签,网页的主要内容都是在这个标签里显示的,比如标题,段落,图片等

在test.html里我们写入一下代码并且保存。



我的网站

这是我的网站


html更多标签所代表的意义可以去这里学习
http://www.runoob.com/html/ht...

beautifulsoup4库

bs4(简称)库是用于解析格式化文本,提取数据用的库。

我们利用requests库的get函数拿到网页的内容是一段格式化的字符串,接下来就可以用bs4来解析它。

解析的示例代码如下

from bs4 import BeautifulSoup
html = '''

我的网站

这是我的网站

''' #从网页拿到html的格式化的字符串,保存到html里 soup = BeautifulSoup(html, 'lxml') #使用lxml解析器来解析文本,html和xml格式是类似的 print(soup.find_all('h1')) #使用find_all函数来找所有的h1标签,返回的结果是数组 print(soup.find_all('p')) #找所有的p标签,返回的结果是数组 更复杂一点的,比如 from bs4 import BeautifulSoup html = '''

我的网站

这是我的网站

测试1
测试2
''' soup = BeautifulSoup(html, 'lxml') div_tags = soup.find_all(name='div', attrs={'class': 'test-item'}) for tag in div_tags: print(type(tag)) print(tag) print(tag.string) print(tag.attrs, '\n')


注意,tag保存的不是字符串,而是bs4模块中的一个标签实体类,我们主要需要知道它的attrs属性和string属性,方便我们拿到一些我们想要的文本和信息,比如a标签的href属性就保存在attrs里。

总结

本文主要讲了如何使用requests获取网页文本内容,以及如何解析html文本,更多更好用的爬虫库

来源网络侵权联系删除

私信我,回复:学习,获取免费学习资源包。

相关文章

什么是Python爬虫?一篇文章带你全面了解爬虫

一、什么叫爬虫爬虫,又名“网络爬虫”,就是能够自动访问互联网并将网站内容下载下来的程序。它也是搜索引擎的基础,像百度和GOOGLE都是凭借强大的网络爬虫,来检索海量的互联网信息的然后存储到云端,为网友...

程序员python入门课,30分钟学会,30行代码写爬虫项目

现在很多人学习编程,最开始就是选择的python,因为python现在比较火,薪资水平在程序员领域也是比较高的,入门快,今天就给大家分享一个用python写的小爬虫项目,只需要30行代码,认真学习,...

巨细!Python爬虫详解_python爬虫详细教程

来源:【公众号】Python技术爬虫(又称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者);它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。如果我们把互联网比作一张大...

Python爬虫常用的8个技巧,让你爬取数据得心应手

今天跟大家分享几个我在爬虫中用到的技巧,让你轻松爬取所需数据。技巧一:随机暂停,迷惑反爬机制高频率访问容易被网站识别为爬虫,所以我们要学会“劳逸结合”!使用 time.sleep() 函数,加上随机时...

最简单的python爬虫案例,适合入门学习

用python从网页爬取数据,网上相关文章很多,但能让零基础初学者轻松上手的却很少。可能是有的作者觉得有些知识点太简单不值得花费精力讲,结果是难者不会会者不难,初学者常常因此而蒙圈。本人也是小白,刚摸...

如何入门 Python 爬虫?_python爬虫入门教程

1.很多人一上来就要爬虫,其实没有弄明白要用爬虫做什么,最后学完了却用不上。大多数人其实是不需要去学习爬虫的,因为工作所在的公司里有自己的数据库,里面就有数据来帮助你完成业务分析。什么时候要用到爬虫呢...