Python“三步”即可爬取,毋庸置疑
声明:本实例仅供学习,切忌遵守robots协议,请不要使用多线程等方式频繁访问网站。
#第一步导入模块
import re
import requests
#第二步获取你想爬取的网页地址,发送请求,获取网页内容
url = "
https://www.msn.cn/zh-cn/news/technology/%E4%BB%8E-%E6%81%92%E6%98%9F%E8%80%80%E7%81%AD-%E5%88%B0-%E6%9C%94%E5%BC%A6%E6%99%A6%E6%9C%9B-%E5%85%A8%E7%90%83%E8%89%BA%E6%9C%AF%E5%AE%B6%E4%B8%BA%E4%BD%95%E7%BA%B7%E7%BA%B7%E4%B8%BA%E4%B8%8A%E6%B5%B7%E5%A4%A9%E6%96%87%E9%A6%86%E6%89%93%E9%80%A0%E5%B1%95%E5%93%81/ar-AAQK647?ocid=msedgdhp&pc=U531"
response = requests.get(url) #得到响应对象
data = response.text #获得字符串文本
#第三步通过正则表达式选择你想得到的文本内容,并显示选择的结果
new_list = re.findall('
(.*?)
', data) #得到你想要的内容列表print(new_list) #显示你想要的内容
以上所涉及知识点:一是requests模块库get()的知识储备。二是正则表达式findall()知识的储备。在
当然上面省略一些知识:
1、如判断访问网站是否成功
2、列表的for语句显示
3、得到的文本以什么方式存储,存储的地址和文件是否已经存在等
希望以上总结对您有帮助!!!!!!