用Python 爬取并保存小说

liftword3个月前 (03-24)技术文章22

1. 安装requests pip install requests

2. 安装lxml pip install lxml

3. 斗罗大陆网页

代码

4 import requests
from lxml import etree
url='https://www.85xs.cc/book/douluodalu1/1.html'
while True:
   headers={
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
      }
   resp=requests.get(url,headers=headers)
   resp.encoding='utf-8'
   #print(resp.text)
   e=etree.HTML(resp.text)
   info='\n'.join(e.xpath('//div[@class="m-post"]/p/text()'))
   title=e.xpath('//h1/text()')[0]
   url=f'https://www.85xs.cc{e.xpath("//tr/td[2]/a/@href")[0]}'
   #print(info)
   #print(title,'utf-8')
   with open('斗罗大陆.txt','w',encoding='utf-8') as f:
      f.write(title+'\n\n'+info+'\n\n')

效果

python:最简单爬虫之爬取小说网Hello wrold

以下用最简单的示例来演示爬取某小说网的类目名称。新建一个retest.py，全文代码如下，读者可以复制后直接运行。代码中我尽量添加了一些注释便于理解。需要说明的一点，该小说网站如果后续更新改版了，文中...

python爬取电子课本，送给居家上课的孩子们

在这个全民抗疫的日子，中小学生们也开启了居家上网课的生活。很多没借到书的孩子，不得不在网上看电子课本，有的电子课本是老师发的网络链接，每次打开网页去看，既费流量，也不方便。今天我们就利用python的...

Python爬虫:用Beautifulsoup爬取html文本数据

Beautifulsoup介绍：是一个高效的网页解析库，可以从HTML或XML文件中提取数据支持不同的解析器，比如，对HTML解析，对XML解析，对HTML5解析就是一个非常强大的工具，爬虫利器一个灵...

超有趣!用 Python 爬取抖音热门视频数据，探索爆款密码

在当今的社交媒体时代，抖音无疑是最热门的平台之一。每天都有海量的视频被上传，其中一些视频迅速走红，成为爆款。你是否好奇这些热门视频背后有什么规律？今天，我们就用 Python 来爬取抖音热门视频数据，...

python利用Selenium爬取电影天堂实现电影自由

前几期我们实现了小说，音乐自由，当然不能少了影视自由啦，这期我们就来看看如何利用python实现电影自由。首先老办法我们打开电影天堂的网站，右击检查查看下网站的源码经过分析后暗暗窃喜，跟之前一个套路，...

流照教程网