python用requests BeautifulSoup下载网页到txt并去掉html标记

liftword2周前 (04-28)技术文章13

python用requests BeautifulSoup下载网页到txt并去掉html标记

import requests
from bs4 import BeautifulSoup

url = "https://www.5a8.com"
filename = "www5a8com.txt"

try:
    response = requests.get(url, timeout=10)
    response.raise_for_status()

    # 自动检测编码
    response.encoding = response.apparent_encoding

    # 使用 BeautifulSoup 提取纯文本
    soup = BeautifulSoup(response.text, "html.parser")
    visible_text = soup.get_text(separator="\n", strip=True)  # 用换行符分隔内容

    # 保存处理后的文本
    with open(filename, "w", encoding="utf-8") as f:
        f.write(visible_text)
    print(f"已提取可见文本至 {filename}")

except requests.exceptions.RequestException as e:
    print(f"下载失败: {e}")
except Exception as e:
    print(f"处理过程中发生错误: {e}")

运到方法

D:\code\python\get>python geturl1.py
已提取可见文本至 www5a8com.txt

相关文章

十几行Python代码轻松实现txt转xls,方便快捷

前天看到有人说目前自己有很多txt 文件,领导要转成xls文件,问用python怎么实现。其实完成这个需求方法有很多,因为具体的txt格式不清楚,当然如果是有明确分隔符的会更好处理些,可以直接把txt...

告别依赖混乱!Python项目一键生成requirements.txt!

“为什么我的代码在本地运行正常,别人却装不上依赖?” 这是无数Python新手遭遇的噩梦。本文将揭秘一个让项目依赖管理效率提升10倍的神器——pipreqs,手把手教你打造专业级开发环境!一、依赖管理...

写脚本不一定要学Python,C#何尝不能写脚本?txt都能跑!

用过C#的都知道C#是一种强大的编程语言,基本什么都能做。而他的优雅性,让我学了C#之后就不再愿意转投其它语言了。C#只是输在没有生态!对此,前python同事跟我争论不休,说C#没法写脚本,再简单也...

自动创建 Python 的 requirements.txt 文件

技术背景在 Python 开发中,requirements.txt 文件用于记录项目所依赖的第三方库及其版本,方便在不同环境中部署项目。然而,当从 GitHub 下载 Python 源代码时,有时会缺...

半自动化爬虫:在百度贴吧上保存网页,通过python爬取相关信息

1、需求背景:在百度贴吧上选取一页帖子,点击右键查看源代码,将源代码保存为txt文件,通过python实现从该页面中抓取帖子的标题,作者,时间等信息,将结果保存为excel表格2、关键技术实现:pyt...

Python画圣诞树,这波操作让我女友非常开心

文章目录1.方块圣诞树2.线条圣诞树3.豪华圣诞树这篇文章主要介绍了使用Python画了一棵圣诞树的实例代码,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友...