python爬虫字符串定位开始跟结束(find方法的使用)

liftword2周前 (05-30)技术文章5

python爬虫采集的时候会需要对采集的内容进行处理行为,处理什么?简单的说就是处理多余的HTML代码跟确定文章标题跟结尾,还有内容区间,方法如下:

首先先是定位,我们先假设我们采集到了一批数据,数据里的内容是这样的<title>这里是标题</title>,<p>内容肯定是很多的,不过这里也就自己随便手打一些来随便用用。</p>,当然,我们采集到的内容肯定不会这么干净的,这样我们就需要处理一下内容的问题了。

假设<title>前面还有一些不要的HTML代码,那么我们就要处理掉,不然采集下来就挺难看的,所以我们需要处理掉:

h = html.find('<title>') #这一段是定位开头。

b = html.find('</title>') #这一段是定位结尾,我们用的是find方法。

字符串的定位都可以用find方法来处理,find方法是检测str是否包含在string里,如果指定了位置,那么他就会查找指定位置的范围内是否存在,如果有就返回索引值,没有就会返回-1。

当然,还有另一个方法,叫做index,不过这个方法如果不存在的话就会报错,不建议多用。

相关文章

Python字符串是否有包含子字符串的方法

技术背景在Python编程中,经常会遇到判断一个字符串是否包含另一个子字符串的需求。Python提供了多种方法来实现这一功能,不同方法在使用场景和性能上有所差异。实现步骤使用 in操作符in 操作符是...

Python中检查给定的字符串是否包含数字

本文介绍Python中如何检查字符串是否包含数字。如果给定的字符串中包含数字True,否则返回False。Python中检查字符串是否包含数字的一种简单方法是使用isdigit()方法验证字符串中的每...

Python中,什么是字符串?

在Python中,字符串(str)是由一系列字符组成的数据类型,用来表示文本。例如,"Hello, World!" 就是一个字符串。你可以用单引号(')或双引号(")来...

python 入门到脱坑 基本数据类型—字符串string

以下是Python字符串(String)的入门详解,包含基础操作、常用方法和实用技巧,适合初学者快速掌握:一、字符串基础1. 定义字符串# 单引号/双引号 s1 = 'hello' s...

Python中如何查找字符串及快速掌握一些运用

有的时候,我们需要查找一些内容,输入要查找的文字,能够快速反馈出来。1 我们先看看in关键字的使用s = "hello world" if "world" in s:...

如何检查字符串是否代表一个数字(浮点数或整数)

技术背景在Python编程中,经常需要判断一个字符串是否能表示为数字(整数或浮点数)。这在数据处理、输入验证等场景中非常常见。Python提供了多种方法来实现这一功能,不同的方法适用于不同的场景,各有...