python爬虫字符串定位开始跟结束(find方法的使用)
python爬虫采集的时候会需要对采集的内容进行处理行为,处理什么?简单的说就是处理多余的HTML代码跟确定文章标题跟结尾,还有内容区间,方法如下:
首先先是定位,我们先假设我们采集到了一批数据,数据里的内容是这样的<title>这里是标题</title>,<p>内容肯定是很多的,不过这里也就自己随便手打一些来随便用用。</p>,当然,我们采集到的内容肯定不会这么干净的,这样我们就需要处理一下内容的问题了。
假设<title>前面还有一些不要的HTML代码,那么我们就要处理掉,不然采集下来就挺难看的,所以我们需要处理掉:
h = html.find('<title>') #这一段是定位开头。
b = html.find('</title>') #这一段是定位结尾,我们用的是find方法。
字符串的定位都可以用find方法来处理,find方法是检测str是否包含在string里,如果指定了位置,那么他就会查找指定位置的范围内是否存在,如果有就返回索引值,没有就会返回-1。
当然,还有另一个方法,叫做index,不过这个方法如果不存在的话就会报错,不建议多用。