怎么用Python提取txt的章节目录?

liftword3个月前 (03-29)技术文章27

提取txt文本中的章节

在网络上下载的小说,一般是txt格式的,并且往往是没有目录的。

那么有没办法提取出小说的目录呢?

下面是一个示例代码,用于提取txt文本中的章节作为目录:


import re

# 定义章节标题的正则表达式
# 将【正则表达式的字符串形式】编译为一个【正则表达式对象】
pattern = re.compile(r'第[一二三四五六七八九十百千万壹贰叁肆伍陆柒捌玖拾佰仟]{1,6}章')

# 读取txt文件内容
with open('book.txt', 'r', encoding='utf-8') as f:
    content = f.read()

# 查找所有匹配的章节标题
for match in pattern.finditer(): # content为需要查找的内容
    print(match.group()) # 打印找到的str

这段代码使用正则表达式来查找文本中所有章节标题,并将它们输出到控制台。

在这个例子中,章节标题的格式为 "第X章",其中X表示章节数,可能是中文数字。

如果您的文本中的章节格式不同,请修改正则表达式以匹配您的格式。

re.compile()

re.compile() 是 Python 中正则表达式库 re 中的一个函数。


它的作用是将【正则表达式的字符串形式】编译为一个【正则表达式对象】,这样可以提高正则匹配的效率。


使用 re.compile() 后,可以使用该对象的方法进行匹配和替换操作。

语法:

re.compile(pattern[, flags])

参数说明:

  • pattern:要编译的正则表达式字符串
  • flags:正则表达式的标志位,可选参数,如IGNORECASE,DOTALL,MULTILINE等

返回值:返回编译后的正则表达式对象

示例:

import re

pattern = re.compile(r'\d+')

可以看出,re.compile() 函数是将正则表达式的字符串形式转化为正则表达式对象,以便使用其方法(match,search,findall...)更高效的进行正则匹配。

re.finditer()

re.finditer() 是 Python 中正则表达式模块 re 中的一个函数,它可以在字符串中查找所有与模式匹配的部分,并返回一个迭代器。

这个迭代器返回每个匹配项作为一个 match 对象,它有一些有用的属性,如 start()end(),可以用来确定匹配的文本的位置。

语法:

re.finditer(pattern, string, flags=0)

参数:

  • pattern : 正则表达式模式字符串。
  • string : 要查找的字符串。
  • flags : 可选,正则表达式的标志参数,如 re.IGNORECASE, re.MULTILINE 等。

示例:

import re

string = "The rain in Spain"
x = re.finditer("ai", string)
for match in x:
  print(match.start(), match.group())

输出:

4 ai

说明:上面程序中,在字符串中查找所有 "ai" 的所有匹配项,并使用迭代器输出每个匹配项的开始位置。

相关文章

Python文件和异常处理打开、读写和关闭文件详解

文件和异常处理是 Python 编程中非常重要的概念。在本篇文章中,我们将详细讲解如何打开、读写和关闭文件,以及如何处理异常。文件操作在 Python 中,可以使用内置的 open() 函数打开文件。...

python初学者系列:windows下载python

合集说明这是一个针对python3初学者的合集,将持续更新。 本合集主要内容是一些代码案例,帮助初学者学习发散,主体包含知识点、结果展示、思路分析、实现流程四大模块。初学者可以根据知识点判断是否继续阅...

21-Python-文件操作

在Python中,文件操作是非常重要的一部分,它允许我们读取、写入和修改文件。下面将详细讲解Python文件操作的各个方面,并给出相应的示例。1-打开文件在Python中,使用`open()`函数来打...

python html转TXT python读取html指定区域文本内容转成txt文件

#科技之巅#python html指定区域文本内容转称txt文本文件1、首先,通过python,去将读取遍历程序目录文件夹中,【html】文件夹里面的文件、文件夹以及子目录、子目录里面的 ,获取到该目...

Python文件操作指南

一、核心函数 open() 精解基本语法open(file, mode='r', encoding=None, errors=None, newline=None)关键参数解析1. file(必需)o...