python中的字符串 python中的字符串类型
本节我们学习编码中最常用和最常见的数据结构:字符串。
## 基本字符串操作
字符串可以被看做字符列表,因此可以使用前面在集合章节介绍的索引和切片等方法对字符串进行基本的操作,但和列表不同,字符串是不许修改的,如果希望修改字符串内容,见下面字符串方法中的replace方法,或者使用强大的re模块对字符串内容进行处理后生成新的字符串。此外还可以对字符串进行"+"和"*"运算,如:"hello" + "world!"; "hello" * 3。
## 字符转义
在字符串中,常会看到ASCII字符集定义的特殊字符,如最常见的换行:\n,它们以反斜杠开头,用以表示其他字符,被称为转义序列。可用ASCII字符对应的八进制或十六进制转义序列来表示任意的ASCII字符。八进制转义序列为反斜杠后跟三位八进制数,十六进制是"\x"后跟任意位数的十六进制数。对于Unicode的字符,可用数字格式或Unicode名称,如下:
## 字符串方法
大部分字符串方法通过"."操作符依附于它们作用的字符串对象上,如:"hello".upper()。字符串拆分使用:split()方法,字符串链接使用:join()。int函数或者float函数可以将可以转换为数字的字符串转换为对应数字,如:"123.456",第二个参数可指定对应的进制,如:int('111',8),则将第一个参数转换为八进制数字。
strip返回与原字符串相同的新字符串,去除首尾的空白字符,平台对应的恐怖字符,可通过导入string模块,通过:string.whitespace常量查看。lstrip去除首部,rstrip去除尾部。三个方法都可附件一个参数,包含需要移除的字符。
find方法返回参数字符串第一个实例的首字符在调用字符串对象中的位置,如果没有找到,返回-1。还可指定start和end参数,指定查找的区间范围。rfind功能相同,只不过从末尾开始查找。index和rindex同find和rfind功能相同,只不过找不到时引发:ValueError。count返回参数字符串在给定字符串中不重叠出现次数。
startswith和endswith判断给定字符串是否以参数列表中的字符串开始或者结束。
字符串是不可改变的,可用replace替换指定内容后生成新字符串,如:x.replace('a', 'b'),将字符a替换为b。也可先tab = x.maketrans("abc", "def")后,执行x.translate(tab)对字符串中字符进行替换,此时:a替换为d,b替换为e,依此类推。
虽然字符串是不可变对象,可用:list函数将字符串转换为可以修改字符列表,通过前面集合章节介绍的修改列表的操作修改完成后,在通过"".join(list)转换回字符串。
repr函数返回的结果被称为python对象的正式字符串表示,str函数旨在生成可打印字符串。前者返回的对象的字符串可以重建原来的对象,而后者仅供打印阅读。
## 字符串格式化
字符串的format方法可通过字段编号,或者命名参数对字符串中"{}"中的内容进行替换。还可通过格式描述符进行格式控制:{0:10},该字段宽度为10个字符;{0:{1}},字段宽度由第二个参数定义;{0:>10},强制字段右对齐,不足部分空格;{0:&>10},强制字段右对齐,不足用'&'填充(填充字符可替换为其他字符)。也可在字符串中包含以'%'开始的格式化序列对字符串进行格式化如:'pi : %6.2f' % 3.1415。还可通过字符串内插快速创建字符串常量,如首先声明变量:name = 'juice_data',然后将name内插到新创建的其他字符串中:f'hi {name}'。
如果数据为二进制数据,则需要使用bytes对象处理,它不能像字符串那样进行拼接。字符串调用encode可转换为bytes对象,bytes对象调用decode可转回字符串,如上所示。
"橙汁数据"(微信公众号),长期关注大数据的收集处理与分析,深度学习与人工智能应用,如有大数据或智能应用相关业务,欢迎关注"橙汁数据"(微信公众号)洽谈咨询;