python 入门到脱坑 python中的“器”—生成器
Python生成器(Generator)入门详解
生成器是Python中一种特殊的迭代器,它可以让你按需生成值而不是一次性计算所有值,非常适合处理大数据流或无限序列。
一、生成器基础概念
1. 生成器是什么?
- 惰性计算:只在需要时生成值,节省内存
- 状态保持:记住上次执行的位置
- 可迭代:可以用在for循环中
2. 生成器 vs 普通函数
特性 | 普通函数 | 生成器函数 |
返回值 | return一次 | yield多次 |
执行 | 一次性执行完 | 可暂停/恢复 |
内存 | 存储所有结果 | 只存储当前状态 |
二、创建生成器的两种方式
1. 生成器函数(使用yield)
def count_up_to(max):
count = 1
while count <= max:
yield count # 暂停并返回值
count += 1
# 使用生成器
counter = count_up_to(5)
for num in counter:
print(num) # 输出1, 2, 3, 4, 5
2. 生成器表达式(类似列表推导式)
# 列表推导式(立即计算)
squares_list = [x**2 for x in range(5)] # [0,1,4,9,16]
# 生成器表达式(惰性计算)
squares_gen = (x**2 for x in range(5))
print(list(squares_gen)) # [0,1,4,9,16](需要时计算)
三、生成器核心特性
1. 状态保持
def simple_generator():
yield "第一次暂停"
yield "第二次暂停"
yield "最后一次"
gen = simple_generator()
print(next(gen)) # "第一次暂停"
print(next(gen)) # "第二次暂停"
print(next(gen)) # "最后一次"
# print(next(gen)) # 触发StopIteration
2. 只能遍历一次
numbers = (x for x in range(3))
print(list(numbers)) # [0,1,2]
print(list(numbers)) # [](已耗尽)
3. send()方法传递值
def generator_with_send():
print("启动")
x = yield "请发送值"
print(f"收到: {x}")
yield "结束"
g = generator_with_send()
print(next(g)) # 输出"启动"和"请发送值"
print(g.send(42)) # 发送42,输出"收到:42"和"结束"
四、实际应用场景
1. 处理大型文件
def read_large_file(filename):
with open(filename, 'r') as f:
for line in f:
yield line.strip() # 逐行生成
# 使用示例
for line in read_large_file('huge_data.txt'):
process(line) # 内存友好
2. 生成无限序列
def fibonacci():
a, b = 0, 1
while True:
yield a
a, b = b, a + b
# 获取前10个斐波那契数
fib = fibonacci()
first_10 = [next(fib) for _ in range(10)]
3. 数据管道处理
def integers():
i = 1
while True:
yield i
i += 1
def squares(seq):
for num in seq:
yield num * num
# 组合生成器
pipe = squares(integers())
for i in range(5):
print(next(pipe)) # 1,4,9,16,25
五、生成器高级技巧
1. yield from(委托子生成器)
def sub_generator():
yield 1
yield 2
def main_generator():
yield "开始"
yield from sub_generator() # 委托给子生成器
yield "结束"
print(list(main_generator())) # ['开始',1,2,'结束']
2. 生成器与异常处理
def generator_with_try():
try:
yield "正常执行"
except ValueError as e:
yield f"捕获到异常: {e}"
finally:
yield "总是执行"
g = generator_with_try()
print(next(g)) # "正常执行"
print(g.throw(ValueError("测试"))) # "捕获到异常: 测试"
print(next(g)) # "总是执行"
六、生成器常见问题
Q1: 生成器和迭代器有什么区别?
- 生成器是一种特殊迭代器,使用更简洁的语法(yield)
- 所有生成器都是迭代器,但迭代器不一定是生成器
Q2: 什么时候应该使用生成器?
- 处理大数据集(避免内存不足)
- 需要生成无限序列
- 构建数据处理管道
Q3: 如何重启一个已耗尽的生成器?
def my_gen():
yield 1
yield 2
# 必须重新创建生成器
g1 = my_gen()
list(g1) # [1,2]
g2 = my_gen() # 新的生成器
list(g2) # [1,2]
七、性能对比
操作 | 列表 | 生成器 |
创建1百万数字 | 存储所有元素 | 只存储算法 |
内存占用 | ~8MB | ~1KB |
访问速度 | 快速随机访问 | 顺序访问 |
建议:数据量大时优先使用生成器