以Python入门:数据处理与自动化脚本
Python是一种强大的编程语言,广泛应用于数据分析、科学计算、Web开发等领域。对于想要进入数据处理和 automation 的新手来说,Python 是一个非常友好的选择。本文将从基础语法开始,逐步介绍 Python 的核心功能,并通过实际案例展示如何使用常用库(如 Pandas 和 NumPy)进行数据处理。
一、Python 基础语法入门
1. 变量与数据类型
在 Python 中,变量用于存储数据。Python 是动态语言,变量的类型由其值决定。
# 整数和浮点数
a = 5
b = 3.14159
# 字符串
c = "Hello, Python!"
print(c) # 输出:Hello, Python!
# 布尔值
d = True
e = False
2. 运算符与表达式
Python 支持基本的算术运算符和逻辑运算符。
x = 5
y = 3
# 算术运算符
print(x + y) # 输出:8
print(x - y) # 输出:2
print(x * y) # 输出:15
print(x / y) # 输出:1.666...
# 模运算(取余)
print(x % y) # 输出:2
# 逻辑运算符
a = True
b = False
print(a and b) # 输出:False
print(a or b) # 输出:True
3. 输入与输出
读取用户输入或输出结果是编程的基础操作。
name = input("请输入你的名字:")
print(f"你好,{name}!") # 输出:你好,[名字]!
4. 条件语句
条件语句用于根据不同的情况执行代码块。
age = int(input("请输入你的年龄:"))
if age >= 18:
print("你已经成年了。")
elif age < 0:
print("输入错误!")
else:
print("你还未成年。")
5. 循环语句
循环用于重复执行代码块,直到满足特定条件。
for 循环
# 遍历列表中的元素
fruits = ["apple", "banana", "cherry"]
for fruit in fruits:
print(fruit)
while 循环
count = 0
max_count = 5
while count <= max_count:
print(count)
count += 1
二、常用库:Pandas 和 NumPy
1. Pandas:数据处理与数据分析
Pandas 是 Python 中用于数据操作和分析的强大工具,特别适合处理结构化数据(如 CSV 文件)。
安装与导入
import pandas as pd
示例:读取 CSV 文件并进行基本操作
# 读取 CSV 文件
data = pd.read_csv("example.csv")
# 查看前五行数据
print(data.head())
# 描述性统计(数值列)
print(data.describe())
# 按某一列分组,计算均值
grouped_data = data.groupby("category")["value"].mean()
print(grouped_data)
2. NumPy:科学计算与数组操作
NumPy 是 Python 中用于处理数组和矩阵的库,常用于科学计算和数据分析。
安装与导入
import numpy as np
示例:创建数组并进行基本运算
# 创建一个数值数组
arr = np.array([1, 2, 3, 4, 5])
# 数组的形状(行数和列数)
print(arr.shape) # 输出:(5,)
# 简单的数学运算
print(arr * 2) # 输出:[2 4 6 8 10]
print(arr + arr) # 输出:[2 4 6 8 10]
三、简单数据处理项目:销售数据分析
假设我们有一个包含销售数据的 CSV 文件,目标是分析每个月的总销售额。
步骤:
1. 读取 CSV 文件。
2. 检查数据是否存在缺失值。
3. 按月份汇总销售额。
4. 计算每月平均销售额。
实现代码
import pandas as pd
# 读取 CSV 文件
sales_data = pd.read_csv("sales.csv")
# 查看前五行数据
print("前五行数据:")
print(sales_data.head())
# 检查缺失值
missing_values = sales_data.isnull().sum()
print("\n缺失值统计:")
print(missing_values)
# 按月份汇总销售额(假设 'month' 是月份列,'revenue' 是销售额列)
monthly_sales = sales_data.groupby("month")["revenue"].sum()
# 输出结果
print("\n每月总销售额:")
print(monthly_sales)
四、自动化脚本示例:文件重命名
以下是一个自动将文件重命名的 Python 脚本。
实现代码
import os
# 定义源目录和目标格式
source_dir = "images"
new_format = "JPEG"
# 遍历所有文件
for filename in os.listdir(source_dir):
# 检查文件扩展名是否为 .jpg 或 .jpeg
if filename.lower().endswith((".jpg", ".jpeg")):
# 构建新文件名
new_name = f"{os.path.splitext(filename)[0]}.{new_format}"
# 旧路径和新路径
old_path = os.path.join(source_dir, filename)
new_path = os.path.join(source_dir, new_name)
# 重命名文件
os.rename(old_path, new_path)
print(f"已将 {filename} 重命名为 {new_name}")
print("所有文件重命名完成!")
Python 提供了丰富的功能和强大的库,使其成为数据处理和 automation 的理想选择。通过学习基础语法和常用库(如 Pandas 和 NumPy),你可以快速入门并开始编写高效的脚本。