以Python入门:数据处理与自动化脚本

liftword2个月前 (02-24)技术文章13

Python是一种强大的编程语言,广泛应用于数据分析、科学计算、Web开发等领域。对于想要进入数据处理和 automation 的新手来说,Python 是一个非常友好的选择。本文将从基础语法开始,逐步介绍 Python 的核心功能,并通过实际案例展示如何使用常用库(如 Pandas 和 NumPy)进行数据处理。


一、Python 基础语法入门

1. 变量与数据类型

在 Python 中,变量用于存储数据。Python 是动态语言,变量的类型由其值决定。

# 整数和浮点数
a = 5
b = 3.14159

# 字符串
c = "Hello, Python!"
print(c) # 输出:Hello, Python!

# 布尔值
d = True
e = False

2. 运算符与表达式

Python 支持基本的算术运算符和逻辑运算符。

x = 5
y = 3

# 算术运算符
print(x + y) # 输出:8
print(x - y) # 输出:2
print(x * y) # 输出:15
print(x / y) # 输出:1.666...

# 模运算(取余)
print(x % y) # 输出:2

# 逻辑运算符
a = True
b = False
print(a and b) # 输出:False
print(a or b) # 输出:True

3. 输入与输出

读取用户输入或输出结果是编程的基础操作。

name = input("请输入你的名字:")
print(f"你好,{name}!") # 输出:你好,[名字]!

4. 条件语句

条件语句用于根据不同的情况执行代码块。

age = int(input("请输入你的年龄:"))

if age >= 18:
print("你已经成年了。")
elif age < 0:
print("输入错误!")
else:
print("你还未成年。")

5. 循环语句

循环用于重复执行代码块,直到满足特定条件。

for 循环

# 遍历列表中的元素
fruits = ["apple", "banana", "cherry"]
for fruit in fruits:
print(fruit)

while 循环

count = 0
max_count = 5

while count <= max_count:
print(count)
count += 1


二、常用库:Pandas 和 NumPy

1. Pandas:数据处理与数据分析

Pandas 是 Python 中用于数据操作和分析的强大工具,特别适合处理结构化数据(如 CSV 文件)。

安装与导入

import pandas as pd

示例:读取 CSV 文件并进行基本操作

# 读取 CSV 文件
data = pd.read_csv("example.csv")

# 查看前五行数据
print(data.head())

# 描述性统计(数值列)
print(data.describe())

# 按某一列分组,计算均值
grouped_data = data.groupby("category")["value"].mean()
print(grouped_data)

2. NumPy:科学计算与数组操作

NumPy 是 Python 中用于处理数组和矩阵的库,常用于科学计算和数据分析。

安装与导入

import numpy as np

示例:创建数组并进行基本运算

# 创建一个数值数组
arr = np.array([1, 2, 3, 4, 5])

# 数组的形状(行数和列数)
print(arr.shape) # 输出:(5,)

# 简单的数学运算
print(arr * 2) # 输出:[2 4 6 8 10]
print(arr + arr) # 输出:[2 4 6 8 10]


三、简单数据处理项目:销售数据分析

假设我们有一个包含销售数据的 CSV 文件,目标是分析每个月的总销售额。

步骤:

1. 读取 CSV 文件。

2. 检查数据是否存在缺失值。

3. 按月份汇总销售额。

4. 计算每月平均销售额。

实现代码

import pandas as pd

# 读取 CSV 文件
sales_data = pd.read_csv("sales.csv")

# 查看前五行数据
print("前五行数据:")
print(sales_data.head())

# 检查缺失值
missing_values = sales_data.isnull().sum()
print("\n缺失值统计:")
print(missing_values)

# 按月份汇总销售额(假设 'month' 是月份列,'revenue' 是销售额列)
monthly_sales = sales_data.groupby("month")["revenue"].sum()

# 输出结果
print("\n每月总销售额:")
print(monthly_sales)


四、自动化脚本示例:文件重命名

以下是一个自动将文件重命名的 Python 脚本。

实现代码

import os

# 定义源目录和目标格式
source_dir = "images"
new_format = "JPEG"

# 遍历所有文件
for filename in os.listdir(source_dir):
# 检查文件扩展名是否为 .jpg 或 .jpeg
if filename.lower().endswith((".jpg", ".jpeg")):
# 构建新文件名
new_name = f"{os.path.splitext(filename)[0]}.{new_format}"
# 旧路径和新路径
old_path = os.path.join(source_dir, filename)
new_path = os.path.join(source_dir, new_name)
# 重命名文件
os.rename(old_path, new_path)
print(f"已将 {filename} 重命名为 {new_name}")

print("所有文件重命名完成!")


Python 提供了丰富的功能和强大的库,使其成为数据处理和 automation 的理想选择。通过学习基础语法和常用库(如 Pandas 和 NumPy),你可以快速入门并开始编写高效的脚本。

相关文章

Python矩阵操作详解

Python 处理矩阵的方式有很多,其中最常用的库是 NumPy,它提供了高效的矩阵运算和操作能力。此外,pandas、SciPy 和 TensorFlow 等库也支持矩阵运算。下面介绍一下矩阵操作的...

NumPy线性代数教程:轻松掌握矩阵运算

线性代数是数据科学、机器学习和工程领域的基石。而NumPy作为Python中最强大的科学计算库之一,也提供了丰富的线性代数功能,能够帮助我们高效地进行矩阵运算。今天的内容会需要一些大学线性代数基础,但...

Numpy中常用的10个矩阵操作示例

数据科学和机器学习所需的数学知识中,约有30-40%来自线性代数。矩阵运算在线性代数中占有重要的地位。Numpy通常用于在Python中执行数值计算,并且对于矩阵操作做了特殊的优化。numpy通过向量...

学习Numpy,看这篇文章就够啦

导读:在数据分析当中,Python用到最多的第三方库就是Numpy。本文内容是「大数据DT」内容合伙人王皓阅读学习《Python 3智能数据分析快速入门》过后的思考和补充,结合这本书一起学习,效果更佳...

进入Python的世界27-NumPy 库的介绍及学习方法

NumPy是多个高级库的基础,掌握深度学习之前,必须先学习这个库,让咱们一起开始学习了解一下这个库,形成自己的学习与知识体系。一 NumPy 主要框架内容1. ndarray对象ndarray(N-d...

Python Numpy和矩阵的相关面试问题

通常,数据科学家被要求在Python中执行简单的矩阵运算,这应该很简单,但许多人会偏离正轨。本文将介绍面试中经常出现的4个Numpy/matrix问题,并用Python编写代码。问题1:给定4x4 N...