Pandas:一个高性能的数据分析Python库

liftword1周前 (12-20)技术文章10

前言

Pandas是Python中一个非常强大的数据分析工具,它提供了丰富的数据处理和操作功能,可以快速高效地处理和转换数据。Pandas支持多种格式的数据输入和输出,包括CSV、Excel、JSON、SQL、HTML等,这大大增加了其在各种环境中的适用性。在我以往的工作经历中,主要用Pandas处理数据,统计分析结果,它可以像你操作Excel表格统计数据那样,用Pandas实现同样的功能,然后保存在excel里面。

在本文中,我们将初步学习pandas的基本用法,Serial,跟DataFrame的区别,基本的数据操作

安装

pip install pandas

快速入门

一.pandas Serial

Pandas Series是一种类似于一维数组的数据结构类似表格的一列(column)数据,可以保存任何数据,Series由索引,数据列组成

1.创建Series

>>> a = [1,2,3,4]
>>> ser = pd.Series(a)
>>> ser
0    1
1    2
2    3
3    4
dtype: int64
>>> ser[0]  # 访问第一个元素
1

2.指定索引

>>> a = [1,2,3,4]
>>> ser = pd.Series(a,index=["a","b","c","d"])
>>> ser
a    1
b    2
c    3
d    4
dtype: int64
>>> ser['a']
1

3.字典创建series

字典key变成了索引

>>> dictData ={1:"a",2:"b",3:"c",4:"d"}
>>> ser = pd.Series(dictData)
>>> ser
1    a
2    b
3    c
4    d
dtype: object

二.Pandas DataFrame

Pandas DataFrame是一种二维的数据结构,它类似于一个表格。可以包含任何类型的数据

基本结构如下

pandas.DataFrame( data, index, columns, dtype, copy)

参数数据如下

data:一组数据(各种类型)


index :索引


columns :列名称,(可以不写)默认0,1,2....


dtype :数据类型(可以不写)


copy: 拷贝数据,默认False(可以不写)
  1. 创建带columns的DataFrame
>>> data = [["python",10],["java",9],["c++",8],["js",7]]
>>> df = pd.DataFrame(data,columns=["name","score"])
>>> df
     name  score
0  python     10
1    java      9
2     c++      8
3      js      7

2.不带columns的DataFrame

>>> df2 = pd.DataFrame(data)
>>> df2
        0   1
0  python  10
1    java   9
2     c++   8
3      js


>>> data = [1,2,3,4,5,6]
>>> df3 = pd.DataFrame(data)
>>> df3
    0
0   1
1   2
2   3
3   4
4   5
5   6

三.常用函数

1.最大值df.max()

>>> data = [["python",10],["java",9],["c++",8],["js",7]]
>>> df = pd.DataFrame(data,columns=["name","score"])
>>> df.max()
name     python
score        10
dtype: object
>>> 

2.最小值df.min()

>>> df.min()
name     c++
score      7
dtype: object

3.平均值df.mean()

>>> df["score"].mean()
8.5

4.查看前面几行df.head(n)

这个函数看表格的表头很有用

>>> df.head(2)
     name  score
0  python     10
1    java      9
>>>

5.查看最后面几行df.tail(n)

>>> df.tail(2)
  name  score
2  c++      8
3   js      7
>>>

6.显示基本的统计信息df.describe()

>>> df.describe()
           score
count   4.000000
mean    8.500000
std     1.290994
min     7.000000
25%     7.750000
50%     8.500000
75%     9.250000
max    10.000000
>>>

7.获取行数跟列数df.shape()

>>> df.shape
(4, 2)
>>>

8.查看DataFrame基本信息 df.info

>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    4 non-null      object
 1   score   4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 192.0+ bytes
>>> 

9.读取数据 pd.read_excel()

>>> ex = pd.read_excel(r"D:\code\test.xlsx")
>>> ex
     1  a
0  2.0  b
1  3.0  c
2  4.0  d
3  NaN  d

10.读取csv,txt都可以用df.read_csv()

>>> cv = pd.read_csv(r"D:\code\test.txt",sep=" ")
>>> cv
   a  1
0  b  2
1  c  3
2  d  4
3  e  5
>>> csv = pd.read_csv(r"D:\code\test.csv",sep=",")
>>> csv
   a  1
0  b  2
1  c  3
2  d  4
3  e  5

11.保存文件 df.to_excel()

>>> data = [["python",10],["java",9],["c++",8],["js",7]]
>>> df = pd.DataFrame(data,columns=["name","score"])
>>> df.to_excel(r"D:\code\testSave.xlsx")

12.保存到txt

>>> data = [["python",10],["java",9],["c++",8],["js",7]]
>>> df = pd.DataFrame(data,columns=["name","score"])
>>> df.to_csv(r"D:\code\savtTxt.txt")


总结

Pandas是一个强大的Python数据分析库,它提供了快速、灵活和富有表现力的数据结构,在工作中常用以下

  1. 读取excel数据进行统计分析,保存到表格
  2. 读取txt里面的数据,清洗过滤,统计分析,然后保存到表格
  3. Matplotlib结合使用把统计结果保存图片


以上只列举了很少的一部分功能,比如数据选择函数loc[]iloc[]at[]本文就没列举。

更多用法参考官方文档

https://pandas.pydata.org/


相关文章

Python 数据分析:数据分析中的常见统计方法解析

数据分析是现代社会中不可或缺的一部分,通过对数据的统计和分析,我们可以得出有用的信息和见解,支持决策和解决问题。本文将介绍在 Python 中常见的数据统计方法,包括描述性统计、假设检验、回归分析等,...

第4天|16天搞定Python数据分析,图表,靓靓靓

统计图是根据统计数字,用几何图形、事物形象和地图等绘制的各种图形。它具有直观、形象、生动、具体等特点。统计图可以使复杂的统计数字简单化、通俗化、形象化,使人一目了然,便于理解和比较。在上一篇《第3天|...

第6天|16天搞定Python数据分析,Pandas读数据

在进行数据分析时,用随机生成的数据,其实并没有多大的意义。有意义的数据,大多数是存在数据库(db)、文件(excel等),还有就是网络(html、json或xml)中的。有关文件的操作和解析,在学习P...

Python 数据工程全解析:从基础到实战

Python 数据工程学习指南在数据工程领域,Python 出色的滑稳性和存在大量充实的库,让它成为举象实施数据工程的重要选择。本文将从下列方面总结你如何利用 Python 执行大规模数据处理:1....

&quot;Python数据分析基石:Pandas全方位解析(史上最全面!)&quot;

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快...

Python数据分析:利用Pandas进行数据挖掘

数据分析是现代商业和科研中不可或缺的技能,而Python的Pandas库则是进行数据分析的强大工具。Pandas提供了丰富的数据结构和数据分析功能,使得处理和分析数据变得更加简单和高效。以下是一些使用...