探索 Python CSV 模块的高级用法:从格式识别到数据转换的完整指南

liftword16小时前技术文章5

CSV(逗号分隔值)是一种用于存储表格数据的文件格式。每一行代表一条数据记录,行内的各个字段由逗号分隔。这是数据领域最常见的文件扩展名之一,也是专业环境中最简单的数据交换格式之一。

作为一名具备 Python 技能的数据专业人士,我相信大家都尝试过使用 csv 模块读取和加载数据。通常,我们对 csv 模块的操作仅限于加载数据,然后继续进行其他任务。

例如,我用 csv 模块读取了来自 Kaggle 的“社会情绪数据”CSV 文件,并展示了所有列名:

import csv

with open('sentimentdataset.csv', newline='', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)        
    header = next(reader)         
    print("Columns:", header)

输出结果如下:

Columns: ['', 'Unnamed: 0', 'Text', 'Sentiment', 'Timestamp', 'User', 'Platform', 'Hashtags', 'Retweets', 'Likes', 'Country', 'Year', 'Month', 'Day', 'Hour']

然而,csv 模块能做的远不止这些,很多强大的功能你可能还未发掘。本文将带你探索 csv 模块更多令人惊喜的用法。


1. 自动检测文件格式

csv 模块本意是处理以逗号分隔的数据文件,但借助 Sniffer 方法,你还能让模块检测实际使用了何种分隔符。在彻底读取数据前,可以先识别数据结构(方言)。

例如,以下代码展示了如何用 csv 模块检测文件分隔符:

import csv

with open('sentimentdataset.csv', newline='', encoding='utf-8') as f:
    sample = f.read(2048)
    dialect = csv.Sniffer().sniff(sample, delimiters=[',',';','\t'])
    print(f"Detected delimiter: {repr(dialect.delimiter)}")

输出如下:

Detected delimiter: ','

在上述代码中,我们从数据文件头部读取了 2KB 的样本,并设置了要检测的分隔符集合。检测结果即为文件所用的分隔符。


2. 检测文件是否包含表头

csv 模块不仅能检测文件格式,还能判断文件是否包含表头。

检测方法如下:

has_header = csv.Sniffer().has_header(sample)
print("Header detected?" , has_header)

输出结果:

Header detected? True

虽然看起来很简单,但实际工作中,经常会遇到 csv 文件缺少必要表头的情况,导致我们无法理解数据结构。将表头检测纳入数据流程中,有助于及早发现读入文件时的错误。


3. 以列表形式读取数据

通过 csv 模块读取文件时,我们可以将每一条数据组织为列表格式。实现方法如下:

with open('sentimentdataset.csv', newline='', encoding='utf-8') as f:
    reader = csv.reader(f, dialect)
    header = next(reader)
    for i, row in enumerate(reader):
        if i >= 1: break
        print(row)

输出如下:

['0', '0', ' Enjoying a beautiful day at the park!              ', ' Positive  ', '2023-01-15 12:30:00', ' User123      ', ' Twitter  ', ' #Nature #Park                            ', '15.0', '30.0', ' USA      ', '2023', '1', '15', '12']

现在,每一行数据都以列表形式呈现,便于进行后续的数据处理。


4. 列名与数值自动映射

利用 csv 模块,可以将每条数据转为类似字典的数据结构,将每个字段名映射到对应的值,这样就可以通过字段名快速访问数据。

例如,以下代码自动将列名映射到“Text”和“Sentiment”两个字段的值:

with open('sentimentdataset.csv', newline='', encoding='utf-8') as f:
    dict_reader = csv.DictReader(f, dialect=dialect)
    for i, row in enumerate(dict_reader):
        if i >= 2: break
        print(row['Text'], row['Sentiment'])

输出如下:

Enjoying a beautiful day at the park!                Positive  
Traffic was terrible this morning.                   Negative  

如上所示,我们可以通过键值对方式访问每个字段的数据。这种方法让数据处理更加灵活高效。


5. 将 CSV 文件转换为其他格式

csv 模块不仅可以读取文件,也支持将内容转为其他格式。

例如,可以将 csv 文件转换为 gzip 格式:

import csv, gzip

with gzip.open('sentiment.gz', 'wt', newline='', encoding='utf-8') as gz:
    writer = csv.writer(gz)
    for row in csv.reader(open('sentimentdataset.csv', encoding='utf-8'), dialect=dialect):
        writer.writerow(row)

还可以直接将内容输出到标准输出:

import csv, sys

dialect = csv.Sniffer().sniff(sample, delimiters=[',',';','\t'])
writer = csv.writer(sys.stdout)
for row in csv.reader(open('sentimentdataset.csv', encoding='utf-8'), dialect=dialect):
    writer.writerow(row)

合理使用 writer,可以帮助你将数据转为所需的文件格式。


6. 为非数字字段加引号

在 CSV 文件中,字段可能包含逗号、引号或混合类型数据(文本和数字)。为非数字值加上双引号,可以确保其中内容(包括逗号或换行符)被当作单独的字符串值处理,而不会被错误地识别为分隔符。

实现方法如下:

import csv

INPUT = 'sentimentdataset.csv'
OUTPUT = 'quoted_nonnum.csv'

with open(INPUT, newline='', encoding='utf-8') as fin, \
     open(OUTPUT, 'w', newline='', encoding='utf-8') as fout:

    reader = csv.DictReader(fin)
    writer = csv.writer(fout, quoting=csv.QUOTE_NONNUMERIC)
    writer.writerow(['Text', 'Likes'])

    for row in reader:
        writer.writerow([row['Text'], row['Likes']])

上述代码选取了“Text”和“Likes”两列,并对所有非数字值加引号,保留数字值原样。这样可以有效避免数据被错误识别为分隔符。


结论

作为数据专业人士,我们可以利用 Python 的 csv 模块灵活处理 CSV 文件。实际上,这个模块还有许多令人惊喜的高级用法,比如自动格式检测、数据格式转换等。

希望本文对你有所帮助!

相关文章

读写 CSV 数据

1. 现象读写一个 CSV 格式的文件2. 原因分析无3. 问题解决对于大多数的 CSV 格式的数据读写问题,都可以使用 csv 库,常见的例子:Output.csv内容import csv wit...

pandas.read_csv() 处理 CSV 文件的 6 个有用参数

pandas.read_csv 有很多有用的参数,你都知道吗?本文将介绍一些 pandas.read_csv()有用的参数,这些参数在我们日常处理CSV文件的时候是非常有用的。pandas.read_...

使用Python玩转Excel

Python 读取 Excel 文件的方法主要有以下几种:Pandas库:Pandas 是一个强大的数据处理库,它提供了方便的方法来读取和处理 Excel 文件。优点:Pandas 是一个非常强大的数...

Python自动化-Excel:pandas新建、读取excel文件

命令行窗口:pip install pandasimport pandas as pd新建一个空白excel:to_excel# 新建一个空白excel sh1 = pd.DataFrame() sh...

pandas读取Excel数据(.xlsx和.xls)

Python,速成心法 敲代码,查资料 ,问 Ai 练习,探索,总结,优化 ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ Python教程:PyCharm安装过程中遇到的中英...