Python Pandas读取数据逐行处理的最佳实践

Python 笔记

一、选用合适的读取数据方法

在使用Pandas处理数据时，选择正确的读取方式是至关重要的。Pandas提供了多种读取数据的方式，包括read_csv、read_excel等方法。但是对于大数据量的文件，直接使用read_csv和read_excel等方法可能会导致内存不足的问题。这时就需要采用逐行读取数据的方式进行处理，并使用一些技巧来加速处理速度。

对于csv文件，可以使用csv模块自带的reader来进行逐行读取。实例代码如下：

import csv

with open('filename.csv', 'r') as f:
    reader = csv.reader(f)
    for row in reader:
        # process row

对于excel文件，可以使用openpyxl模块进行逐行读取。实例代码如下：

import openpyxl

workbook = openpyxl.load_workbook('filename.xlsx')
worksheet = workbook['Sheet1']

for row in worksheet.iter_rows(values_only=True):
    # process row

二、使用DataFrame的iterrows()方法

对于小型数据集，可以使用Pandas自带的iterrows()方法来进行逐行读取。iterrows()是一个生成器，它将每一行数据转换为一个元组（index, Series），其中index是行号，Series是行数据。实例代码如下：

import pandas as pd

df = pd.read_csv('filename.csv')

for index, row in df.iterrows():
    # process row

但是，对于大型数据集，iterrows()的速度较慢，因为它将每一行数据转换为一个Series对象，而Series对象需要为每一行数据分配内存。这样就会导致内存消耗过大，处理速度变慢。

三、使用DataFrame的itertuples()方法

相比于iterrows()方法，使用itertuples()方法可以提高处理速度，并且内存占用较小。itertuples()方法返回一个命名元组对象，其中元组的属性和列名相对应。与iterrows()方法相比，它不需要为每一行数据分配内存。实例代码如下：

import pandas as pd

df = pd.read_csv('filename.csv')

for row in df.itertuples():
    # process row

四、使用chunksize参数

对于大型数据集，可以使用chunksize参数来指定每次读取数据的行数。在read_csv()和read_excel()方法中，chunksize指定一次读取多少行数据。每次读取的数据是一个DataFrame对象。通过for循环遍历每次读取的DataFrame对象，可以逐行处理数据，并且不会消耗过多的内存。实例代码如下：

import pandas as pd

chunksize = 10000
for df in pd.read_csv('filename.csv', chunksize=chunksize):
    for row in df.itertuples():
        # process row

五、缓存列与使用iloc方法

如果DataFrame中包含不需要处理的列，可以使用Pandas的Memory Efficient使用方法来提高处理效率。实现的方法是使用usecols参数对需要处理的列进行筛选，并采用iloc方法只获取需要的列对应的数据。实例代码如下：

import pandas as pd

chunksize = 10000
usecols = ['col1', 'col2']

for df in pd.read_csv('filename.csv', chunksize=chunksize, usecols=usecols):
    col1 = df['col1']
    col2 = df['col2']
    for i in range(len(col1)):
        # process col1[i] and col2[i]

六、避免使用apply方法

不要使用apply()方法逐行处理数据，它会导致处理时间变长。对于基于NumPy的操作和聚合函数，应该使用Pandas内置的方法，如sum()、mean()、count()等。对于其他自定义函数，使用向量化的方法进行操作可以提高处理速度。实例代码如下：

import pandas as pd
import numpy as np

df = pd.read_csv('filename.csv')

# Use Pandas' built-in functions for operations on columns
col1_sum = df['col1'].sum()

# Use Numpy's vectorized functions for custom operations
def custom_func(x):
    return np.sin(x)

df['col2'] = custom_func(df['col2'])

七、结合使用上述方法

对于涉及大型数据集的任务，结合使用上述方法可以提高处理速度和减少内存占用。例如，结合使用chunksize参数和itertuples()方法可以以更快的速度处理大型CSV文件：

import pandas as pd

chunksize = 10000
usecols = ['col1', 'col2']
total_sum = 0

for df in pd.read_csv('filename.csv', chunksize=chunksize, usecols=usecols):
    for row in df.itertuples():
        col1 = row.col1
        col2 = row.col2
        total_sum += col1 * col2

八、总结

选择适当的数据读取方法和处理方法、借助Python的基础库来读取文件、缓存列、避免使用apply和结合使用多种方法，可以让我们更快地处理大量数据。