Python数据分析工具——pandas文件读取及操作

Python 笔记

一、pandas简介

pandas是Python中最重要的数据分析库之一。它广泛应用于数据科学领域，可以用于数据清洗、统计分析、数据可视化等多个方面。pandas提供了高级数据结构，广泛支持CSV、Excel、SQL、JSON、HTML、HDF5等文件格式的数据读写格式。同时，它还提供了数据清洗、数据重塑、数据聚合、数据切片等常用的数据操作功能。

二、pandas文件读取

1、从CSV文件中读取数据

读取CSV文件的语法如下：

import pandas as pd
dataframe=pd.read_csv('file_name.csv')
print(dataframe)

其中，file_name.csv是待读取的csv文件名，read_csv函数返回的是一个pandas.DataFrame类型的数据。通过print可以打印出该DataFrame类型的数据。

2、从Excel文件中读取数据

要从Excel文件中读取数据，需要安装xlrd库。读取Excel文件的语法如下：

import pandas as pd
dataframe=pd.read_excel('file_name.xlsx', sheet_name='Sheet1')
print(dataframe)

其中，file_name.xlsx是待读取的Excel文件名，sheet_name参数是可选参数，用于指定要读取哪个工作表。

3、从SQL数据库中读取数据

要从SQL数据库中读取数据，需要安装pymssql、mysqldb、pymysql等库。SQLAlchemy可以适用于多个数据库平台，并能提供ORM支持。读取SQL数据的语法如下：

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('mysql+mysqldb://user:password@hostname/database_name')
dataframe = pd.read_sql('SELECT * FROM table_name', engine)
print(dataframe)

其中，create_engine参数需要设置用户名、密码、主机名、数据库名等信息，具体信息需要根据实际情况进行设置。

三、pandas数据操作

1、数据清洗

一般来说，数据源的数据含有大量的缺失值、异常值、重复值。pandas提供了丰富的数据清洗功能，如删除重复值、填充空缺值等。如下所示：

import pandas as pd
dataframe=pd.read_csv('file_name.csv')
new_dataframe = dataframe.drop_duplicates() #删除重复行
new_dataframe = new_dataframe.fillna(value=0) #将缺失值替换为0
print(new_dataframe)

2、数据重塑

数据重塑是指根据数据的某些特征进行排序、分组等操作。这些操作能够更好地理解数据、缩小数据范围，以便进行分析。如下所示：

import pandas as pd
import numpy as np
dataframe=pd.read_csv('file_name.csv')
grouped = dataframe.groupby(by='category')
result = grouped.aggregate(np.mean) # 对每个类别进行平均值计算
print(result)

3、数据聚合

数据聚合是指将一部分数据看成一整体，然后对整体进行操作。如下所示：

import pandas as pd
import numpy as np
dataframe=pd.read_csv('file_name.csv')
grouped = dataframe.groupby(by='category')
result = grouped.agg({'value': np.sum, 'quantity': np.mean}) # 每个类别的总和和平均值
print(result)

4、数据切片

数据切片是指从DataFrame中选取一部分数据进行分析，这可以带来更加专业的分析结果。如下所示：

import pandas as pd
dataframe=pd.read_csv('file_name.csv')
new_dataframe = dataframe[['column1', 'column3']] # 选择'column1'和'column3'
print(new_dataframe)

四、总结

pandas是Python数据分析中不可或缺的工具库。从文件读取到数据操作，它提供了广泛支持也灵活的数据操作方式。开发者可以使用pandas轻松解决数据分析过程中的种种问题。