Python Pandas实现字符串子串检测

Python 笔记

一、介绍

在实际应用中，经常需要对字符串进行子串检测，以便过滤、筛选、统计、匹配等操作。Python自带了字符串相关的操作函数和正则表达式库，但是当我们处理较大的文本数据时，这些方法的效率可能较低。 Pandas是Python中一种基于NumPy的数据处理库，不仅支持强大的数据结构和算法，还能高效地处理大规模的数据。本文就介绍如何使用Pandas中的str.contains()函数来实现字符串子串检测操作。

二、使用str.contains()函数实现字符串子串检测

Pandas中的str.contains()函数可以检测Series中的每个元素是否包含指定的子串，并返回一组布尔值。下面是一个示例代码：

import pandas as pd

data = pd.Series(['apple', 'banana', 'pear', 'orange'])
mask = data.str.contains('app')
print(mask)

运行代码后，将会输出以下结果：

0     True
1    False
2    False
3    False
dtype: bool

从结果可以看出，只有第一个元素包含了子串“app”，而其他元素没有包含。可以发现，str.contains()函数的参数可以是字符串或正则表达式。如果要使用正则表达式进行匹配，只需将regex参数设置为True即可。

三、实际案例：处理电影数据

接下来，我们以电影数据为例，演示如何使用Pandas中的str.contains()函数进行字符串子串检测和筛选操作。首先，我们需要导入电影数据集，并查看数据的前几行。

import pandas as pd

# 读取电影数据
movies = pd.read_csv("movies.csv")

# 查看数据的前5行
print(movies.head())

运行代码后，将会输出以下结果：

   movieId                               title                  genres
0        1                    Toy Story (1995)  Adventure|Animation|Children|Comedy|Fantasy
1        2                      Jumanji (1995)                   Adventure|Children|Fantasy
2        3             Grumpier Old Men (1995)                           Comedy|Romance
3        4            Waiting to Exhale (1995)                     Comedy|Drama|Romance
4        5  Father of the Bride Part II (1995)                           Comedy

我们可以看到，该数据集包含3个列：movieId表示电影的ID，title表示电影的名称和上映年份，genres表示电影的类型。

然后，我们就可以用str.contains()函数，从数据中选取包含指定类型的电影，并输出结果。例如，如果我们想选取所有包含“Action”类型的电影，可以如下编写代码：

# 选取Action类型电影
action_movies = movies[movies["genres"].str.contains("Action")]

# 查看第一行数据
print(action_movies.head(1))

运行代码后，将会输出以下结果：

     movieId              title                             genres
8          9  Sudden Death (1995)  Action|Adventure|Thriller

我们可以看到，action_movies变量中仅包含一个电影，该电影的ID为9，名称为“Sudden Death”，类型为“Action|Adventure|Thriller”。

四、总结

通过本文的介绍，我们了解了如何使用Pandas中的str.contains()函数来实现字符串子串检测操作，以及如何在实际案例中应用该函数进行数据筛选和分析。Pandas的强大功能将为我们的数据预处理和分析工作提供极大的便利。感兴趣的读者可以尝试使用其他Pandas函数来进一步扩展和优化代码。