Python Regex: 使用$实现匹配行尾

Python 笔记

一、正则表达式简介

正则表达式是一种强大的匹配字符串的工具，它可以在文本中搜索和匹配模式，而不是对每个单词进行逐一匹配。在Python中，我们使用re模块来使用正则表达式进行搜索。

正则表达式由一个或多个字符和元字符组成，它的匹配模式可用于搜索或替换字符串。元字符是一些具有特殊含义的字符，它们可以用于字符组合和重复匹配等操作。

例如，使用正则表达式在文本中找出所有以字母a开头的单词，我们可以使用以下代码:


import re

text = 'apple is a fruit and a good one at that.'
pattern = r'\ba\w*'

match = re.findall(pattern, text)

print(match)

运行结果:


['apple', 'and', 'at']

上述代码中，使用re模块中的findall方法查找所有符合正则表达式的匹配项，\b表示单词的开头，\w表示字母、数字或下划线，*表示零个或多个。

二、使用$匹配行尾

在正则表达式中，$表示行尾。我们可以使用它来匹配以特定字符结尾的行。

假设现在我们有一个文件rivers.txt，里面包含了世界各大河流的名称和长度，以制表符分隔:


Nile	6650
Amazon	6575
Yangtze	6300
Mississippi	6275
Yenisei	5540
Yellow	5464
Ob	5410
Parana	4880
Congo	4700

现在我们想要匹配行尾的数字。我们可以使用以下正则表达式:


import re

with open('rivers.txt', 'r') as file:
    for line in file:
        pattern = r'\d+$'
        match = re.findall(pattern, line)
        print(match)

运行结果:


['6650']
['6575']
['6300']
['6275']
['5540']
['5464']
['5410']
['4880']
['4700']

在上面的代码中，我们使用了with关键字来打开文件，然后逐行读取。$匹配行末的数字，\d+表示一个或多个数字。

三、应用举例

我们可以将使用$来匹配行尾的技巧应用于各种情况中。下面是一些有用的示例:


import re

ip = '192.168.0.1:8080'
pattern = r'\d+$'
match = re.findall(pattern, ip)
print(match)

运行结果:


['8080']

上述代码中，我们匹配了IP地址后面的端口号。


import re

file_name = 'document.docx'
pattern = r'\w+$'
match = re.findall(pattern, file_name)
print(match)

运行结果:


['docx']

上述代码中，我们匹配了文件名后面的扩展名。


import re

text = 'Hello World!\n'
pattern = r'!\n$'
match = re.findall(pattern, text)
print(match)

运行结果:


['!\n']

上述代码中，我们匹配了以!结尾的行。

四、总结

使用$实现匹配行尾是一个非常有用的技巧，它可以帮助我们快速查找特定文本的末尾。在实际中，我们可以根据需要进行多种组合，针对不同的需求进行正则表达式的编写。