当前分类:python>>正文

python正则表达式匹配时间

来源:互联网   时间:2022年8月31日   编辑

正则表达式基本上做采集的都会碰到,可以说是常用的。今天一个朋友找到我说采集到的文章中都包含有时间信息,格式是时:分:秒这样的,问我有没有办法一键去除掉。

我首先想到的就是使用正则表达式来处理,除此之外,不知道还有没有好的办法。

说干就干,让朋友发了几个范文来看,就开始动手了。

实际上还是非常简单的。

先来个简单的例子:

文章发布于17:22:59秒这样的

简单点处理,就是2位数字2位数字这样的

我们可以用这样一条正则

regx=re.compile(r'\d{,2}:\d{,2}:\d{,2}')

这样子写基本上也能解决问题,但是如果要精确匹配时间的话是做不到的

比如,像

33:67:58

这样的,虽然也可以匹配到,但这个显然不是一个时间!

那么要匹配准确点,可以稍微改一下

比如

regx=re.compile(r'[^3-9][0-9]:[0-5]\d:[0-5]\d')

这样写的话,又更精准一些,不过,也会存在一点问题,具体什么问题呢,懂的朋友,一看就会明白。

[猜你喜欢]

标签: 正则表达式