正则表达式基本上做采集的都会碰到,可以说是常用的。今天一个朋友找到我说采集到的文章中都包含有时间信息,格式是时:分:秒这样的,问我有没有办法一键去除掉。
我首先想到的就是使用正则表达式来处理,除此之外,不知道还有没有好的办法。
说干就干,让朋友发了几个范文来看,就开始动手了。
实际上还是非常简单的。
先来个简单的例子:
文章发布于17:22:59秒这样的
简单点处理,就是2位数字2位数字这样的
我们可以用这样一条正则
regx=re.compile(r'\d{,2}:\d{,2}:\d{,2}')
这样子写基本上也能解决问题,但是如果要精确匹配时间的话是做不到的
比如,像
33:67:58
这样的,虽然也可以匹配到,但这个显然不是一个时间!
那么要匹配准确点,可以稍微改一下
比如
regx=re.compile(r'[^3-9][0-9]:[0-5]\d:[0-5]\d')
这样写的话,又更精准一些,不过,也会存在一点问题,具体什么问题呢,懂的朋友,一看就会明白。
标签: