更新文字小细节
parent
4502900058
commit
6e71ff2db0
|
@ -115,7 +115,7 @@ def main():
|
|||
pattern = re.compile(r'(?<=\D)1[34578]\d{9}(?=\D)')
|
||||
sentence = '''
|
||||
重要的事情说8130123456789遍,我的手机号是13512346789这个靓号,
|
||||
不是15600998765,也是110或119,王大锤的手机号才是15600998765。
|
||||
不是15600998765,也不是110或119,王大锤的手机号才是15600998765。
|
||||
'''
|
||||
# 查找所有匹配并保存到一个列表中
|
||||
mylist = re.findall(pattern, sentence)
|
||||
|
@ -177,4 +177,4 @@ if __name__ == '__main__':
|
|||
|
||||
### 后话
|
||||
|
||||
如果要从事爬虫类应用的开发,那么正则表达式一定是一个非常好的助手,因为它可以帮助我们迅速的从网页代码中发现某种我们指定的模式并提取出我们需要的信息,当然对于初学者来收,要编写一个正确的适当的正则表达式可能并不是一件容易的事情(当然有些常用的正则表达式可以直接在网上找找),所以实际开发爬虫应用的时候,有很多人会选择[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/)或[Lxml](http://lxml.de/)来进行匹配和信息的提取,前者简单方便但是性能较差,后者既好用性能也好,但是安装稍嫌麻烦,这些内容我们会在后期的爬虫专题中为大家介绍。
|
||||
如果要从事爬虫类应用的开发,那么正则表达式一定是一个非常好的助手,因为它可以帮助我们迅速的从网页代码中发现某种我们指定的模式并提取出我们需要的信息,当然对于初学者来说,要编写一个正确的适当的正则表达式可能并不是一件容易的事情(当然有些常用的正则表达式可以直接在网上找找),所以实际开发爬虫应用的时候,有很多人会选择[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/)或[Lxml](http://lxml.de/)来进行匹配和信息的提取,前者简单方便但是性能较差,后者既好用性能也好,但是安装稍嫌麻烦,这些内容我们会在后期的爬虫专题中为大家介绍。
|
Loading…
Reference in New Issue