Python-100-Days/Day66-75/71.表单交互和验证码处理.md

35 lines
1.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

## 表单交互和验证码处理
### 提交表单
#### 手动提交
#### 自动提交
### 验证码处理
#### 加载验证码
#### 光学字符识别
光学字符识别OCR是从图像中抽取文本的工具可以应用于公安、电信、物流、金融等诸多行业例如识别车牌身份证扫描识别、名片信息提取等。在爬虫开发中如果遭遇了有文字验证码的表单就可以利用OCR来进行验证码处理。Tesseract-OCR引擎最初是由惠普公司开发的光学字符识别系统目前发布在Github上由Google赞助开发。
![](./res/tesseract.gif)
#### 改善OCR
#### 处理更复杂的验证码
很多网站为了分别出提供验证码的是人还是机器使用了更为复杂的验证码,例如拼图验证码、点触验证码、九宫格验证码等。关于这方面的知识,在崔庆才同学的[《Python 3网络爬虫开发实战》](http://www.ituring.com.cn/book/2003)有较为详细的讲解,有兴趣的可以购买阅读。
#### 验证码处理服务