Python-100-Days/Day66-75/06.表单交互和验证码处理.md

717 B
Raw Blame History

表单交互和验证码处理

提交表单

手动提交

自动提交

验证码处理

加载验证码

光学字符识别

光学字符识别OCR是从图像中抽取文本的工具可以应用于公安、电信、物流、金融等诸多行业例如识别车牌身份证扫描识别、名片信息提取等。在爬虫开发中如果遭遇了有文字验证码的表单就可以利用OCR来进行验证码处理。Tesseract-OCR引擎最初是由惠普公司开发的光学字符识别系统目前发布在Github上由Google赞助开发。

改善OCR

处理更复杂的验证码

验证码处理服务