极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示

访客 2021年08月26日 17:10 542 0

本文来源:GEETEST极验

导读：随着互联网技术的发展，网络上的黑灰产对抗也日益激烈。在黑灰产攻防双方你追我赶的动态博弈中，验证码扮演着提高攻击门槛、处置恶意流量、辅助风险判别等重要角色。今天将和大家分享验证码的诞生与发展过程、持续升级的开发设计技术与破解技术，以及极验在验证码设计部署上的实践案例。

一、验证码诞生与发展历史

验证码（CAPTCHA）是“全自动区分计算机和人类的公开图灵测试”的缩写，又名HIP（human interaction proof），即“人类交互行为证明”。下图为最早的验证码，于1997年设计公布并申请了专利。此验证码属于字符型验证码，是基于阅读行为的人类交互行为证明。

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第1张图片-网盾网络安全培训

1. 最初应用

1999年slashdot网站发起在线投票，票选全美计算机科学专业最好的学校。而由于投票系统设计得较为简单，仅支持基于IP地址的限制条件，MIT和CMU的学生编写脚本进行批量刷票。这也许是最早的刷票行为。

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第2张图片-网盾网络安全培训

验证码的提出者Luis von Ahn博士与雅虎网站合作开发了EZ-Gimpy字符验证码，部署于雅虎的邮箱注册界面，阻止机器脚本大量注册免费邮箱。

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第3张图片-网盾网络安全培训

除上述在线投票、账号注册场景外，验证码还应用于搜索引擎、反爬虫、有害邮件、防止爆破行为等场景。

2. 最初的对手

字符验证码诞生不久，就遭遇其最初的对手OCR，即“光学字符识别技术”。下面介绍OCR的两种主流实现方式，包括图像识别算法和机器学习模型。

2003年Greg Mori等利用改进的Shape Context算法在雅虎的EZ-Gimpy数据集上达到93%的识别率。需要注意的是，EZ-Gimpy相较于当今的字符验证码更为简单，验证码上仅包括字典中出现的561个短单词字符。所以，这项工作能够达到如此高的识别率也是由于利用了EZ-Gimpy验证码公开的生成逻辑。（Shape Context算法及实现详情可参看《验证码与人工智能的激荡二十年：成为对手》）

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第4张图片-网盾网络安全培训

2005年Kumar Chellapilla等利用CNN模型进行基于单字符识别的验证码识别，通过7组对比实验论证得出，该CNN模型在识别扭曲单个字符任务中的表现远超人类。

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第5张图片-网盾网络安全培训

3. 验证码的发展

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第6张图片-网盾网络安全培训

自验证码诞生至广泛应用以来，各种加强版字符验证码和其它形式验证码层出不穷，观察其发展趋势可总结出两个特点：① 丰富题目类型；② 采集行为数据。

如下为谷歌reCAPTCHA项目的三次迭代版本。第一版选取两张扭曲的字符图片拼接后作为题目展示，本质仍属于字符型验证码。该版本的关键技术的前身是CMU的一个分布式人工识别数字化文字收集项目。验证码中展示的两张图片中仅一张（图A）是真正的题目（有明确答案），而reCAPTCHA本身无法识别另一张图片（图B）中所包含的字符。系统假设如果使用者正确识别了图A，则很大概率上也可以正确识别图B。配合大量用户对同一题目的标注结果，该系统帮助数字化了大量ORC技术难以识别的印刷文字。该版本于2018年3月31日终止服务。

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第7张图片-网盾网络安全培训

当前第二代reCAPTCHA项目更为常见，包括九宫格的图片验证以及判断用户行为的checkbox。当用户点击checkbox（I’m not a robot）时，会有部分浏览器数据及用户浏览行为数据被发送至reCAPTCHA后端。如果根据以上数据难以判断或判断为有风险用户，会弹出九宫格图片进一步验证。

第三代reCAPTCHA项目直接抛弃了有界面和交互的验证码形式，而变身为角落中的一个图标，代表隐私协议。网站主部署此系统后，其JS代码会持续收集用户行为数据，进行用户风险评分（返回一个0~1的float分值，分数越低代表风险越低）。

从reCAPTCHA项目三个版本迭代发展过程中，验证码从字符验证到基于用户行为加图片验证模式，再到完全依赖用户行为数据，可以看出其20年来的发展趋势，即探索更加丰富直观的验证形式和基于多维度数据进行风险判别。

4. 新型验证码探索

在字符验证码的安全性受到挑战以及被广泛反应用户体验较差后，工业界和学术界都在积极探索对用户更加友好且安全的验证形式。

如下左图所示为骰子验证码，由Dice Captcha于2010年独立制作开发。相较于字符验证码，该方法更加友好、直观、易用，并且提升了趣味性。但该方法安全性有限，可暴力破解，未得到广泛应用。而右图所示的验证码仅存在于论文中，安全性很高，但用户体验较差。极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第8张图片-网盾网络安全培训

下图中名为DotCHA的验证码于2019年提出，也仅存于论文和demo中。它利用散落在三维空间中可交互的动态点，组成字符，供给用户识别。极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第9张图片-网盾网络安全培训

此外还有基于传感器、小游戏等形式的验证码，而在设计一款新的验证码时，需要同时兼顾易用性与安全性两个方面。

5. 行为式验证

除探索更加丰富的验证形式外，各款验证码都在尝试利用更多维的数据来提升判断准确性，其中一个主流的代表是行为式验证。

如下左图所示，是传统的基于图片或拼图的验证码与行为信息判断的结合。而右图则是用户体验更好的“无感验证”形式，即利用用户之前的行为数据进行初步风险判定，后面由Google推出的第三代recaptcha就与这种形式不谋而合。

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第10张图片-网盾网络安全培训

此外，目前大多数验证码还会收集设备环境信息、网络信息等数据进行辅助判断。

二、验证码在黑灰产对抗中的角色与实践

1. 验证码角色

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第11张图片-网盾网络安全培训

不同于早期可以简单地按照应用场景划分验证码的角色，在黑灰产攻击手段日渐多样化的今天，验证码承担了更加系统和丰富的新角色，如用以提高攻击门槛、处置恶意流量和辅助风险判断等。

提高攻击门槛：验证码作为必备组件部署在登录、找回密码、下单、评论发帖等关键业务的入口处，可以有效防止撞库、暴力猜解等攻击，大大提高黑灰产的攻击门槛。

处置恶意流量：当前众多互联网企业已经或正在致力于结合实际业务情况，构建自己的风控系统。在风控系统判定结果的前提下，可以结合不同难度级别的验证码进行处理，提升用户体验，降低误判。

辅助风险判别：验证码收集到的行为数据可有效丰富风控系统的信息采集维度，为最终判别提供更多样的视角和依据。比如滑动拼图验证可以收集到用户滑动轨迹，图片识别验证可以收集用户鼠标点击事件。

2. 验证码实践

目前实际使用的主流验证码产品的本质是一个Web应用，依赖HTTP协议。基本运作流程如下：

① 页面中提前部署基于Java或JS等代码的验证码程序；

② 经一定逻辑触发后，初始化程序及后端通讯，加载各种资源完成验证码渲染，等待用户交互；

③ 交互完成后将数据发往后端进行综合判断。下图为极验滑动拼图验证码涉及到的网络请求，包括JS、CSS、图片等文件资源请求。

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第12张图片-网盾网络安全培训

上述过程中，在获取答案和提交答案两部分可能存在被破解的威胁。具体来讲，可以利用计算机视觉、机器学习算法或查库等技术得到验证码答案。之后可采用各种工具将答案以HTTP请求的方式发送给验证码的后端接口。提交答案的工具多种多样，可以简单分为模拟器提交和接口提交两大类。模拟器类工具包括PC端的浏览器模拟器，移动端的手机模拟器等。

2.1 威胁分类

根据上述对黑灰产攻击手段的分析，可以将目前验证码面临的威胁粗略分为如下几类：根据是否有人力参与，分为自动破解和人工打码。自动破解又可以根据团伙规模的大小以及是否对外出售破解能力，分为打码平台和普通破解脚本。平台又可以根据其用途分为图像识别平台和自动破解平台。在图片识别平台中，用户上传待破解的验证码图像，平台返回相应答案，如缺口位置、汉字坐标等。自动破解平台则接管整个验证过程，用户几乎不需要具备任何破解知识和技术。

极验：验证码在黑灰产对抗中的角色和实践，第四代验证码展示-第13张图片-网盾网络安全培训