2021-02-24

2021-02-26 08:36 900人阅读评论(0)

从应用端到服务端，设备指纹生成算法大变革

设备指纹是用来标识手机或者浏览器的唯一 ID。基于这个 ID，我们能够精确定位一个设备，将使用该设备的全部数据进行关联。结合更加多样化的数据，黑产设备的识别准确性也将大幅提升。

设备指纹从何而来？一般而言，我们先在设备上集成一个 SDK，通过 SDK 采集设备多个维度的数据，选择其中一些能够唯一标识一台设备的数据，再利用一定算法生成设备指纹。

为了保证设备指纹的准确性，我们会选取唯一性和稳定性较高的字段来生成，并且要尽可能防止这些字段被恶意篡改而导致设备指纹发生变化。

01 如何判断设备指纹是否优质？

衡量设备指纹优劣的最重要指标是唯一性和稳定性。

唯一性：不同设备生成的设备指纹一定不会重复。这一指标帮助我们确认设备使用者身份的唯一性。如果设备指纹的唯一性不足，则可能导致不同设备的设备指纹发生碰撞，在一些风控策略较严格的场景下，可能会导致正常用户被误判。

稳定性：设备系统升级或少量数据变更时，设备指纹不会发生变化。如果设备指纹的稳定性不佳，则同一个设备的设备指纹一直变化，对黑产的识别效果会减弱。

02 如何生成设备指纹？

设备指纹生成算法是指根据采集的数据，利用一定的算法计算出一个值来标识该设备。其基本原理可根据概率论来解释。

2.1 单个字段条件概率分析

所谓设备指纹的唯一性，就是在已知某个设备数据的情况下，计算这个设备属于某个 Sid 的条件概率：

𝒑(𝒔𝒊𝒅|𝒅𝒆𝒗𝒊𝒄𝒆𝒊𝒏𝒇𝒐) = 𝒑(𝒔𝒊𝒅|(𝒎𝒂𝒄,𝒊𝒎𝒆𝒊,𝒂𝒏𝒅𝒓𝒐𝒊𝒅𝒊𝒅,𝒔𝒆𝒓𝒊𝒂𝒍𝑵𝒖𝒎))

实际上，这里概率很难精确统计出来，但是可以根据大数据统计分析进行估算。当对总量1000w的数据进行统计时：

以 idfv 聚合统计为例，发现每个 idfv 都指向一个不同的设备，即知道 idfv 后，就能唯一确定是哪台设备。换而言之，idfv 的唯一性很高，其区分度等于100%，其条件概率如下：

𝒑(𝒔𝒊𝒅|𝒊𝒅𝒇𝒗 = 𝟏𝑪𝟐𝟗𝑫𝑫𝑨𝟗 − 𝟔𝟖𝟗𝑬 − 𝟒𝑬𝟓𝟒 − 𝑨𝟖𝟔𝟒 − 𝟗𝟒𝟗𝟎𝑬𝑫𝑩𝟑𝟗𝟕𝟗𝑬) = 𝟏

以 ip 为例，220.170.50.207这个 ip 指向208个不同的设备，即知道 ip 之后，还是有可能不能完全确定是哪个设备，但是范围已经从1千万缩小到208个，其区分度相对较低，其条件概率如下：

𝒑(𝒔𝒊𝒅|𝒊𝒑 = 𝟐𝟐𝟎.𝟏𝟕𝟎.𝟓𝟎.𝟐𝟎𝟕) = 𝟏/𝟐𝟎𝟖

2.2 多个字段组合的条件概率分布

上文直观地描述了多个字段的唯一性会增强，下面将解释如何计算唯一性。假设多个字段变量独立分布，那么：

𝒑(𝒙𝟎,𝒙𝟏,𝒙𝟐,𝒙𝟑...𝒙𝒏) = ∏𝑵𝒊 = 𝟏𝒑(𝒙𝒊)

如果我们选择 M 个随机变量，每个变量的取值有 N 个，那么：

𝒑(𝒙𝟎,𝒙𝟏,𝒙𝟐,𝒙𝟑...𝒙𝒏) = ∏𝑵𝒊 = 𝟏𝒑(𝒙𝒊) = 𝟏/𝑵𝑴

假设 M=10， N=10，那么唯一性就非常大：

𝒑 = 𝟏/𝑵𝑴 = 𝟏/𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎

根据这个概率值，我们可以计算碰撞的概率。在允许的碰撞概率之中，如果多个联合字段的概率小于这个值，就认为是符合唯一性要求，将两个设备关联上。

2.3 多个字段组合的设备指纹唯一性

从设备上采集的字段中，有的字段的唯一性高，有些字段的唯一性低。根据上述原理，我们可以通过联合多个低唯一性字段，从而得到一个高唯一性的组合字段。

假设对设备指纹的唯一性要求是碰撞概率小于1/100000000000，而 ip，手机型号，系统版本，存储空间等字段的碰撞概率均为1/10000，那么这几个字段的联合起来的概率值可能就超过要求的碰撞概率，即这些字段组合起来即可当做一种设备指纹的生成算法。当然这里只是一种近似的算法，实际中用到的组合条件和权重复杂很多。

2.4 组合字段选择

上文从条件概率角度介绍了“唯一性”的含义。如果一个字段中每个取值的概率不一样，加上特征数量较多，则很难人工选取适合的分类组合。决策树的作用就是通过训练迭代的方式，找到最佳的分类特征及其分界点，使得总体的条件概率最大化。可以使用熵衡量分类的误差（本质上就是条件概率最大化）:

𝑬𝒏𝒕𝒓𝒐𝒑𝒚 ＝ − 𝒔𝒖𝒎[𝒑(𝒙𝒊) ∗ 𝒍𝒐𝒈𝟐(𝑷(𝒙𝒊)]

还是以上面的例子说明，p(sid|idfv)=1，这时候信息熵为0，表示"确定性很强"。P(sid|ip = 220.170.50.207) = 1/208 ，这时候熵的计算公式，这个值比较大，说明“不确定”很强：

𝑬𝒏𝒕𝒓𝒐𝒑𝒚 ＝ − 𝒔𝒖𝒎[𝒑(𝒙𝒊)∗ 𝒍𝒐𝒈𝟐(𝑷(𝒙𝒊)] = −𝒔𝒖𝒎[𝟏/𝟐𝟎𝟖∗ 𝒍𝒐𝒈𝟐(𝑷(𝟏/𝟐𝟎𝟖)]

不同字段的条件概率可通过历史数据统计后得出，如下图所示：

因此，诸如 IDT、RF、GBDT 这类决策树的本质，就是通过已有的样本，选择最优的分类特征及其分界点，得到最优的分类树。

03 传统设备指纹存在哪些问题？

传统的设备指纹主要采用客户端生成的方案。随着黑产的对抗能力不断增强，设备指纹被破解的情况越来越频繁，主要是由于暴露在外的 SDK 有可能被人逆向破解，设备指纹的稳定性难以保证。

客户端生成的方案更难被破解，黑产对抗的成本也更高。每次被破解后都需要修改 SDK，升级版本，而 APP 版本升级成本很高，时效性低，在与黑产的对抗中处于不利局面。于是，我们开始转换思路，推出基于服务端计算设备指纹的方案。

04 服务端生成方案

在服务端生成方案中，指设备指纹通过服务端的算法计算得到，不再是在客户端进行计算。服务端设备指纹算法的主要过程如下：

4.1 算法过程

使用服务端计算设备指纹时，可不局限于单一的计算算法，可同时采用多种算法计算出不同的设备指纹，每种设备指纹的唯一性都已达到要求，稳定性各有高低。举个例子，设备指纹 A 在条件 A 下会发生变化，在条件B下不会变化。设备指纹 B 在条件 A 下不会发生变化，但在条件 B 下会发生变化。当我们综合2者之后，找回算法可以保证，不管是 A 发送变化，还是 B 发生变化，最终生成的设备指纹都可以保持不变。算法如下图所示：

假设有2种设备指纹生成算法 F1 和 F2，分别使用A和B字段进行计算，得到2个不同的设备指纹。该算法会综合两者结果，返回一个最终的设备指纹，用 Sid 进行表示。当我们使用同一个设备多次修改后字段 A 和 B 后，计算过程如下所示：

1）当该设备第一次访问时，假设 A=0，B=0，此时：

F1(A=0) = IDA0

F2(B=0) = IDB0

由于 IDA0 和 IDB0 此前都未出现过，所以将其当做新设备，随机生成一个设备指纹分配给它：SID0 ，并且记录 IDA0 属于 SID0 ，IDB0 也属于 SID0 ，即

SID0 contains (IDA0,IDB0)

2）当该设备第二次计算时，如果 A 和 B 没有变化，还是为0，那么计算出来的结果与第一次完全一样，仍未出现 IDA0 和 IDB0，但此时根据历史数据可知，IDA0 和 IDB0 对应的设备指纹为 SID0，所以返回的设备指纹是 SID0；

3）假设当设备发生变化时，比如 A 发生变化，此时A=1，B=0，计算如下：

F1(A=1) = IDA1

F2(B=0) = IDB0

此时F1计算得到的设备指纹已发送变化，但 F2 计算的仍然不变，我们通过 IDB0 得到该设备的设备指纹仍为 SID0，并且将 IDA1 也加入到 SID0 库中，即

SID0 contains (IDA0, IDA1, IDB0)

4）同理当 B 字段发送变化时，假设此时 A=1，B=1，计算过程如下：

F1(A=1) = IDA1

F2(B=1) = IDB1

此时 F2 计算得到的设备指纹已发送变化，但仍然可以通过 IDA1 查询到当前设备的设备指纹为 SID0，同时将 IDB1 也加入到 SID0 的库中，即
SID0 contains (IDA1, IDA1, IDB0, IDB1)

从上述过程可以看到，当设备信息 A、B 均发送变化的情况下，服务端通过历史数据可以进行回溯，从而确保最终生成的设备指纹保持不变。需要注意的是，上面只是简单的描述过程，实际情况下字段变化的情况往往更加复杂。

4.2 实际效果

从上述生成算法可知，相对客户端计算，服务端计算方案可以同时采用多种生成算法，利用历史数据回溯的方式进行找回，相较于单一生成算法，设备指纹的稳定性有较大提升，能保证在部分设备数据变化的情况下，生成的设备指纹保持不变。

另外，由于设备指纹通过服务端计算生成，不对客户端暴露，安全性有所提升。同时算法升级较为方便，只需要服务端更新算法即可，客户端无需升级版本，从而降低使用成本。

根据线上运行一段时间后的统计，通过新老算法生成的结果如下：找回比例达8.9%，设备指纹的稳定性提升明显。

05 总结

本文主要介绍了易盾在设备指纹对抗上的经验，在客户端 SDK 对抗的基础上，使用服务端生成方式，既保证生成算法的安全性，又利用大数据技术，对篡改的设备进行找回，进一步提高设备指纹的稳定性。

设备指纹作为黑产对抗的基础武器，也是对抗最为激烈的战场，保证设备指纹的唯一性和稳定性是关键的一环。易盾也会持续的进行优化迭代，不断提高设备指纹的效果。点击免费试用易盾设备指纹

转载：https://blog.csdn.net/yidunmarket/article/details/114035273

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

2021-02-24

从应用端到服务端，设备指纹生成算法大变革

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场