飞道的博客

如何保护个人信息安全?天津大学提出隐私政策合规性检测工具

1180人阅读  评论(0)

论文标题:

Have You been Properly Notified? Automatic Compliance Analysis of Privacy Policy Text with GDPR Article 13

论文作者:

刘爽(天津大学),赵栢杨(天津大学),郭仁杰(天津大学),孟国柱(中科院信工所,中国科学院大学),张帆(天津大学),张梅山(天津大学)

收录会议:

WWW 2021

文链接:

https://doi.org/10.1145/1122445.1122456(正式链接,to appear)

https://tjusail.github.io/people/liushuang.html (personal version)

内容简介

随着网络和移动应用的快速发展,以及在不同领域的广泛应用,越来越多的个人数据被有意或无意地提供给不同的应用提供商。隐私政策是用户了解个人信息被收集和使用的重要媒介。

随着数据隐私保护成为一个重要的社会问题,不同国家和地区都在制定相关的法律法规,其中最具代表性的是欧盟《通用数据保护条例》(General Data Protection Regulation (GDPR))。

如图1(a)所示为 GPDR 的片段,(b)所示是一项名为 ZAO 的 APP 的隐私政策 [1],其在“数据存储期限”和“数据修改与擦除的权利”等方面违反了 GDPR。

▲ 图1 GDPR及隐私政策片段

因此,如何检测法规(如 GDPR)与隐私政策之间的合规性问题,并为数据主体(即用户)、数据收集方(即服务提供者)和监管部门提供直观的检测结果是非常重要的。

本工作的目标是解决 GDPR(第 13 章 [2])与隐私政策之间的合规性分析问题。我们将该任务建模成基于语句分类和基于规则分析的两个子任务。人工标注了一个包含 304 篇隐私政策(包含 36,610 个标注句子)的语料库,并采用三个标准语句分类器,即 SVM,LSTM 和 BERT,对我们的语料库进行基准测试。

结果显示 weighted BERT 达到了 71.78% 的 F1 值。我们对 304 篇隐私政策进行了基于规则的分析以检测合规性问题,结果显示我们的方法正确检测出 1,271 个合规性问题中的 1,164 个。我们开发了一个隐私政策合规性可视化系统,并进行了用户调研以评估我们方法的可用性。

 

方法

2.1 数据集构建

我们根据 GDPR 第 13 章规定的内容,以及现有隐私政策中描述的内容制定了 10 个隐私政策主题标签。同时从 Google Play 上的热门应用中收集相应的隐私政策,并对隐私政策进行筛选,剔除非英文隐私政策。并雇佣 22 个标注者严格遵守标准标注流程进行标注,得到包含 304 篇隐私政策的数据集。

  • 收集个人数据(CPI)收集能够辨识数据主体个人身份的信息。[GDPR 13.1]

  • 数据存储期限(DRP):数据控制方存储个人信息的期限。[GDPR 13.2(a)]

  • 处理数据的目的(DPP):处理个人数据的目的。[GDPR 13.1(c)]

  • 联系方式(CD):数据控制者以及数据保护官的联系方式。[GDPR 13.1(a)(b)]

  • 访问个人数据的权利(RA):数据主体能够向数据控制者申请访问他们个人数据的权利。[GDPR 13.2(b)]

  • 修改或删除个人数据的权利(RRE):数据主体能够向数据控制者申请修改或擦除他们个人数据的权利。[GDPR 13.2(b)]

  • 限制处理数据的权利(RRP):数据主体能够向数据控制者提出限制处理他们的个人数据的权利。[GDPR 13.2(b)]

  • 拒绝处理数据的权利(ROP):数据主体能够向数据控制者提出拒绝处理他们的个人数据的权利。[GDPR 13.2(b)]

  • 数据携带权(RDP):数据主体能提出将他们的个人数据转移到另一个控制者的权利。[GDPR 13.2(b)]

  • 提出申诉权(RLC):数据主体向监管机构提出申诉的权利。[GDPR 13.2(d)]

  • 其它:不属于以上任意一个类别的标签。

2.2 合规性检测

GDPR 第 13 章中规定的法规遵循“如果 A 存在,则 B 也必须存在(????→????)”这样一个逻辑,其中 A 表示数据控制者收集/处理/存储数据主体个人数据的行为,B 表示数据控制者要提供给数据主体的信息。按照该逻辑,我们提出了 9 条规则如表 1 所示:

▲ 表1合规性检测规则

▲ 图2 方法流程图

方法的整体流程如图 2 所示,分为两个步骤。首先将隐私政策进行句子级别的多分类,即将隐私政策的每个句子划分到我们定义的 11 个标签之中,该标签即为上述规则中的 A/B。对隐私政策的每句话给出标签后,我们可以根据表 1 中的规则判断某条规则是否被违反。

对于分类任务,我们使用了三个经典模型,即 SVM,LSTM 和 BERT。因为标注数据存在严重的类别不平衡问题,为了提高分类准确率,我们采用了甲醛损失函数。对于 LSTM 和 BERT 两个模型,原始损失函数是交叉熵损失:

加权损失函数为:

其中 λ 是训练集中每个标签的频率,加权损失函数体现出该标签的数量比例信息,对数据量更少的标签的错误进行更大的惩罚,提升数据不平衡情况的训练效果。

实验

首先验证句子分类模型的各项指标。各个模型的分类结果如表 2 所示,每个标签的最高值用加粗标注。

▲ 表2 句子分类模型的实验结果

我们也可以观察到加权损失函数对于 LSTM 和 BERT 的效果,都有所提升。对于 LSTM 来说 F 指标提升了超过 5%,而对于 BERT 来说,也提升了超过 4%。SVM 具有最高的准确率和最低的召回率,增加了加权损失函数使 LSTM 增加了超过 10% 的召回率,使 BERT 增加了接近8%的召回率。

在合规性检测任务中,我们更希望能够识别出属于这 10 个标签的所有句子,因此,对于这 10 个标签有更高召回率的模型则更有效。我们使用了 BERT+LossW 模型来进行合规性检测。

我们将训练好的模型在 304 篇隐私政策上进行了一致性检测的测试,测试的逻辑遵循表 1 中的 9 条逻辑的规则,即 A → B,如果不满足这个条件,则检测出不合规问题。我们的方法在测试集中的 1,164 个真实存在的问题中,准确地报告出了 1,180 个问题。

▲ 图3 隐私政策合规性检测工具界面

为了方便用户进行合规性检测,我们开发了一款可视化工具 AutoCompliance,如图 3 所示。该用户界面分为 5 个部分,第一部分由搜索框和标签按钮组成。给定一个 APP 名称或隐私政策链接,我们的工具可以自动抓取隐私政策,进行合规性分析,并在界面的其他部分显示相应的分析结果。


第二部分显示了同一类别的 APP 中检测到的合规性问题的柱状图。第三部分是当前隐私政策的词云,可以直观地查看涉及的关键词。第四部分是隐私政策的文本。AutoCompliance 将每个类别的句子以相应的颜色高亮显示。

我们还增加了浮动窗口,显示当前句子的标签。所有检测到的合规性问题都会在最右侧(第五部分)列出。在缺少相关描述的情况下,我们还提供了从其他类似隐私政策中采用的示例描述。

例如,示例 TED APP 隐私政策遗漏了关于处理限制权的描述,AutoCompliance 用紫色突出了这个合规性问题,并提供了另一个类似 APP 的描述作为示例,列出了违反的 GDPR 条款。

最后,我们进行了用户调研。我们雇佣了 10 名志愿者,分为实验组和对照组,每位志愿者分别阅读两篇隐私政策。实验组在有 AutoCompliance 的协助下阅读,对照组无任何协助人工阅读。结果证实实验组的阅读时间平均减少 55%,AutoCompliance 成功地降低了用户的阅读成本。

总结

本工作提出了一个新任务,即隐私政策合规性检测。我们关注当前影响力最大的隐私保护法规 GDPR,根据 GDPR 第 13 章设计了一个标签方案,人工标注了包含 304 篇隐私政策的语料库。我们首先对隐私政策进行语句级别的分类,采用三个经典模型即 SVM,LSTM 和 BERT。

然后基于以上分类结果进行基于规则的合规性检测。我们的方法成功在 304 篇隐私协议文件中检测出 1,180 个问题。我们开发了一个可视化工具 AutoCompliance 对隐私政策合规性问题进行直观展示。用户调研结果显示 AutoCompliance 成功地降低了用户的成本,平均阅读时间减少 55%。

关于作者

刘爽,天津大学智能与计算学部软件学院副教授,博士毕业于新加坡国立大学计算机学专业。曾任新加坡理工大学讲师。长期从事隐私保护、异常检测、软件测试以及自然语言处理等相关方向的研究工作。在相关领域国际期刊会议TSE, ESEC/FSE, ASE, WWW等发表论文二十余篇,获得CCF A类会议 FSE最佳论文奖。担任ICPADS 2019(并行与分布式系统国际会议)出版主席,以及多个会议和期刊审稿人。

赵栢杨,天津大学智能与计算学部硕士研究生,软件工程专业,师从刘爽副教授。本科毕业于大连海事大学,近些年从事自然语言处理相关工作,关注隐私保护与安全相关课题。

郭仁杰,天津大学智能与计算学部研究生。硕士毕业于天津大学智能与计算学部软件学院,本科毕业于天津大学软件学院。研究方向为基于自然语言处理技术的隐私政策的自动分析工作,特别是隐私政策段落语义,分类工作。

孟国柱,副研究员、硕士生导师,2017年博士毕业于新加坡南洋理工大学,于2018年9月加入中国科学院信息工程研究所任副研究员。曾获2020年天津市科技进步一等奖,2019年ACM SIGSAC中国科技新星,2018年CCF-A类会议ICSE最佳论文奖,NASAC原型系统一等奖和三等奖等;相关研究工作已经在软件工程和信息安全领域的国际顶级会议和期刊如USENIX Security, NDSS, ICSE, FSE, ASE, ISSTA等发表超过30篇文章。个人主页:https://impillar.github.io

张帆,天津大学新媒体与传播学院2020级硕士生,师从张梅山副教授。研究方向为自然语言处理和深度学习,包括句法分析、文本生成等。

张梅山,天津大学新媒体与传播学院长聘副教授。博士毕业于哈尔滨工业大学,在新加坡科技与设计大学做博士后,回国后为黑龙江大学副教授,2019年入职天津大学。主要从事自然语言处理和机器学习的研究工作,尤其词法句法分析、情感分析以及它们与深度学习的结合,并在自然语言处理领域的知名国际会议以及期刊上发表论文30余篇,google被引1600+次。

参考文献

[1] 该隐私政策截取自网站快照,ZAO的隐私政策已被移除。

[2] 选择该章节的原因是该章节规定的内容最适合体现在隐私政策中。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


转载:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/114695694
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场