本
文
摘
要
本篇文章简要列举了DP在企业界实际的使用情况(及其对应的隐私参数设置)。也许有一天,我们可能有一个DP下的隐私预算法规[1],但当前,道路还很长~
介绍具体内容前,以下几点需要说明:
本文主要列举了记录了隐私参数的项目,包含了什么事月隐私单元(privacy unit)。没有公开资料显示参数信息的未被包含;大多数案例使用了中心化 DP;开源项目按照组织首字母进行排序;若一个项目采用了开源工具,本文有附带链接;本文主要参考了A list of real-world uses of differential privacy[2]中的内容苹果
Apple 使用 Local DP 从运行iOS或macOS的终端用户设备收集一些数据,该详细在论文《Differential Privacy》[3]和《Learning with Privacy at Scale》[4]中有描述。均采用了ϵ\epsilon-DP,隐私单元为用户日,隐私参数的设置如下:
QuickType Suggestions: 从大量用户学习单词推荐,提供 ϵ=16\epsilon=16 的隐私保护等级;Emoji Suggestions: 计算人群中 emojis 的使用频率,提供ϵ=4\epsilon=4 的隐私保护等级;Lookup Hints: 提供 ϵ=8\epsilon=8 的隐私保护等级;Health Type Usage: 计算 HealthKit 软件中哪个 health types 是被最多使用的,提供ϵ=2\epsilon=2 的隐私保护等级;Safari Energy Draining Domains 和 Safari Crashing Domains: 收集网页域名数据,收集哪些域名会导致高电量消耗或引发崩溃,二者均提供ϵ=8\epsilon=8 的隐私保护等级;Safari Autoplay Intent Detection: 收集自动播放带声音的视频的网页数据,提供ϵ=16\epsilon=16 的隐私保护等级;谷歌
谷歌的技术都在Googles open-source libraries[7]当中。
Community Mobility Reports[8] 量化了COVID-19期间用户移动模式的变化,主要包括两方面:多少用户去了工作地点(或特定类型的公共地点)以及用户在家待多久。每个方面保护程度是每天ϵ=0.55\epsilon=0.55,每个用户最多贡献了6天的数据,因此总的隐私保护程度是 ϵ=2.64\epsilon=2.64,隐私保护单元是用户日。Search Trends Symptoms Dataset[9] 衡量与各种症状相关的 Google 搜索量,隐私单元为用户日,采用的隐私参数为:ϵ=1.68\epsilon=1.68。Vaccination Search Insights[10] 量化了与 COVID-19相关的疫苗检索趋势,隐私单元为用户日,提供了 (ϵ,δ)(\epsilon,\delta)-DP,其中ϵ=2.19,δ=10−5\epsilon=2.19, \delta=10^{-5}。RAPPOR[11]采用了LDP在谷歌浏览器中采集用户的浏览信息,当前好像已经弃用了[12]。谷歌提到了在谷歌地图中采用DP(链接[13]),一方面量化了整天当中那些不同地方的拥挤程度,另一方面用于描述哪些餐厅最受欢迎。这其中并未明确隐私参数的大小,也没有介绍用了什么方法生成数据。谷歌向科研人员开放了 mobility data[14],这当中采用了DP做匿名处理。此论文[15] 提到的隐私保护程度为(ϵ,δ)=0.66,2.1⋅10−29(\epsilon,\delta)=0.66,2.1\cdot10^{-29},然而其中没有明确隐私单元是什么。微软
Telemetry Data Collection in Windows: 微软在Windows系统中收集 telemetry data[18]。此过程采用了LDP,其中ϵ=1.672\epsilon=1.672,隐私单元是用户的6小时。U.S. Broadband Coverage Dataset[19]: 此数据集量化了美国可使用高速网络的用户比例,采用了ϵ=0.2\epsilon=0.2 的DP,隐私单元为为用户,此处聚集采用了 OpenDP SmartNoise[20] 进行匿名化。微软的AI助手自动建议Office工具中的回复,其提供了(ϵ,δ)(\epsilon,\delta)-DP ,也有一些其他厂商采用DP的案例,待后续补充。当然也有很多科研论文研究了真是数据集上DP的实验结果,但是并没有给出现实的部署系统,本文也没有收录。参考资料
[1] 隐私预算法规: https://journalprivacyconfidentiality.org/index.php/jpc/article/view/689
[2] A list of real-world uses of differential privacy: https://desfontain.es/privacy/
erential_Privacy_Overview.pdf
[4] 《Learning with Privacy at Scale》: https://docs-assets.developer.apple.com/ml-research/papers/learning-with-privacy-at-scale.pdf
[5] Full URLS Data Set: https://dataverse.harvard.edu/file.xhtml?persistentId=doi:10.7910/DVN/TDOAPG/DGSAMS&version=6.2
[6] Movement Raange Maps: https://research.fb.com/blog/2020/06/protecting-privacy-in-facebook-mobility-data-during-the-covid-19-response/
[7] Googles open-source libraries: https://github.com/google/differential-privacy
[8] Community Mobility Reports: https://arxiv.org/abs/2004.04145
[9] Search Trends Symptoms Dataset: https://arxiv.org/abs/2009.01265
[10] Vaccination Search Insights: https://arxiv.org/abs/2107.01179
[11] RAPPOR: https://security.googleblog.com/2014/10/learning-statistics-with-privacy-aided.html
[12] 弃用了: https://github.com/chromium/chromium/blob/72ceeed2ebcd505b8d8205ed7354e862b871995e/chrome/browser/prefs/browser_prefs.cc#L509
[13] 链接: https://developers.googleblog.com/2019/09/enabling-developers-and-organizations.html
[14] mobility data: https://ai.googleblog.com/2019/11/new-insights-into-human-mobility-with.html
[16] Labor Market Insights: https://arxiv.org/abs/2010.13981
[17] Audience Engagements API: https://arxiv.org/abs/2002.05839
[18vately/
[19] U.S. Broadband Coverage Dataset: https://arxiv.org/abs/2103.14035
[20] OpenDP SmartNoise: https:// *** artnoise.org/
chine-learning-maintaining-confidentiality-and-preserving-trust/
[22] Workplace Analytics: https://download.microsoft.com/download/D/1/F/D1F0DFF5-8BA9-4BDF-8924-7816932F6825/Differential_Privacy_for_Everyone.pdf
[23] Energy Differential Privacy: https://edp.recurve.com/
[24] Recurve 公司的开源项目: https://github.com/recurve-inc/eeprivacy
[25] open-source DP libraries: https://github.com/google/differential-privacy
[26] Post-Secondary Employment Outcomes: https://lehd.ces.census.gov/data/pseo_experimental.html
[27] 技术文档: https://lehd.ces.census.gov/doc/PSEOTechnicalDocumentation.pdf
[28] 此文档: https://journalprivacyconfidentiality.org/index.php/jpc/article/view/722
[29] 2020 Census Redistricting Data: https
[30] 此代码: https://github.com/uscensu *** ureau/DAS_2020_Redistricting_Production_Code
[31] OnTheMap: https://lehd.ces.census.gov/applications/help/onthemap.html#!what_is_onthemap
[32] 论文: https://lehd.ces.census.gov/doc/help/ICDE08_conference_0768.pdf
[33] Exposure Notification framework: https://covid19.apple.com/contacttracing
[34] shuffled DP: https://desfontain.es/privacy/local-global-differential-privacy.html#shuffling
[35] 分析组件: https://covid19-static.cdn-apple.com/applications/covid19/current/static/contact-tracing/pdf/ENPA_White_Paper.pdf
[37] 展示: https://drive.google.com/file/d/1PWvYC3VBBbebAtbOHoT2QbV3A_jTApV1/view
[38] OpenDP SmartNoise: https:// *** artnoise.org/
[39] Internal Re
[41] Tumult