数据节俭

2013年12月12日

Datensparsamkeit 是一个德语词,很难准确地翻译成英语。它是一种关于我们如何捕获和存储数据的态度,意思是我们应该只处理我们真正需要的数据。

如今,围绕大数据概念有很多炒作,随之而来的是我们应该捕获和存储所有能获取到的数据的观念。我们可能没有立即使用用户存储在地址簿中的联系人的用途,但无论如何我们都会要求它,以备将来有用。我们会记录网站上的每次点击并将其保存起来,以备将来需要时进行搜索。我们设置了智能手机应用程序来请求位置信息,以便如果我们以后想出使用该数据的方法,我们可以使用它。毕竟,存储很便宜 - 那么为什么不呢?

“全部捕获”方法的问题在于它引发了严重的隐私问题。即使我们相信自己不会滥用我们收集的数据,每个数据存储都代表着犯罪分子或政府监视机构的目标。这个问题在德国尤其严重,德国经历了政府为了控制公民而对公民进行广泛监视的连续政权。因此,德国有强有力的数据隐私法。

Datensparsamkeit [1] 是这些隐私法中的一个概念,它与“捕获所有事物”的理念相反。翻译并不简单(这就是我保留德语词的原因),但你可以将其松散地翻译成类似“数据紧缩”、“数据最小化”、“数据节俭”或“数据节俭” [2]。这意味着你应该始终问问自己为什么要捕获或存储数据,并努力只处理完成目的所需的最小数据量。

一个例子是在你的网站上跟踪用户以确定你有多少个独立访客。如果同一个人在几个小时内访问了几个页面,你希望将其计为一次访问。如果他们每月访问几次,你仍然只希望将其计为一个访客。一种方法是记录 IP 地址,你将每个 IP 地址计为一个人 [3]。但 IP 地址非常具有揭示性,可以用于比计算访客更多的事情。Datensparsamkeit 建议你不应该直接存储 IP 地址,也许你应该对其进行哈希处理,只存储哈希值。

另一个涉及 IP 地址的类似例子是使用它们来推断人口统计信息,例如区域和国家。你可以通过只记录 IP 地址的前三个八位字节来获取大部分信息并实践 datensparsamkeit。

Datensparsamkeit 不仅仅是关于坏人窃取数据,它也是关于你与主要公司本身的关系。目前默认的态度是,你产生的任何数据不仅可以被捕获者自由使用,而且还成为他们宝贵的商业财产。包括我在内的隐私倡导者认为,这种假设需要改变。公司应该只捕获他们需要的,证明需求的责任应该由他们承担。此外,当然,他们必须完全透明地说明他们捕获了什么,存储了什么,以及他们与谁共享数据。任何数据安全漏洞必须立即公开(而不是掩盖,这是目前的默认做法)。

即使你不认同我对我们自己数据的个人控制的观点,安全漏洞的风险也意味着 datensparsamkeit 是一种明智的做法。如果你持有你不需要的数据,有人窃取了它并造成了损害,你不应该对此损害负责吗?即使没有法律责任,公众宣传也会造成严重后果 - 因此,任何不实践 datensparsamkeit 的人都存在风险。

致谢

Erik Dörnenburg 向我介绍了 Datensparsamkeit。这个“……所有事物”的梗似乎已经存在很久了(至少十年了),所以我很高兴 Korny Sietsma 教会了我 它始于 2010 年

注释

1: 这里有一些 发音帮助

2: 自从我最初写这篇文章以来,这个原则得到了更多关注,特别是在欧盟引入 GDPR 规则之后。在这种情况下,我越来越常听到这个概念被称为“数据最小化”。我目前保留了这个页面的原始名称。

3: 我意识到,使用网络地址转换,情况比这复杂得多,但我想要一个简单的例子。