每月档案:2014年5月

谷歌不仅仅是一个数据库,care也是。数据:软件工程的视角

加长版的"NHS必须像谷歌一样思考才能使数据项目工作谈话谈话

谷歌搜索引擎已经成为人们访问敏感和个人信息的一种方式,因此它已经不仅仅是一种资源:它必须不断发展以解决其潜在的法律(甚至伦理)后果。从一开始就为英国拟议的全面医疗数据库“care.data”这样做是有意义的。

谷歌

2001年,谷歌以搜索引擎的身份占据了市场主导地位,提供简单的服务。它不知道你是谁(你甚至不能登录),所以它也没有你以前搜索过什么的记录。它似乎比之前的市场领导者Altavista找到了更多的搜索结果,而且似乎还以有用的顺序展示了它们——随着网络的快速发展,这是必不可少的。

接口,有状态和无状态

在软件工程中,接口是一种简化的软件视图,它只关注输入什么样的值,以及提供什么样的输出——而不关注将它们联系起来的机制。谷歌接口的本质在当时和现在只包括三个操作:输入搜索词、在搜索结果中导航和跟踪链接。屏幕后面是一个关于网页信息的大型数据库,随着时间的推移,谷歌会注意到网页的变化。

在考虑接口时,重要的是要超越单一的交互,关注长期的交互。旧的界面就是现在的样子无状态的因为搜索查询的结果并不真正依赖于你之前的谷歌交互。更准确地说,我们称之为在本地无状态的,全球有状态,因为结果仍然取决于其他人的搜索和关注链接,因为这些是决定谷歌排名算法“相关性”的重要因素。谷歌还因为其他原因监控着该网站的界面:与现在不同的是,那时候媒体上几乎没有“互联网新闻”,只有谷歌的最热门搜索词(通常由布兰妮·斯皮尔斯领衔)是每月的亮点。

谷歌的“数据库”

接口背后是一个数据库,谷歌的搜索工具并没有向客户提供该数据库。这有几个原因:它太大,太不实用,无法复制;在这个数据库的组织和结构方面可能有一些聪明的想法,但谷歌不希望分享;任何副本都只是一个快照,很快就会过时,因为谷歌的“网络爬虫”不断地查看WWW,以发现新的和消失的网页。谷歌控制用户对界面的使用也比控制用户对数据库本身的使用容易得多——后面会详细介绍。事实上,谷歌确实有数据库的多个副本(“镜像”),以确保其服务在全球范围内的高可用性。它完全控制这些副本,并且与许多其他分布式数据库不同,如果副本有点不同步,它不会影响谷歌的服务。

只是一个数据库

组织中使用的数据库的最基本概念有一个复杂的接口,通常是SQL这样的查询语言,用于生成报告或回答问题,但其基本接口是无状态的。它的使用不太可能受到控制或监视,查询结果不依赖于过去的查询,也不受其他外部信息的影响。在这种情况下,数据库及其接口几乎是不可分割的。它们只是一种资源,包含相关数据。
这样的数据库在一个组织中是完全合理的,只要数据库不包含敏感信息,并且不期望它支持更抽象、更高级别的功能,而不仅仅是回答查询。

谷歌作为更高级别的功能

这两个因素说明了谷歌如今作为一项服务与过去的谷歌有何不同,后者可能被视为“仅仅”一个数据库。
很长一段时间以来,谷歌已经不仅仅是一个找出哪些网页包含特定文本的服务。谷歌很快将搜索范围扩大到正确拼写、相似单词和相关单词——承认该服务被用作查找有关主题、人物、地点等WWW信息的起点。在学校和大学里,这意味着谷歌既是实施学术抄袭的门户,也是发现学术抄袭的门户。更严重的是,从法律角度来看,谷歌现在被视为两种特殊类型敏感信息的入口点:“禁止的”信息和“个人信息”。他们不得不修改他们的服务,特别是他们对接口的控制,以应对这种情况。

搜索不仅仅是一个数据库

谷歌从很早就开始从搜索结果中删除“禁止”信息,首先是在中国实施政治审查,在其他地方遵守版权立法,如美国《数字千年版权法》(Digital Millennium copyright Act)。中国的审查制度在2010年以这种形式结束,对界面的输入端(某些搜索词被拒绝)和输出端(结果被抑制)都施加了控制。这在很大程度上使谷歌搜索不再“只是一个数据库”:它不能通过简单地从数据库中删除网页来解决这个问题,因为这会导致它们最终被更新机制重新添加;此外,在一个国家被禁止的材料的链接在另一个国家仍然可能被返回。因此,谷歌必须在其接口周围引入一层控制来实现此工作。在英国,谷歌已经实现了互联网观察基金会黑名单好几年,从搜索结果中删除名单上的网站。从2013年底开始,它也实现了一个警告和阻止系统的搜索条件,可能用于搜索儿童色情有关方面还在考虑采取措施,减少获取与恐怖主义有关的材料但目前还不清楚它们的实施是否会涉及搜索引擎。

最近的发展集中在谷歌搜索作为个人信息的门户。在招聘过程中使用搜索引擎、“doxing”和其他“网络侦探”活动已经成为一个现实问题。例如,法官建议关闭新闻网站,以阻止陪审团成员查找嫌疑人。网络搜索可以给潜在雇主提供一些他们在面试过程中甚至不被允许询问的信息,比如残疾、怀孕、种族。正因为如此,律师们普遍敦促在求职申请过程中谨慎使用谷歌,但总体而言,在网上搜索个人信息的数据保护立法影响仍未得到充分揭示。

2014年5月,欧洲法院(European Court of Justice)对谷歌西班牙的判决改变了这一切,迫使谷歌在特定的有限情况下从搜索结果中删除个人信息链接。这引发了很多关于谷歌是否以及如何执行这一判断的猜测;然而,考虑到他们已经使用的各种现有机制,以及现有的与版权相关的大规模过滤操作,这对他们来说可能并不是那么困难。随着新的欧洲数据保护立法即将出台,人们可能会更加认识到,搜索可能会返回个人信息。事实上,通过组合不同的搜索结果,并不是所有的结果都返回“个人”信息,甚至可能产生新的个人信息,如果系统地这样做,它肯定会产生法律影响。其中之一是,根据数据保护法,每当一个组织记录个人信息时,它都需要有一个注册和商定的目的。

旁白:谷歌的其他高级功能

当然,所有这些只是解决了网络用户对谷歌搜索作为一个更高级别功能的看法。从经济学的角度来看,谷歌实际上是一种定向广告的媒介。事实上,使谷歌界面有状态的主要驱动力来自于这个方向:通过让他们登录谷歌帐户来发现谷歌用户的身份和兴趣,给他们免费的gmail,然后阅读,保存他们的搜索历史,并通过跟踪cookie链接到他们的其他网页浏览活动等。这也涉及到法律和隐私问题,但这不是重点。

健康数据库

上面谷歌搜索的历史强调了为什么将其视为简单的数据库操作变得越来越没有意义:这种观点没有空间考虑它如何提供更高级别的功能,或考虑其中包含的潜在敏感信息的影响。不幸的是,在英国,关于建立一个统一的健康(最终:社会保健)数据数据库的公众辩论,“保健。“数据”一直停留在这一点上。

当戴维·卡梅伦宣布这一计划时2011年他的观点是,英国国民医疗服务体系(National Health Service)产生了海量的医疗数据,如果不把这些数据用于“开创性研究”和“吸引新创新的巨大磁铁”,那将是一种浪费。换句话说,这是一种未开发的资源。从那时起直到2014年,这条主线基本没有变化。医疗数据的敏感性一直在提高挥手离开,并保证这一切都是匿名的.谁能获得这些数据,以及研究的总体目的是什么,这些问题都被有关死亡和疾病的附带故事所偏离,这些故事可以通过“更多研究”来避免。

匿名

匿名者的叙述现在可能是致命的破坏最后,。研究人员早就建立了这种大型数据库的有用性在于其丰富性和纵向性。关于人们的健康和治疗的长篇而详细的故事可以更深入地了解他们的病史,并有更好的机会解释他们的病史。因此,不可避免的是,它们也以几乎相同的方式,让人更深入地了解它们指的是谁——即使省略了更直接的识别细节。统计信息披露控制及相关课题的研究人开云体育网址员早就知道这一点:增加数据的有用性是以降低隐私保障为代价的。与其忽视使用如此丰富的医疗数据所带来的隐私风险,不如对其进行管理。换句话说,需要控制接口。第二次延迟后的护理。数据发布后,到2014年9月以后,这一想法终于成为人们关注的焦点。

HSCIC共享数据库

然而,负责保持距离的政府组织HSCIC有一个将医疗信息视为商品的历史悠久可以自由分享——尤其是在匿名的情况下。商业公司,例如保险和制药公司,可以广泛使用HES中的医院数据。有一个数据分析公司的行业,它们与HSCIC和NHS England之间有旋转门,其业务本质上是将NHS数据以消化或更易于访问的形式卖回NHS。看看他们的招聘广告和网站,他们对HES这样的数据库有一种明确的权利意识。金斯利曼宁,HSCIC主席,上个月不得不向威斯敏斯特健康特别委员会承认他甚至不能说出共享HES数据的最终用户是谁.很明显,随着GP数据的加入,这样的态度已经不能容忍了。

公开清洗,研究伦理

支持护理的论点。数据作为一种可以共享的简单数据资源,仍然来自两个方向。NHS英格兰区主管蒂姆•凯尔西(Tim Kelsey)在担任政府的“透明度沙皇”之后,出任了这一职位。他和其他人把关心混为一谈。与开放数据运动共享数据,政府机构提供透明的数据,允许公众以任何他们喜欢的方式从中得出自己的结论。然而,通常开放数据是无法识别个人身份的,这使得它可以在不受《数据保护法》限制的情况下发布和共享。根据ICO关于匿名的建议,该数据由HSCIC共享会不会被无条件地排除在数据保护之外——这与HSCIC的做法相矛盾

医学研究委员会似乎对护理的观点也没有什么问题。仅仅作为数据资源的数据。从他们的角度来看,他们已经建立了实践守则和研究道德规范,并始终适用于确保对敏感医疗数据进行负责任的处理。一些来自这个角落的语言,特别是提到“同意盲目崇拜,这表明对某些人来说,研究伦理的机制已经取代了它们的目的。公众的焦虑与谨慎。数据主要不是用于学术研究,而是更多地用于商业研究(例如制药),特别是给定的最近强调需要提高实践研究伦理在那个地区。

目的

在研究数据的目的时,数据保护立法(正是要求),以及公众对分享敏感医疗数据的不安交织在一起。为了制定更详细的护理目的。数据,HSCIC起草了“护理。数据补遗”,即系统不能先验地排除任何用户,并列出了广泛的用户类别。这些客户包括HSCIC的所有常规客户:研究机构、数据分析公司,以及制药公司、保险公司和智库。从它出现以来的公开辩论中,很明显,其中许多人作为敏感医疗数据的接收者,除非以完全匿名的汇总形式接收,否则是社会无法接受的。在认识到这一点,HSCIC一直否认护理。个人通信中的数据附录而在他们的官方沟通中,却未能拿出承诺的替代品或改变展示方式。在最近议会提出的医疗法案修正案中,所有这些修正案都旨在巩固医疗。“为了健康目的”以外的数据目的(非正式地称为罗纳德·麦当劳修正案)被否决。

软件工程

从软件工程的角度来看,目的确实应该放在第一位。在软件工程中,传统的活动顺序是首先建立需求,然后设计系统,然后实现它,并在整个过程中,特别是在最后检查它是否确实是系统所期望的。如果需求很可能在开发时间内发生变化,那么这些阶段可以在某种程度上重叠。在这种情况下,通过描述一些说明性的场景(在技术术语中称为“用例”或“故事”)来开始需求,并了解这些场景与利益相关者(患者、医务人员和care.data的用户)之间的关系将是非常有帮助的。这些场景可以放在一个整体的背景下-展示如何更好的信息最终会带来更好的治疗.这将允许在咨询和公众接受的情况下建立目标和限制。就目前的情况来看,在最初计划推出一年后,关于需求的争论仍在继续。该设计仍在修改中,例如,为了确保病人的选择退出,作为一个事后的想法,可以达到预期的效果。一直有传言说,由于软件实施的延迟,推迟是很方便的——考虑到所做的更改,这并不奇怪。

然后是最后的软件工程阶段,检查它是否确实是预期的系统。最常见的方法是测试——最后一个方面是分阶段的试验,预计将在秋季开始。也有更好的方法,但那是另一个话题了。

控制接口

安全工程经验他还说,安全性应该从一开始就考虑,而不是事后才加进去。对于这个可能是全国唯一一个最安全敏感的数据库(不包括GCHQ可能否认存在的任何数据库)来说,这就更加重要了。HSCIC实际上制作了一份共享医疗的价目表。在他们建立必要的安全措施来保护数据和监控其他人对数据的使用之前,数据是“以成本为代价”的,更不用说这些成本了。
在照顾中。数据顾问组成立不久,就有了一些讨论一个“通风柜”模型访问care.data。谷歌历史上的一些教训在那里得到了实践。HSCIC将不共享数据库,但允许其他人对接口进行受控和监视的访问。已建立的安全机制,如基于角色的访问控制可以在确保查询匹配每种类型用户的已定义目的或策略方面发挥作用。现有的可以将用于检测内部攻击的机制(包括部分或完全自动化的机制)应用于监控和动态更改访问策略.这将使用大量现代安全工程技术来保护有史以来最有价值的数据集之一。迟到总比不到好。