全球数字经济发展的大背景下,数据已经成为最具价值的生产要素之一。在健康医疗领域,产业界已经充分认识到健康医疗数据的商业价值,政府也开始将健康医疗数据列入国家的重要基础性战略资源。近年来,《网络安全法》《数据安全法》《个人信息保护法》《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》《国务院办公厅关于促进“互联网医疗健康”发展的意见》《国家健康医疗大数据标准、安全和服务管理办法(试行)》(以下简称《管理办法》)等法律法规和文件陆续出台,构建起对健康医疗数据的适用范围、标准管理、安全管理和服务管理等方面进行规制的法律体系。2021年7月开始实施的《信息安全技术 健康医疗数据安全指南》(以下简称《指南》)作为推荐性国家标准,对健康医疗数据的各项基础处理环节提供了进一步的细致指引。但是,目前对于健康医疗数据方面的法律法规和实施细则仍不系统全面,虽存在许多政策性文件构成框架指明了方向,一些具体制度的实施和推进仍待各相关主管部门研究确定。例如基于科研目的采集使用的数据研发出的科研成果后续被用于商业目的时,是否需要补充获得原始数据主体的重新授权等问题,在现有法律规定中尚存空白。这不可避免地导致数据处理者在发觉市场潜力和应用健康医疗数据的过程中无所依凭,一定程度上抑制了市场活力的充分释放。在此背景下,医疗机构所涉数据安全和个人信息保护合规方面,应重点关注哪些问题?本文在对健康医疗数据的相关法律、法规和政策性文件的基础上,结合实务中遇到的难题,对健康医疗数据在实际应用过程中存在的难处进行分析,以期为医疗机构等相关单位的数据合规体系建设提供一点参考和建议。
一、健康医疗数据的概念和种类
根据《指南》给出的术语定义,个人健康医疗数据是指单独或者与其他信息结合后能够识别特定自然人或者反映特定自然人生理或心理健康的相关电子数据,健康医疗数据则是指个人健康医疗数据以及由个人健康医疗数据加工处理之后得到的健康医疗相关的电子数据(注释1),包括电子病历、患者自然情况等自然采集形成的数据,也包括经分析处理后得到的群体总体分析结果、趋势预测和疾病防治统计数据等。微观上,健康医疗数据能展现个体的身体健康状况、医疗就诊信息等;宏观上,医疗健康数据则能反映一定区域内人口健康状况、疾病分布和传播情况等,是公共卫生研究和政策制定的重要依据,事关患者生命安全、个人信息安全、社会公共利益和国家安全。能够决定健康医疗数据处理目的、方式及范围等的组织或个人被称为健康医疗数据的控制者,包括提供健康医疗服务的组织、医保机构等,是健康医疗数据最主要的管理主体。《民法典》中首次将健康医疗数据纳入了个人信息的范畴当中,健康医疗数据自然也适用于各类针对个人信息保护的法律。
医疗机构是健康医疗数据最主要的来源,可提供包括电子病历、影像数据、检验数据、药品流通数据等多种数据,其中电子病历和影像数据被认为是最核心的数据资源。电子病历不仅囊括了患者基础个人信息,还包括其疾病诊疗过程中获取的诊断信息、治疗数据等,蕴含丰富的信息量。影像数据则因具备统一的行业标准且数量庞大,已具备较为成熟的技术应用方式。个人健康数据则是目前增长最快的数据类型,包括来源于在线问诊平台的用户健康和问诊信息,和健康智能设备采集的基础生理指标数据等,与医疗机构采集的数据相互形成补充和完善。
二、健康医疗数据的采集
根据《网络安全法》及《个人信息保护法》相关规定,医疗机构等在进行数据采集时应当遵循“告知—同意”的原则,真实、准确、完整地向数据主体告知控制者的名称和联系方式、处理目的、处理方式、保存期限等,并应取得数据主体的个人同意。但当在应对公共卫生事件,或紧急情况等涉及公众利益的重大紧急事件时,也可以在未取得个人同意的前提下获取。
除直接向数据主体个人直接采集数据以外,医疗机构也可以通过与第三方健康医疗数据供应商合作的方式,获得批量的原始数据或者经过预处理的健康医疗数据。对于此类数据采集情况,除非原始数据经过了脱敏化等技术手段后无法指向特定个人且不能复原,不再属于个人信息的范畴之内,第三方在传输数据前,特别是在超出采集数据时向数据主体告知的使用目的、范围、方式的情况下,应当对数据主体关于数据接收方的使用目的、范围、方式等进行重新告知,并取得数据主体的单独同意。第三方在进行数据传输时,应当采取一定技术手段保障数据安全避免事故的发生。作为数据接收方的医疗机构也应对第三方获取数据的合法性、传输安全保护负有一定的审查义务,为控制风险,医疗机构应当在合作前对数据提供方的数据合规情况进行调查,通过合作协议等方式保证数据提供方对数据处理的合法合规性及数据传输安全负有相关义务,确保自己数据获取的手段不存在瑕疵。
另外需要注意的是,医疗机构在自己或通过第三方进行数据采集时应根据《管理办法》相关规定或要求第三方严格执行国家和行业相关标准程序及管理规范,做到标准统一、术语规范、内容准确,严格实行信息复核终审程序,保证采集到的医疗健康数据质量能够达到后续使用的要求(注释2)。
三、健康医疗数据的存储
健康医疗数据属于敏感个人信息范畴,一旦泄露或者非法使用容易导致自然人
的人格尊严受到侵害,或导致人身、财产安全受到危害,相较其他类型数据需要采取更加严格的保护手段,只有在具有特定目的和充分必要性,并采取严格保护措施的情形下才能够进行处理。在健康医疗数据的存储安全方面,《管理办法》和《指南》均要求医疗机构对健康医疗数据进行分类分级处理,依据不同的类别和级别采取不同程度的安全保护手段,赋予不同身份的工作人员相应数据调阅权限,确保数据的保密性、完整性和可用性。根据健康医疗数据不同的属性和使用范围,可以分为个人属性数据、健康状况数据、医疗应用数据、卫生资源数据等。根据数据重要程度、风险级别以及发生数据安全事件时可能对数据主体造成的损害和影响等,又可将健康医疗数据划分为可完全公开使用的数据、可较大范围内、中等范围内、较小范围内供访问使用的数据和仅在极小范围内且在严格限制条件下供访问使用的数据等5个级别,并针对不同级别数据特点采取相应的安全保护措施。
在储存地点方面,现有相关法律法规均明确要求健康医疗数据应当存储在境内服务器上,如需向境外传输,应当按照相关法律法规和要求进行安全评估。《个人信息法》还要求向境外提供个人信息的,应当向数据主体告知境外接收方的名称、处理目的、范围、方式等,并取得其单独同意。另有一些特殊的健康医疗数据,如人类遗传资源信息等,还需按照相关特殊规定,在符合一定限制条件的情况下才能进行境外传输。
四、健康医疗数据的使用披露和应用
(一)健康医疗数据的使用披露
仅仅采集和储存数据并不能使健康医疗数据本身及利用其进行研究获取成果的价值得到充分运用,使用和披露的过程才能将其利用价值完全体现。在使用和披露方面,《指南》明确规定医疗机构在获取主体授权后才能使用或披露个人健康医疗数据进行市场营销活动,且需让主体充分知悉,明确、自主作出同意;但同时也存在部分受限制数据集用于科学研究目的时,可以在没有获得主体授权的情况下使用或披露相应个人健康医疗数据的例外。就与第三方合作或授予第三方使用而言,医疗机构作为合作方时,应当按照相关法律法规和合同约定对数据进行使用和管理;作为委托方时,应当在签订协议前对第三方数据合规情况进行审查,确保第三方具备相应的数据安全水平以及相应的数据合规管理制度,并签订协议确认第三方具有的权利义务。《管理办法》还要求医疗机构在使用数据的过程中应当结合服务和管理工作需要,及时更新、甄别、优化和维护健康医疗大数据,确保信息处于最新、连续、有效、优质和安全状态。
(二)健康医疗数据的应用
在健康医疗数据应用方面,各类法律文件虽然对数据从采集、使用、存储、传输及数据安全等过程提出了各类质量、安全方面的要求,但对数据具体使用的目的和范围没有作出限制。保证不泄露国家秘密、商业秘密和个人隐私,不侵害国家利益、社会公共利益和公民、法人及其他组织的合法权益的前提下,医疗企业可以利用多种手段充分发挥健康医疗数据蕴含的潜能,研制出具有广泛商业用途的成果。处理至不同阶段的数据分析结果总是能找到不同需求的买家;根据大量数据推演得出的数学模型、开发出的人工智能系统更是医疗服务关注的热点产品(注释3)。例如将临床用药数据整理分析后售卖给医药企业或是投资公司,可以协助对药物价值的评估,从而影响药企的研发方向和投资者的投资方向。人工智能医疗则是挖掘医疗大数据价值的关键,运用于医学影像方面,可协助医生进行智能图像诊断,快速获取诊断结果;运用于基因测序领域可协助运算提高提前预知疾病的发生概率,这也是目前市场竞争最为激烈的一项数据应用方式。
五、健康医疗数据科研成果商业化再使用
虽然法律对于健康医疗数据直接收集运用于商业用途有明确的“告知-同意”规则,但也存在受限制数据集用于科学研究目的时,可以在没有获得主体授权的情况下使用或披露相应个人健康医疗数据的例外。现下世界各国对于利用其研制出的科研成果用作商业用途时是否需要获得补充授权均未作出明确规定,可能加大科研成果商业化难度,也存在利用法律漏洞规避监管的可能。笔者结合现有法律法规的相关规定和科研数据商用现状,认为应通过以下两个角度的考量综合判断是否需要补充获取授权。
(一)去标识化处理程度
第一个角度是健康医疗数据在科研过程中去标识化的处理程度。健康医疗数据在科学研究的过程中,会因不同的科研目的、不同的研究手段而呈现不同的去标识化程度,产出不同阶段的产品。《指南》将未经数据主体授权的情况下采集的健康医疗数据限制在了受限制数据集之内,受限制数据集是指经过部分去标识化处理的数据,该部分数据仍可以准确识别到相应个人。例如在针对某些疾病的研究中,患者精确的年龄、性别、经济状况、生活习惯和环境等因素都会成为研究人员所研究疾病的影响因素,在数据处理的过程中不能按照普通数据的去标识化或泛化程序进行操作,处理后的数据往往能再次识别到数据主体;一些罕见的疾病具有其特有的病理特征,即使进行了去标识化处理,也可能会因其特殊性能够识别到数据主体个人。为了保证数据主体的隐私权利,该部分经过了部分处理后仍能准确识别到个人的健康医疗数据,在再次进行商业使用时,应当按照原始数据的采集规则,向数据主体明示告知,并获得数据主体的明确商用授权。数据匿名化是指使数据不再具有身份可识别性,且不能恢复的技术手段。匿名化数据与受限制数据集相比要求更高,完全切断了数据主体与健康医疗数据之间的关联,无法再通过技术手段使匿名化的数据再次识别到数据主体个人(注释4),经过该种处理的数据,笔者认为对于商业使用的授权可以适当放宽要求。《指南》中也指出,如果控制者对个人健康医疗数据汇聚分析处理之后得到了不能识别个人的健康医疗相关数据,该数据不再属于个人信息,但其使用和披露宜遵守国家其他相关法规要求。不能识别个人的健康医疗相关数据不再具有鲜明的个人特征,再次使用不会对患者的隐私权利造成影响,对其商业授权的要求自然也应当与采集个人信息时的要求有所不同。
除了数据去标识化的程度,基于该部分健康医疗数据得到的研究成果、售卖给商业机构使用的产品也会呈现出不同的形态。一种是将健康医疗数据简单采集整合分类后形成的数据统计结果,对于药物企业和投资者来说具有着巨大的商业价值。但这些数据统计结果仅是对于数据本身信息特点的归纳总结,本质上并没有脱离原始数据。例如通过分析形成的疾病分布统计、药物不良反应统计等只是基于原始的数据通过统计方法得到了新的衍生数据,即使投入了大量工作时间精力但没有形成属于自己的新思想新技术成果,其结果本质上也只是原始数据的延伸。这种基于原始数据分析形成的衍生数据由于没有完全脱离原始数据的框架,没有产生数据以外的新技术,其商业价值大多来源于原始数据本身,笔者认为这类衍生数据的研究成果在进行商业使用时,是应当在采集时即告知,或是未告知的情形下采集,需在进行商用时,对原始的数据主体进行补充告知的。
另一种研究成果则是通过数据模拟推演出的数据模型和人工智能系统,笔者认为这些研究成果在进行商业使用时,可以不需再向原先的数据主体获取授权。数据模型虽然是建立在每个单独的个人医疗健康数据之上完成的,但数据模型的本质是一种计算方法、一种技术手段,是由采集的数据推算而成的、符合大部分数据内在逻辑的一种规则;是研究人员在处理数据的过程中凝结了自己的劳动成果,形成的新的产物。当下大火的人工智能医疗概念是指使用大量数据“喂养”人工智能医疗系统进行深度学习,从而增强其在医疗方面的推演预测能力,辅助诊断、疾病预测、新药研发等都是现在智慧医疗企业主攻的方向,具有强大的市场前景。如前文所述,不能识别个人的健康医疗数据已不再被认定为个人信息,更何况仅接触到数据模型或人工智能系统的情况下,仅凭这些产品本身无法追溯回原始数据,也无法准确识别到原始主体,不会对主体数据安全构成威胁。该类型产品是由海量数据训练、拟合而成的健康医疗数据所遵循的抽象规律,从一个抽象规律逆向精准指向一个单独数据是难以完成的。商业机构希望购买的并不是数据主体手握单个健康医疗数据或其分析结果,而是科研人员通过对数据的开发利用,创造出的具有普适性和实用性的产品,完全脱离了原始数据本身蕴含的价值。无论是从数据主体的权利保护还是数据本身的价值保护来看,笔者认为数学模型和人工智能系统类型的数据科研成果在商业使用时是可以不用再向原始数据主体获取商用许可的。但若在售卖模型、算法的同时附带了存有原始数据的数据库,或是使用数据模型、算法需要使用到部分原始数据,未与原始数据完全切断联系,还存在着可能危害数据主体安全的可能,则当然需要获得数据主体商业使用的授权。
(二)补授权难易度
第二个角度是数据采集时的目的以及后续商用行为时补授权行为的难易程度。若在数据获取时就明确知晓该科研成果会被用于商用,则应当按照要求向数据主体明确告知商用目的,并征求授权。例如研究机构和商业机构商定通过提供研究资金获取研究成果的方式达成合作协议的情况下,一开始向数据主体采集数据时研究者便已知该研究成果会被用作商业用途,若故意利用科研数据豁免授权的情况下采集使用,便会存在利用特殊规则逃避数据商用采集授权之嫌,明确属于违反规定的行为。
更多的情况下,研究者并非数据采集的主体,而是从第三方机构如医院等获取到已采集完成的数据进行使用;或是存在数据在初始采集时仅仅是为了科研目的使用,但在研究过程中、或是研究结果发布后有商业机构提出购买意愿的情况。此时除了考虑前文所述的相关角度外,还应考虑的是重新告知数据主体进行补授权的可行性和难易度。虽然没有明确的法律条文,国外一些大学已依据通用数据保护条例(GDPR)等规则对本校研究者研究数据的重新使用方面作出了相关规定。当研究者希望对包含个人数据的现有数据进行再次使用时,若同时满足数据非自行采集而是来自第三方、重新通知数据主体是不切实际的、向告知数据主体需要付出不成比例的努力,且数据主体没有事先书面提出不能将数据用作他用的要求,研究者可以在不告知数据主体的情况下再次使用数据(注释5)。英国信息专员公署(ICO)对GDPR的解读中亦对可行性和不成比例的努力的评估作出了一定建议,认为评估不成比例的努力应考量成本、时间和提供信息的难易程度等因素。如果数据采集的时间与重新使用的时间间隔较长,或是采集信息时未留下个人数据对应的联系方式,便可被认为重新获取授权是不可能的(注释6)。数据保护的意义在于保护数据主体的人格权利,个人隐私,也在于保护数据的经济利益,市场秩序,应保持对两者保护的平衡,而不是更加倾向于某一方。过于侧重保护数据主体的隐私权,而对数据处理者赋予了过高的数据保护要求,显得过于严苛,对双方均加重了不必要的负担,影响研究者的科研热情和商用意向,从而影响科研进展和数字经济的发展。科研项目的开展大多不是一个很短的时间周期,况且研究者获取的数据来源大多来自医疗机构,并非自行采集,研究者自行联系到数据主体征求授权的可能微乎其微,参照国外研究数据再次使用的相关规则,可以认为其重新获取数据主体的授权是不切实际,且需要付出不成比例的努力,自然也无需再对数据主体进行告知和取得授权。
研究成果用于商业用途时是否需要向数据主体重新告知并获取授权的问题,国内外现有法律中均仍未有明确规定。笔者认为,应当根据不同科研成果的具体情况,从研究数据去标识化的程度和研究成果类型两个角度综合去评判,能得到一个既保护数据主体隐私权益,又保证能获取最大的数据经济效益的均衡最优解。
(本文曾获江苏省法学会大数据与人工智能研究会2021年年会优秀论文三等奖)
注 释
1、国家市场监督管理总局、国家标准化管理委员会,《信息安全技术 健康医疗数据安全指南》,GB/T39725-2020
2、《关于印发<国家健康医疗大数据标准、安全和服务管理办法(试行)>的通知》,国卫规划发〔2018〕23号,2018年7月12日发布。
3、参见巩 高、黄文华、曹 石、陈超敏、郑东宏,《人工智能在医学的应用研究进展》,载《中国医学物理学杂志》2021年第8期。
4、参见高 颖、杜 娟,《大数据时代数据匿名化的法律规制》,载http://kns.cnki.net/kcms/detail/11.1762.G3.20210529.1757.002.html.
5、Andrew Charlesworth,Data protection and research data,载https://www.jisc.ac.uk/full-guide/data-protection-and-research-data,2021年11月5号访问。
6、Information Commissioner's Office. Are there any exceptions?,载 https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/the-right-to-be-informed/are-there-any-exceptions/#id3,2021年11月5号访问。