EN

Sora爆火 | AIGC的数据合规挑战与应对建议

日期:2024-03-05


全文约8300字,预计阅读25分钟。


前言


2024年2月16日,美国OpenAI公司推出视频生成模型“Sora”,[1]其强大的图像视频生成能力将生成式人工智能的发展再次推向舆论风口,引发全社会对社会变革、行业发展的广泛讨论。[2]与此同时,Sora可能带来的数据合规风险、知识产权侵权、垄断与不正当竞争、数据中心算力发展与ESG之间的平衡、新型诈骗犯罪等各类法律问题也进一步凸显。


本文将聚焦于Sora在训练数据、模型与算法、视频呈现与传播过程中可能涉及的数据合规风险,包括用于模型训练的数据的合法性基础、敏感个人信息合规处理、数据的质量与安全、数据跨境传输问题、数据主体权利保障、算法模型的透明度和可解释性、安全评估与算法备案、科技伦理问题以及平台审查义务等问题,在实操层面为企业提出相应的合规应对建议。


曾作为前埃森哲亚太区法律部合规、运营、法规与道德规范主管,我主管着公司所有与A(AI,人工智能)、B(Blockchain,区块链)、C(Cloud Computing,云计算)、D(Digital offerings and services,大数据)有关的技术或服务开发相关的合规性审查。长期处于科技审查的前沿位置让我对高新技术领域的发展始终保持关注。此前,ChatGPT上线后我曾发表《ChatGPT的法律和道德伦理挑战》一文,对ChatGPT使用过程中可能存在的法律与道德伦理风险进行了梳理总结,并给出了我认为的可行性应对思路;国家发布《生成式人工智能服务管理暂行办法》后,我又撰文《生成式 AI 带来的数据合规新挑战及应对》,对AIGC全生命周期所牵涉的数据合规问题,AIGC开发者、服务提供者、服务使用者等多方主体面临的数据合规、伦理道德、知识产权等挑战进行解读。这篇关于Sora的文章可以说是以上文章的延续。


一、AI、AIGC、AGI是什么?


AI,Artificial Intelligence,即人工智能。作为前沿的研究领域,AI 并不存在非常清晰明确的统一定义,人工智能之父约翰·麦卡锡则将其定义为“使一部机器的反应方式就像是一个人在行动时所依据的智能”。[3]


AIGC,Artificial Intelligence Generated Content,即人工智能生成内容或生成式人工智能,是基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术,其核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。[4]


AGI,Artificial General Intelligence,即通用人工智能,是指具有广泛认知能力的机器智能,其能像人类一样思考、学习、创造,执行视觉识别、语言理解、决策制定、问题解决等智能任务。


一般认为,AI范围最广,AIGC作为AI的一种,不断发展进阶后可能变成AGI。Sora较此前的AI距离人们所期待的AGI更近一步了,但其可能仍然属于AIGC。


二、数据合规风险及建议


AIGC的实现,需要将大量基础数据输入AI模型进行训练,期间算法模型不断学习和优化,最终实现文生视频(即用户输入文字之后AI能够自动输出生成的视频)的效果。即AIGC的实现流程如下:



(一)数据合法性基础


AIGC的训练需要大量的底层数据(即训练语料),使用这些数据进行处理的首要问题便是数据的合法性基础,缺乏合法性基础的数据处理可能引发不正当竞争纠纷,或因违反个人信息保护义务而受到监管处罚,[5]甚至可能因为侵犯公民个人信息而带来刑事风险。[6]在我国法律项下,AIGC服务提供者的训练数据处理活动涉及个人信息的,应当取得个人同意,或者存在符合法律、行政法规规定的豁免情形,当前,我国的豁免同意情形包括合同履行、法定职责或法律义务以及公共利益等,合法合理的商业利益则尚未被明确列入。[7]


对于我国的个人信息处理者、AIGC服务提供者而言,在使用包含个人信息的训练语料前,建议做到以下几点要求:


● 匿名化处理:用于模型训练的语料数据,尽量选择已经去标识化或匿名化的数据,或者对训练数据事先进行匿名化、去标识化等处理,“清洗”掉其中的个人信息后再用于模型训练,以尽量降低数据处理风险;


● 告知:训练数据或用户输入的指令数据中若包含个人信息,则在获取数据之前依法履行告知义务,以显著的方式、清晰易懂的语言,真实、准确、完整地向个人信息主体告知以下内容:处理个人信息的种类、处理目的、处理方式、保存期限、个人行使个人信息主体权利的方式和程序、个人信息处理者的名称/姓名和联系方式;[8]


● 同意:在收集包含个人信息的训练数据之前获得相关主体的明示同意。[9]如AIGC提供人脸、人声等生物识别信息编辑功能,即用户指令数据中包括敏感个人信息的,还应当取得用户的单独同意。[10]


此外,若企业用于训练的数据系通过公开渠道甚至是非公开渠道所获取,则还需格外注意是否侵犯其他市场主体的数据权利、知识产权、商业秘密等风险,并尽量取得相关市场主体对获取、使用、加工数据的合法授权,避免存在数据来源合法性问题。


(二)敏感数据处理


文生视频AIGC的训练则有赖于大量的图像数据,图像数据中则可能包含大量特定身份信息、医疗健康信息、生物识别信息、未成年人信息等敏感个人信息。在我国,敏感个人信息的处理受到更为严厉的规制,需要遵循“特定目的、充分必要、严格措施”的基本原则,取得个人的单独同意,并在敏感个人信息处理的全生命周期(收集、存储、使用、加工、传输、提供、公开、删除等环节)采取严格的保护措施。


对于我国的敏感个人信息处理者而言,在开发和使用AIGC的过程中,建议做到以下几点要求:


● 分级分类:结合业务实际和行业要求,对训练数据、用户指令数据、生成数据等进行分级分类,识别可能涉及的敏感个人信息,并按照业务功能或者服务场景分项归类;


● 影响评估:事先开展个人信息保护影响评估,评估具体处理行为是否具有特定的目的和充分的必要性,并对处理情况进行记录;


● 单独同意:获得个人信息主体的单独同意,涉及未满十四周岁的未成年人个人信息的还应当取得其父母或监护人的同意;[11]


● 替代方案:涉及人脸信息等生物识别数据的处理的,则提供不使用生物识别数据的替代方案,[12]允许个人拒绝将其生物识别信息用作数据训练;


● 严格保护:采取严格保护措施,如信息加密、严格限定访问和操作权限、日常监测与定期评估、分开存储、处理目的达成后及时删除或做匿名化处理,必要时对处理人员进行安全审查等。 [13]


(三)数据质量与安全


在训练数据的选择和提供服务方面,开发和使用AIGC的企业同样需要关注数据的质量与安全问题,加强数据质量管理,确保数据的真实性、准确性、完整性、时效性[14],提升数据的一致性和规范性,[15]避免使用违法信息和不良信息进行训练。其中:


● 违法信息:指的是含有反对宪法基本原则、危害国家安全、有损国家荣誉和利益、宣扬或煽动恐怖主义或极端主义、破坏民族团结或宗教政策、涉及黄赌毒或犯罪等内容的信息;[16]


● 不良信息:指的是含有不当评述灾难、易使人产生性联想、血腥惊悚等致人身心不适、煽动人群歧视或地域歧视、违反社会公德等内容的信息。[17]


为了确保数据质量和安全,建议企业可以建议以下机制并采取相应的管理措施;


● 筛选过滤机制:建立训练数据内容的筛选过滤机制,通过关键词、分类模型、人工抽检等方式,充分过滤数据中的违反信息和不良信息;[18]


● 内外部监督机制:提供接受公众或客户反馈、投诉举报的途径及反馈方式,[19]采取安全监控措施,设置监看人员,及时根据国家政策以及第三方投诉情况提高训练数据和生成内容的质量;


● 应急机制:制定应急预案,采取安全可控的技术保障措施,[20]一旦发现违法信息和不良信息,能够及时切断传输阻却传播,减少或消除违法信息和不良信息带来的影响,保存有关记录等。


(四)数据跨境合规


国内主体如果使用境外AIGC,或者AIGC的开发过程中使用位于境外的服务器,训练数据或产品使用时输入的文字数据则可能涉及数据的跨境传输或存储问题。当前,我国法律对数据跨境做了一定的限制与豁免规定:


● 境内存储:关键信息基础设施运营者、处理个人信息达到国家网信部门规定数量的个人信息处理者、重要数据处理者,在境内收集和产生的个人信息和重要数据原则上应当存储在境内;


● 三大路径:确因业务等需要,确需向提供数据的,则应依法通过国家网信部门组织的安全评估、经专业机构进行个人信息保护认证、或者按照国家网信部门制定的标准合同与境外接收方订立合同约定双方的权利和义务;


● 豁免情形:如数据出境不包含个人信息或者重要数据、或预计一年内向境外提供不满1万人个人信息等情况的,则不需要申报安全评估、标准合同备案或通过认证[21]。于粤港澳大湾区内部的数据跨境流动,则仅需要备案标准合同即可[22]。


在实践操作层面,对于可能涉及数据跨境存储或传输的企业,则建议采取以下几点应对措施:


● 识别是否必须境内存储:核实自身是否被认定和通知为“关键信息基础设施运营者”,相关数据是否被相关部门、地区告知或者公开发布为重要数据。若是,则对使用境外AIGC应当极为谨慎,自身训练和使用的AIGC及其数据应严格控制于境内。


● 识别是否落入豁免范围:判断自身是否属于前述豁免情形,未能落入到豁免情形的,需要依法选择数据出境安全评估、个人信息保护认证或者标准合同备案等途径出境。(部分豁免情形所依据的《规范和促进数据跨境流动规定(征求意见稿)》尚未正式发布,建议企业重点关注后续正式稿的发布情况)


● 依法履行其他合规义务:无论是否豁免出境三大路径要求,仍然需要依法开展数据出境自评估工作,合法性基础为同意的跨境行为应取得个人信息主体的单独同意。


(五)数据主体权利保障


许多国家地区对个人信息主体权利(Data Subject Rights,DSR)保障都有一定的要求,要求数据控制者或个人信息处理者在利用个人信息开展AIGC训练或运作使用的过程中,应当保障个人信息主体的知情、查阅、复制、更正、删除、撤回同意等权利。[23]在我国,这些权利主要包括:


● 知情权和决定权:个人对其个人信息的处理享有知情权、决定权,有权限制或者拒绝他人对其个人信息进行处理;


● 查阅复制和转移:个人有权向个人信息处理者查阅、复制其个人信息,个人请求查阅、复制其个人信息的,个人信息处理者应当及时提供。符合国家网信部门规定条件下,个人信息处理者应当根据个人的请求,为个人信息转移至指定主体提供途径;


● 更正和补充:个人请求更正、补充其个人信息的,个人信息处理者应当对其个人信息予以核实,并及时更正、补充;


● 删除:当处理目的已实现或确认无法实现、产品或服务已经停止、法定或约定保存期限已届满、个人撤回同意、或出现违法违规违约处理个人信息的情形时,个人有权请求或企业应当主动删除个人信息;


● 撤回同意:个人有权撤回同意,个人信息处理者应当提供便捷的撤回同意的方式;


● 要求解释说明:个人有权要求个人信息处理者对其个人信息处理规则进行解释说明。


同时,法律要求企业作为个人信息处理者应当建立便捷的个人行使权利的申请受理和处理机制,拒绝个人行使权利的请求的,应当说明理由。企业若拒绝个人行使权利的请求,则个人信息主体可向法院提起诉讼,因此企业应审慎对待个人信息主体的行权请求并及时响应。在实践操作层面,企业作为AIGC服务提供者时,建议可以参考以下几点开展合规工作:


● 全面梳理在AIGC模型训练和使用过程可能涉及到的个人信息;


● 设置个人信息主体权利的响应机制,设置负责接受投诉、询问或行权请求的具体部门或负责人员;


● 公示个人信息的处理规则和前述个人信息主体权利响应机制;


● 及时受理和处理个人信息主体关于查阅复制、更正补充、删除、撤回同意、要求解释说明等要求。


(六透明度和可解释性


如何避免算法黑箱是长久以来备受监管关注的问题,我国对AIGC服务提供者提出了公开算法相关规则、提高规则的透明度、增强可解释性和可理解性的要求。[24]


在实际操作层面,企业可以优先判断自身是否属于以交互界面、可编程接口等形式面向我国境内公众提供生成式人工智能服务的组织,并相应地采取以下措施:[25]


● 若企业属于交互界面提供服务的类型,则应在网站首页等显著位置向社会公开服务适用的人群、场合、用途、基础模型使用情况等信息,并在网站首页、服务协议等便于查看的位置向使用者公开服务的局限性、所使用的模型、算法、所采集的个人信息及其在服务中的用途等有助于使用者了解服务机制机理的概要信息等信息;


● 若企业属于以可编程接口形式提供服务的,应当在说明文档中公开前述信息。


(七)安全评估与算法备案


对于具有舆论属性或社会动员能力的AIGC服务而言,算法备案与安全评估是两项重要的准入审批要求。[26]当前,对于何为“具有舆论属性”或“社会动员能力”众说纷纭,其解释和认定的范围较广,需结合产品或服务的功能属性进行判断,具体要素可能包括是否对外提供服务、是否存在信息发布或交互功能、是否涉及较大范围或不特定人群的使用等。


当前,算法备案和安全评估的步骤并不复杂,出于全面谨慎合规的考虑,建议AIGC服务提供者或技术支持者,尽量开展算法备案和安全评估工作:


● 算法备案:在提供服务之日起十个工作日内,企业应通过互联网信息服务算法备案系统(网址为https://beian.cac.gov.cn)填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续,变更和注销时同样需要履行相应的备案手续。[27]备案后,企业应在对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接。[28]


● 安全评估:开展自评估,准备好影印件加盖公章的自评估报告(若涉及到第三方需要准备检测报告),通过全国互联网安全管理服务平台(网址为https://beian.mps.gov.cn),向所在地地市级以上网信部门和公安机关提交报告,完成安全评估。[29]


(八)科技伦理


科技发展往往带来伦理道德观念的变迁,科技与伦理的冲突与协同发展亦是亘古讨论的话题。AIGC对社会伦理的影响不容小觑,亦是各国家地区尤为关注的监管要点。在我国,提供AIGC服务应做到:


● 尊重社会公德和伦理道德;[30]


● 充分考虑差异化诉求,避免可能存在的数据与算法偏见,努力实现人工智能系统的普惠性、公平性和非歧视性;[31]


● 定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型。[32]


对于我国的AIGC企业而言,为依法开展科技伦理审查,[33]在条件允许的情况下,建议采取以下措施:


● 设立科技伦理(审查)委员会:制定完善科技伦理(审查)委员会的管理制度和工作规范,提供科技伦理咨询,开展科技伦理审查,受理并协助调查相关科技活动中涉及科技伦理问题的投诉举报;[34]


● 开展科技伦理风险评估:由科技伦理(审查)委员会按照本办法要求制定本单位科技伦理风险评估办法,指导科技人员开展科技伦理风险评估,[35]完善科技伦理风险监测预警机制,跟踪新兴科技发展前沿动态,对科技创新可能带来的规则冲突、社会风险、伦理挑战加强研判、提出对策。[36]


(九)平台审查义务


使用AIGC生成的视频在各大网站平台传播时,若视频本身存在违规或侵权情况,或被用于刑事犯罪,则平台也可能因未尽平台管理义务而承担相应的民事责任、行政责任甚至是刑事责任:


● 民事责任:构成帮助侵权、共同侵权等,承担民事赔偿责任;


● 行政责任:因未履行网络信息安全义务而被警告、暂停相关业务、罚款甚至吊销营业执照等;[37]


● 刑事责任:因致使违法信息大量传播、用户信息泄露或为犯罪提供帮助,而涉嫌拒不履行信息网络安全管理义务罪[38]、帮助信息网络犯罪活动罪[39]等。


因此,对于存在AIGC视频传播的平台而言,建议进一步健全平台内容审核机制、投诉举报机制、应急处理机制,并在日常管理中,制定和完善平台社区规则,对用户行为进行合理的规制。


四、结语


近期Sora所体现的AIGC的惊人发展,于不同主体而言同样预示着不同的应对难题。于监管而言,如何运用现有的法律、改善法律以规范AIGC良好发展、服务于人民,是尤为重要的课题;与个人而言,在享受技术便利的同时,如何保护好个人隐私等权益、如何合理使用技术而不侵犯他人权益,关乎自身安全与切身利益;于企业而言,如何合法合规地研发与提供AIGC服务,降低在数据合法性基础、敏感数据处理、数据质量与安全、平台审查义务、数据跨境处理、DSR保障、算法透明度与可解释性、安全评估与算法备案、科技伦理等方面的数据合规风险,则关乎企业能否良好地生存和发展。


当前,全球关于AIGC的立法及监管执法日趋活跃, 全球各国各区域正加快推进AIGC的立法,并深化执法监管力度。对于企业而言,潜在数据合规风险不断加大,如何同时满足不同国家和区域的AIGC数据合规要求也将成为企业面临的重大挑战。


从方法论层面,企业要做到数据合规,需综合考虑AIGC在算法设计、训练数据选择、模型生成和优化、提供服务等全过程中,可能涉及的数据处理场景及全生命周期流程,依法践行前述合规义务,优化产品设计。上升到公司合规治理的层面,则更需要搭建企业数据保护合规体系,通过完备的制度、足够的资源与人力,高效的内部管控流程,将数据合规体系落地。我们也期待着,企业能在AI发展的浪潮中行稳致远,AI技术能够秉承“科技向善”的理想、良好发展、造福于人类!



注释

[1]Sora 是由 OpenAI 开发的文生视频模型,它能够根据文本指令创建长达60秒的高保真度视频,拥有复杂场景和角色生成能力、多镜头生成能力、从静态图像生成视频能力、物理世界模拟能力。相比Runway Gen 2、Pika等AI视频工具仅支持十秒以内的视频生成而言,Sora生成的视频更加真实、人物更加人性化,信息承载能力更强。参见Open AI官网,https://openai.com/sora。


[2] 如在短视频行业,360公司的董事长周鸿祎认为Sora可能给短视频行业带来巨大的颠覆;而在电影行业,好莱坞大亨Tyler Perry在看到OpenAI最新发布的文生视频模型Sora后,停止了8亿(约57亿元)美元的投资,他认为有了Sora将极大简化影视创作流程,将对编辑、剪辑、道具、布景等职位产生重大影响,未来将会有一大批人失业。


[3] 约翰·麦卡锡在1956年的达特矛斯会议上首次提出“人工智能”的概念。


[4] 参见施俊侃:《生成式 AI 带来的数据合规新挑战及应对》。


[5] 如根据《中华人民共和国个人信息保护法》第六十六条的规定,违法处理个人信息或未履行法定个人信息保护义务,企业及其直接责任人员可能面临双罚,其中:对企业的处罚包括责令改正,警告、没收违法所得、暂停或者终止提供相关产品或服务、罚款、停业整顿甚至吊销许可和营业执照;对直接负责人员的处罚包括罚款、限期职业禁止等。


[6] 如根据《中华人民共和国刑法》第二百五十三条之一条的规定,窃取或者以其他方法非法获取公民个人信息的可能构成侵犯公民个人信息罪,企业除被判处罚金外,直接负责的主管人员和其他直接责任人员也会受到处罚。


[7] 如《中华人民共和国个人信息保护法》第十三条。


[8] 《中华人民共和国个人信息保护法》第十七条。


[9] 《中华人民共和国个人信息保护法》第十三条,《生成式人工智能服务管理暂行办法》第七条。


[10] 《互联网信息服务深度合成管理规定》第十四条。


[11] 《中华人民共和国个人信息保护法》第二十九条、第三十一条。


[12] 《深圳经济特区数据条例》第十九条。


[13] 《信息安全技术 个人信息安全规范》,《信息安全技术 敏感个人信息处理安全要求(征求意见稿)》。


[14] 《深圳经济特区数据条例》第五十七条。


[15] 《新一代人工智能伦理规范》第十一条。


[16] 《网络信息内容生态治理规定》第六条。


[17] 《网络信息内容生态治理规定》第七条。


[18] 《生成式人工智能服务安全基本要求》第5.2.a)条。


[19] 《生成式人工智能服务管理暂行办法》第十五条。


[20] 《互联网信息服务深度合成管理规定》第七条。


[21] 《规范和促进数据跨境流动规定(征求意见稿)》。


[22] 《粤港澳大湾区(内地、香港)个人信息跨境流动标准合同实施指引》。


[23] 《中华人民共和国个人信息保护法》第四章,《生成式人工智能服务管理暂行办法》第十一条。


[24] 《生成式人工智能服务管理暂行办法》第八条和第十九条,《新一代人工智能伦理规范》第十二条。


[25] 《生成式人工智能服务安全基本要求》第7.b)条。


[26] 《生成式人工智能服务管理暂行办法》第十七条。


[27] 《互联网信息服务算法推荐管理规定》第二十四条。


[28] 《互联网信息服务算法推荐管理规定》第二十六条。


[29] 《全国互联网安全管理服务平台 安全评估办事指南》。


[30] 《生成式人工智能服务管理暂行办法》第四条。


[31] 《新一代人工智能伦理规范》第十三条。


[32] 《互联网信息服务算法推荐管理规定》第八条。


[33] 《互联网信息服务深度合成管理规定》第七条。


[34] 《科技伦理审查办法(试行)》第五条。


[35] 《科技伦理审查办法(试行)》第九条。


[36] 《中共中央办公厅 国务院办公厅关于加强科技伦理治理的意见》。


[37] 《中华人民共和国网络安全法》第四十七条。


[38] 《中华人民共和国刑法》第二百八十六条之一条。


[39] 《中华人民共和国刑法》第二百八十七条之二条