点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:用户数据的使用与隐私保护:认知误区与规则界限
首页> 理论频道> 思享家 > 正文

用户数据的使用与隐私保护:认知误区与规则界限

来源:光明网-理论频道2020-08-13 16:05

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  用户数据的使用与隐私保护:认知误区与规则界限

  ——从近日TikTok的辟谣事件说开去

  作者:教育部长江学者特聘教授、北京师范大学新闻传播学院执行院长、中国新闻史学会传媒经济与管理专业委员会会长 喻国明

  近日,“TikTok背后是7亿中国用户数据隐私”的视频在某网站上发布,8月9日,字节跳动官方账号发表声明,澄清称“TikTok”是字节跳动旗下一款面向海外市场的短视频应用,在产品运营过程中不会涉及国内用户数据。此后,尽管原视频已被发布者删除,但其引发的舆论热议并未在短时间内平息。众所周知,智能时代是建立在大数据基础上的,这其中当然也包括对于用户数据的使用。站在国家和时代发展大格局的角度看,这一问题显然并不仅限于一家互联网公司发展的市场安全和舆论环境,而是关涉所有国内的或出海企业的数据使用与智能化处理的现实运作和未来发展,所以值得我们本着科学严谨的方式,以及对个人、对企业、对社会和对未来负责任的态度加以理性探讨。

  从目前看来,这一问题可以通过如下三个层面来观察和分析:

  一、个人数据使用的必要性和可能性

  以这次事件为例,面向海外用户群体的TikTok是否需要并且可以获取字节跳动在中国的用户隐私数据?从字节跳动的公开回复和技术逻辑的角度看,答案是否定的。

  1. 数据使用的闭环逻辑是“一把钥匙开一把锁”

  传播学的研究表明,不同性别、年龄、教育程度,特别是居住地的政治、经济、文化、社会背景等因素,都会对于用户的媒介产品使用行为产生重要影响。因此,不同传播市场的用户洞察需要与其自身的用户数据相对应才是适配的。显然,世界各地的用户都有自己独特的传统、行为特点与兴趣偏好。对于国内用户使用抖音数据集进行训练所生成的模型,其推荐算法并不能实质性地让使用TikTok的海外用户产生更好的使用体验、提高用户粘性,甚至会对于模型的准确性造成干扰。因此,使用国内数据实际上并无必要和价值。

  2.智能算法中“迁移学习”的建模与运营需要全面的数据打通

  根据字节跳动的公开信息,TikTok所有数据均为海外用户,训练数据集与中国区的抖音分属两个不同的产品,并且由两个互不交叉的团队独立运营,其用户数据是严格隔离的。TikTok使用的是国外当地用户数据来进行建模。在这个前提下,所谓“迁移学习”就不成立了,因为推荐系统主要依赖协同过滤,而协同过滤的核心是基于人(指用户)和物(指视频)两个维度进行推荐。由于TiKTok与国内的产品内容和用户数据是彼此隔离的,不但迁移学习的收益非常小,而且跨越数据隔离的成本收益也是完全不匹配的。因此,从底层技术逻辑上,两个产品共享用户数据或模型既无必要,也无可能。TikTok不但无法获取字节跳动在中国的用户隐私数据,而且其价值动因也不成立。

  二、用户数据与智能算法上的创新

  以TikTok为例,TikTok基于海外用户数据,做了哪些算法上的创新应用?我们可以看到,TikTok以及字节跳动的算法优势在于其“推荐”系统,即TikTok上的“For You”。

  根据2020年TikTok就推荐算法所公开发表的文章,推荐系统会根据用户与应用程序互动过程中表现出来的偏好,例如发布的评论或关注的账号等,来为用户推荐内容。从新用户表现出的兴趣“冷启动”开始,推送系统根据推荐算法对相关视频进行排序,以确定用户对某条视频所产生兴趣的概率,最终形成个性化的“推荐”页。

  “推荐”基于多个因素,包括用户互动,例如用户点赞或分享的视频,关注的账号,发布的评论和自己创作的内容等;视频信息,可能包括文字说明、声音和标签等详细信息;设备和账户设置,比如语言偏好、国家设置和设备类型等。推荐系统对这些因素进行处理,并根据它们对于用户的价值进行加权计算,权重赋予的最为重要的指标是兴趣指标,比如用户是否从头到尾看完了一条长视频等。

  因此,开发和维护TiKTok的推荐系统是一个连续的过程。算法的关键是采自服务对象的数据,有了当地产品算法的基础框架后,持续增长的当地数据会不断训练优化算法。字节跳动基于海外用户信息,将根据用户、研究和数据的反馈来改进准确性,调整模型并重新评估有助于推荐的因素和权重,这也有助于做好各区域市场的在地化,更好地服务当地用户,进一步提升用户体验,帮助用户发现APP使用的乐趣,这样的产品才可能受到所在地用户的欢迎。

  三、智能化服务的商业公司使用用户数据的合法的、可持续的前提是对于相关法律要求的合规化

  伴随着技术的迅猛发展,人工智能领域的数据隐私问题,逐渐成为专家学者和普通网民用户共同关心的领域。特别是“脸书泄密门”发生之后,个人数据隐私、算法“黑箱”等信息伦理问题的相关探讨与研究日益增多。

  人工智能自动化决策的过程,成为个人数据隐私的最大隐患。因为人工智能程序并不像传统分析一样,对数据进行线性分析,而是学习数据、调整算法、智能回应新数据,来作出新的决策,这使得信息的处理过程往往成为一个算法黑箱,很难为一般人所理解,甚至也很难为专业人士所理解。

  全国人大常委会《关于加强网络信息保护的决定》指出,国家保护能够识别公民个人身份和涉及公民个人隐私的电子信息。那么,在国内用户使用抖音短视频产品时,我们的搜索、浏览、播放、互动等相关信息是否能够受到保护呢?答案是肯定的。

  1.任何一家想要做大做强、且可持续发展的智能化商业公司都会对于相关用户数据实行严格存储与保护,防止隐私泄露和信息外流,这是合规的起码要求

  在字节跳动公司所发布的《“抖音”隐私政策》(2020年2月20日)中明确了信息共享的原则,包括授权同意原则,“未经您的同意,我们不会共享您的个人信息,除非共享的个人信息是去标识化处理后的信息,且共享第三方无法重新识别此类信息的自然人主体”;合法正当与最小必要原则,即“共享的数据必须具有合法正当目的,且共享的数据以达成目的必要为限”。关于数据存储地点,则明确规定了信息不能传输至境外,“依照法律法规的规定,将在境内运营过程中收集和产生的您的个人信息存储于中华人民共和国境内。目前,我们不会将上述信息传输至境外”。

  2.智能化技术在数据的使用上是采用“去标识化”的处理,用以保护用户隐私

  有学者提出,从数据生命周期来看,数据发布阶段的匿名发布技术,数据存储阶段的加密存储技术和审计技术,数据使用阶段的加密访问控制技术等不断完善。在技术上,通过隐私保护技术完成数据流通和数据处理,避免数据直接流通导致泄露用户隐私。近两年来,联邦学习技术(Federated Learning)作为一种新的分布式学习方法,共享模型参数更新,而不是客户端设备中的原始数据,也展现了强大的用户隐私保护能力。在《“抖音”隐私政策》中,关于隐私信息管理技术也规定,“使用不低于行业同行的加密技术、匿名化处理及相关合理可行的手段保护您的个人信息……采取严格的数据使用和访问制度,确保只有授权人员才可访问您的个人信息,并适时对数据和技术进行安全审计”。

  3.从算法上看,智能算法模型是不可逆,因此是无法反推用户隐私信息的

  根据匿名网民的评论,分布式机器学习不是传输数据,而是传输一个训练好的模型。“联邦学习的出现就是为了公司希望获得数据来训练模型,但是又不能泄露用户隐私,所以会在用户本地设备上进行一次学习,将学习好的简单模型上传至公司端,再对参数进行聚合等操作之后再来训练,得到一个较好的模型之后将模型参数传回去,对每个设备进行一次模型优化,以此迭代。”然而,也有网民提出,这也有可能涉及隐私问题,“通过训练完成的神经网络模型反推出训练数据中的敏感信息”,他者有可能利用模型的输出结果,通过参数、权重,来倒推某些训练数据中的敏感信息的可能性与结果。

  然而,从总体来反向推断样本,所谓“AI的逆向推理和特征解码”,其实现的可能性有多大,可信度与效果究竟如何,依然未经过大量科学研究的正式检验。正如网友“琉璃”所说,“机器学习模型本质是一个统计信息的集合,这种推介算法模型只能提供群体的兴趣倾向性的统计信息。从模型反推原始数据极难,而且没多少意义”。

  四、简要的结论

  必须指出,个人隐私保护是必须的,但个人信息的合法使用也是智能化发展中所必须的。其中是否合理合法的界限是:个人信息的采集和使用必须履行知情同意的原则,并且不因个人信息的采集和使用而对相关个人的利益、形象及社会关系产生明确和实质性的负面影响。在此界限下,我们应以开放的态度迎接智能化时代的到来,并且提升我们对于智能化技术的理解,为中国互联网企业的发展营造良好舆论氛围和社会支持。(注:注释略)

[ 责编:郑芳芳 ]
阅读剩余全文(

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 建设让人民满意的新型智慧城市

  • 弘扬抗疫精神 迈向民族复兴新征程

独家策划

推荐阅读
只有透过历史的表象,探寻历史长河中的规律性认识,才能真正揭示中华民族能够迎来从站起来、富起来到强起来伟大飞跃的根本原因,才能使文化自信具有深厚根基。
2020-09-17 08:24
中国坚信,在当今世界任何霸权主义的道路都行不通。中国将始终保持理性冷静的态度,始终站在历史前进的正确方向一边,始终致力于维护中美合作大局。
2020-09-16 17:07
习近平总书记站在全局和战略高度,把扶贫开发摆到治国理政突出位置,作出关于扶贫开发本质、阶段、重点、方略、动力和制度等论述,简称本质论、阶段论、重点论、方略论、动力论和制度论。
2020-09-04 18:59
构建上合组织命运共同体绝不是一个抽象的概念,而是有着实实在在的现实需要。上合组织应抓住抗疫和经济重建的重要契机,逆势而上,蜕变升级。
2020-09-04 14:00
持续推动创新要素整合、大力开展开放式创新仍然十分关键。依托国际国内市场利用好两种资源,打造更为高效的要素市场和产品市场是实现双循环有效运行的重要前提。
2020-09-01 18:21
以这次事件为例,面向海外用户群体的TikTok是否需要并且可以获取字节跳动在中国的用户隐私数据?从字节跳动的公开回复和技术逻辑的角度看,答案是否定的。
2020-08-13 16:05
“中文”成为了中国知识之“体”,中国学问之“基”——这就是“中文”固有之“道”,是近百年来“旧中文”学科越来越忽略之“道”。因而,也应是“新中文”学科应该重拾之“道”。
2020-08-10 17:47
我国以“最大的发展中国家”定位自身名副其实,理应享有发展中国家应有的权利和待遇,主动放弃发展中国家地位,意味着主动离开发展中国家阵营,危害性较大。
2020-07-29 17:59
建议加快塑造更加优良的营商环境,打造开放、宜居的全球性城市,来吸引全球跨国企业、虹吸全球高级人才、技术和资本为我国发展创新经济服务。
2020-05-25 15:26
疫情之后的全球化和全球价值链将会呈现新的态势和发展趋势,但全球化和全球价值链的本质和核心不会变。我们需要眼光向前,放眼未来,为后疫情时代做好准备。
2020-04-28 13:50
疫情期间,高科技成为疫情防控的一支特殊而又关键的力量,这其中我们尤其要发挥好大数据、人工智能、云计算等数字技术优势,为疫情防控工作提供支撑。
2020-04-13 16:36
要将广东、浙江等地支持中小企业复工复产的有力举措和实践经验在全国推广,各地结合实际、取长补短、互通有无,真正做到全国“一盘棋”。
2020-04-05 09:23
一个国家的制度和治理能力在应对风险和挑战中受到考验。坚决打赢疫情防控的人民战争、总体战、阻击战,集中体现了我国国家制度和国家治理体系的显著优势。
2020-02-24 17:58
法律的实施会面临很多复杂情况,需要充分发挥执法者的才智。每次突发事件的发生都有自己的独特性和内在规律,应对措施不仅必须在法律授权范围内,还要符合突发事件的性质和规律,具有针对性和特殊性。
2020-02-20 17:21
考虑到消费需求在我国总需求结构中的地位提升,以及服务业在我国产业结构中的地位提升,加上每年一季度我国经济对消费需求和服务业增长的高敏感性,此次疫情对我国整体经济的影响会显著大于根据历史经验所做的分析。
2020-02-18 17:22
1月29日,教育部号召“停课不停学”,各级教育主管部门、学校和企业纷纷响应,但也有一些人将此看做在线教育发展的重要契机。在疫情的“拐点”还未来临之前,在线教育是否已迎来“拐点”已经成为讨论的热点。
2020-02-15 18:08
无论是在宏观层面,还是在微观层面,当前南南合作都处于较好的发展时期,如何把握住有利机遇,同时应对好相关挑战,应是坎帕拉首脑会议在讨论南南合作时要着力解决的核心问题。
2020-02-13 16:43
社会主义建设的根本目标是共同富裕,消除绝对贫困的主战场在农村,全面小康的突出短板在“三农”。纵观世界,资源禀赋的多少并不能主导一个国家或地区发展的质量和水平。
2020-02-10 16:14
我们应牢固树立“文化自信”,深刻把握“各种文明交流互鉴”的大势,又要重视“不同思想文化相互激荡”的现实,深入推动中国同世界深入交流、互学互鉴。
2020-01-17 17:31
新的征程已经起步,我们要振奋精神,闻鸡起舞,始终保持那么一股劲、那么一腔热情、那么一种精神,向着美好的朝阳出发,向着中华民族伟大复兴的目标前进。
2020-01-01 17:06
加载更多