第三方数据取不了现 “三重授权原则”下,平台及用户同意对第三方抓取平台数据的合法性影响
“三重授权原则”导致数据利用的技术拒绝
“三重授权原则”是“新浪微博诉脉脉案”所确认的裁判原则。
法院指出:
第三方通过获取用户信息时应坚持“用户授权”+“平台授权”+“用户授权”的三重授权原则。
在“新浪微博诉脉脉案”中,法院认定脉脉通过技术手段获取了新浪用户的职业信息和教育信息高级接口数据,而微博平台并未同意向脉脉开放用户的职业信息、教育信息等高级接口功能。
新浪用户的职业信息和教育信息属于高级接口数据
脉脉也没有取得未注册脉脉用户的微博用户的授权,即读取了非脉脉用户的新浪微博信息并使用。
不仅如此,脉脉还将微博用户的信息与脉脉用户上传的手机通讯录中的联系人进行对应关系的展示,使脉脉对非脉脉注册用户的微博信息进行了公开展示。
脉脉用户上传手机通讯录中的联系人
有学者指出:
“同意”是数据利用最重要的合法性前提,是控制者处理数据的基础。
但“三重授权原则”下的技术拒绝,可能不符合数据利用思维。
“三重授权原则”可能限制了企业对于数据的合理使用
“三重授权原则”过分强调个人数据权利,使得企业无法通过合同要求用户放弃数据权利,从而限制了企业对于数据的合理使用。
“新浪微博诉脉脉案”涉及哪些争议数据?
“新浪微博诉脉脉案”并未明确争议数据权属,该案所涉争议数据大致可以分为四类:
第一类是新浪微博的用户数据,包括:新浪微博用户的头像信息、标签信息、好友关系、职业信息、教育信息等。
新浪微博的用户数据
第二类是微博平台向第三方开放的接口数据,这些接口数据基于新浪微博的用户数据生产,分为普通接口数据及高级接口数据(含微博用户的职业信息、教育信息等)开放于第三方,形成平台商业数据。
微博平台向第三方开放接口数据
第三类是脉脉注册用户数据,包括:脉脉注册用户在新浪微博的用户数据以及脉脉注册用户自行向脉脉提供的联系人信息。
脉脉注册用户数据
第四类是非脉脉注册用户数据,包括:非脉脉注册用户在新浪微博的用户信息以及非脉脉注册用户与脉脉所收集脉脉注册用户联系人信息的对应关系。
非脉脉注册用户数据
其中:
第一类用户数据是新浪微博在平台运营过程中基于亿级用户输入信息所形成的基础用户数据,含用户标识性信息。
用户数据通常含用户标识性信息
第二类接口数据是新浪微博基于用户基础数据的采集、清洗、处理、使用所形成的商用数据,原则上应当不含用户标识性信息。
商用数据原则上应当不含用户标识性信息
第三类脉脉用户数据是脉脉平台通过调用微博平台接口获得的数据及脉脉用户上传数据所形成的。
脉脉平台通过调用微博平台接口获得数据
第四类非脉脉用户数据是脉脉平台通过调用微博平台接口获得数据、脉脉用户上传联系人信息、以及将脉脉用户联系人与微博用户信息对应处理所形成的。
脉脉将脉脉用户联系人与微博用户信息对应处理形成部分非脉脉用户数据
用户输入或上传至平台的信息,可能具有个人信息(标识性信息,含敏感信息)。
“三重授权原则”对数据抓取合法性影响
有学者指出:对个人信息数据应采取“人财两分”的理论,将人格利益分配给个人,将财产利益分配给数据处理企业,但企业应当对个人信息数据承担保护义务。
由此可见,用户数据似乎是属于平台和用户“共有”的。
微博用户数据(第一类争议数据)显然具有比较强的用户标识信息。
新浪微博将微博用户数据(第一类争议数据),通过微博平台开放的接口数据(第二类争议数据)有偿开放给第三方(脉脉)。新浪微博从用户商用数据中获得经济效益。微博平台开放的接口数据显然应当是去标识化的商用数据。
用户数据显然具有比较强的用户标识
依据“三重授权原则”,如果脉脉要通过微博平台开放接口获取微博用户数据的商用数据,要获得“三重授权”:
其一,微博用户需同意微博平台商用化用户数据;
第二、微博平台需对脉脉调用微博平台开放接口获取商用数据授权;
第三、脉脉注册用户或脉脉非注册用户需要同意脉脉获取并使用其微博用户数据。
如果脉脉要通过微博平台开放接口获取微博用户数据的商用数据要获得“三重授权”
脉脉未获得新浪微博对于高级接口数据(含微博用户的职业信息、教育信息等)的授权,脉脉系非法获取高级接口数据(第三类争议数据)。
同时,脉脉也没有获得非注册用户对于使用其微博用户数据的同意,也无权利用注册用户上传的联系人信息与非注册用户微博数据进行对应展示(第四类争议数据),即非法取得并使用脉脉非注册用户的微博用户数据。
平台及用户同意对于第三方抓取平台数据的合法性影响
在“新浪微博诉脉脉案”中,脉脉与微博平台基于《开发者协议》通过数据共享接口进行数据传递,与新浪微博是合作关系。
但是,脉脉未经申请在技术上获取高级接口权限,超过协议范围获取微博用户信息,这是典型的非法抓取数据行为。
脉脉与微博平台曾基于《开发者协议》合作
从第三方抓取平台数据的方式来看,现阶段主要有两种类型:
第一类是第三方通过与平台签署合作协议或API协议,在平台授权范围内进行数据抓取。
第二类则是依据协议(也称为:爬虫协议或机器人协议),在网络平台允许范围内进行数据抓取。
依据协议可在平台进行数据抓取
无论是哪种数据抓取方式,合法性是需要评价的标准。
有学者指出:
在法律上可以从个人与数据控制者两个层面考察。
个人产生个人信息。而数据控制者所有数据是大数据,是对个人信息进行收集、脱敏、整理、加工后形成的海量数据,与个人信息主体的直接关联已经切断。
数据控制者所有数据是大数据
用户将其信息授权于平台,已然是“一重授权”。
平台通常通过隐私政策收集用户数据
如果平台需要将上述数据授权给第三方共享或使用,是否需要“三重授权”,得分情况讨论:
若平台数据或者说平台商业数据,没有脱敏,仍含个人信息,能够识别出个人主体,第三方如要抓取这部分平台数据,当然需要用户额外授权第三方抓取。
即第三方抓取平台数据仍需要满足“三重授权原则”。
第三方抓取含个人信息的平台数据仍需要满足“三重授权原则”
但平台开放数据如果只有脱敏数据,无法识别或不能直接识别出个人信息主体数据,原则上理应不需要用户额外授权第三方抓取。
即第三方抓取平台数据仅需满足“二重授权原则”。
第三方抓取已脱敏的平台数据仅需满足“二重授权原则”
下期,陈律师继续为您解读人工智能法律。欢迎关注!
您对人工智能有什么看法?请评论区留言。
如果您需要法律咨询,欢迎联系陈律师。