发完这条消息之后,苏哲把手机扣在桌上。他拿起那份威尔逊的情报,重新看了一遍西门子用户协议第17.3款的原文翻译。
“……用户授权西门子及其关联方,将用户在使用本产品过程中创建的数据用于产品改进、人工智能模型训练及相关技术开发目的……”
这段话放在欧洲和米国,也许能靠格式合同的惯例糊弄过去。但放在大夏——
苏哲拉开抽屉,找出法务总监老周上个月整理的一份备忘录。备忘录的主题是《大夏数据安全法和个人信息保护法中关于工业数据的适用条款》。
他翻到第三页,用笔在一段文字下面画了线:
*“数据处理者处理重要数据,应当在事前进行风险评估,并向有关主管部门报送风险评估报告。”*
西门子在大夏有超过两万家企业用户。这些企业使用NX和Teamcenter产生的设计数据——涉及航空、军工、核电、高铁等敏感行业——被西门子通过一行用户协议的小字拿去训练AI模型,有没有做过风险评估?有没有向大夏主管部门报送评估报告?
苏哲几乎可以肯定答案是没有。
他合上备忘录,拨了老周的手机。
“老周,你手边有没有西门子NX在大夏的标准用户协议文本?”
“有。去年知识产权诉讼的时候备过一份。”
“翻到第17.3款。然后对照《数据安全法》第三十条和第三十一条。写一份法律意见——如果我们以盘古造物用户权益保护的名义,向国家网信办和工信部举报西门子未经合规审批擅自将大夏企业工业数据用于境外AI训练,胜算几成?”
老周在电话那头沉默了三秒。
“十成。”他的声音听起来像刚吞了一颗定心丸。
老周的法律意见书用了两天写完。十七页。措辞极其克制——没有一句主观判断,全是条文引用和事实陈述。但每一段的逻辑链条都指向同一个结论:西门子通过格式合同条款,在未经大夏主管部门审批、未进行数据出境安全评估的情况下,将大夏境内企业的工业设计数据传输至境外服务器用于AI模型训练,违反了《数据安全法》第三十条、第三十一条,以及《个人信息保护法》中关于数据跨境传输的相关规定。
更要命的是,这些数据涉及的行业清单——老周做了一个附表——包括航空航天、核电装备、高速铁路和军工电子。全部属于“重要数据”甚至“核心数据”的范畴。
苏哲看完法律意见书,没有签字。
他把文件搁在桌角,拨了程度的电话。
“帮我查一件事。西门子大夏区的NX软件服务器部署在哪,数据同步的出境通道走哪条线路。具体到物理层面——光缆、IDC机房、接入点。”
程度没多问。他知道苏哲让他查东西的时候,问为什么是多余的。
四十八小时后,程度的调查结果回来了。比苏哲预想的更详细——公安系统在网络安全执法方面的技术手段,远不是民间能比的。
西门子NX在大夏的用户数据通过三条链路同步到境外服务器。第一条走上海的海底光缆,出口节点在崇明岛的一个登陆站,终点是新加坡的一个IDC机房。第二条走北京的陆缆,终点在法兰克福。第三条是备份链路,走香港。
三条链路的数据流量监控记录——程度的人从运营商那边调来的——显示,过去六个月里,从大夏境内同步出去的数据总量超过了47PB。
47PB。
这个数字是什么概念?国家图书馆的全部数字化藏书大约是10PB。
苏哲盯着这个数字看了半分钟。他拿起笔,在数字旁边批了两个字:“留存。”
他没有立刻动手举报。
原因很简单——时机不对。
现在举报西门子,工信部和网信办会启动调查,西门子会被要求暂停数据跨境传输。但调查过程中,OpenAI和西门子的“Forge”项目不会停。人家的训练数据已经拿到手了,调查改变不了既成事实。
他需要的不是一张罚单。他需要的是一记能改变战局的重拳。
而这记重拳,要等盘古系统的数据量追上去之后再打。
“继续收数据。”苏哲对陈默说的这三个字,不是随便说的。
数据银行上线第十二天。
累计上传量突破了七千万组。增速在放缓——最容易被说服的企业已经上传了,剩下的硬骨头是那些规模大、数据多、但顾虑也最重的头部企业。
陈默在敦煌的超算中心里跟苏哲开了一个视频会议。
“七千万组的质量分布不均匀。”陈默调出一张饼图,“高质量数据——就是维度完整、标注规范、行业稀缺度高的——只占23%。剩下七成多是低质量的通用件图纸和基础零件数据。训练大模型用不上。”
“你需要什么行业的数据?”
“航空结构件、汽车动力总成、精密模具、半导体封装——这四个垂直领域是涌现效应最明显的。但这四个领域的头部企业恰恰是最不愿意上传数据的。”
本小章还未完,请点击下一页继续阅读后面精彩内容!
喜欢京圈公子历练,全汉东疯了请大家收藏:(m.x33yq.org)京圈公子历练,全汉东疯了33言情更新速度全网最快。