新京报贝壳财经讯(采访人员 许哲)尽管已经离开讲台 , 李晓林身上仍留着些许象牙塔内的痕迹 。
之前 , 他是学界精英 , 佛罗里达大学终身教授;现在 , 他是同盾科技人工智能研究院的院长 。 平时与人交谈时 , 他语言温和 , 但一旦涉及专业问题时 , 立即进入学者气场 。
在谈及知识联邦相关话题时 , 这种转变尤为明显 。
这是他带领研究院伙伴们提出的理论体系 , 希望一种更安全的方式 , 利用好现有数据 , 搭建一个开放的智能大脑 , 最终推动人工智能3.0时代的到来 。
打破数据孤岛
上世纪80年代 , 中国人工智能专家姚期智曾提出过“百万富翁”假设:两个百万富翁在街头相遇 , 他们想知道谁更有钱 , 但是出于隐私 , 又不想让对方知道自己到底拥有多少财富 。
姚期智提出用“多方安全计算”方式来解决这一问题 。 如今的人工智能领域 , 正面临类似的困境 , 人工智能的发展进步 , 离不开大数据 , 但大家对数据边界越发重视 , 又不愿数据离开本地 。
在李晓林教授看来 , 这是AI 2.0时代必须要解决的困境 。 他认为 , 我们当下经历的人工智能热潮 , 兴起于21世纪第二个十年初期 , 属于AI 2.0时代 , 依托于深度学习理论 。
AI 2.0的快速发展 , 主要依靠三个因素:算法、算力和大数据 。 深度学习提供算法 , CPU和GPU提供算力 , 信息社会则储存和提供足够的数据 。
李晓林举例 , 谷歌的AlphaGo之所以能实现快速进化 , 便在于它一共学习了3000万盘已有的棋局 , 自己跟自己又下了3000万盘 。
这种依靠海量数据训练的人工智能模式 , 经过初期野蛮发展后 , 正面临无数据可用的困境 。
原来主要来自两个方面 , 首先是数据不足 , 拥有海量数据的往往只有少数行业 , 大多数领域的数据往往有限 , 或者数据质量较差 。 其次则是“数据孤岛”和数据安全使得数据共享越发困难 。 数据在不同公司间 , 甚至同一家公司内部 , 都难以实现无障碍流动 。
而数据带来的隐私暴露或数据泄露 , 使得加强保护数据安全和隐私保护 , 成为各国政府的共同选择 。
2018年5月25日 , 欧盟《通用数据保护条例》(GDPR)正式生效 , 这个堪称目前世界范围内最严格的用户数据保护条款 , 允许用户对自己数据拥有完全自主的权利 。 而美国和中国正在制定类似的隐私和安全法案 。
这些现象都预示着 , AI 2.0时代 , 似乎即将因为数据孤岛与数据安全 , 陷入双重困境 。 在同盾科技所在的金融科技领域 , 这一问题尤为重要 。 银行等金融机构 , 迫切想要提高风控水平 , 却又对数据安全极端看重 , 甚至将其作为立身之本 。
2019年春天 , 李晓林加盟同盾科技后 , 出任合伙人、人工智能研究院院长 , 试图通过“知识联邦”技术 , 来解决这一问题 。
当年冬天的网易未来大会上 , 同盾首次提出知识联邦概念 , 它不是单一技术方法 , 而是一套层次化技术框架体系:将散落于不同机构或个人的数据联合起来 , 转换成有价值的知识 , 并在联合过程中采用安全协议保护数据隐私 。
这一理论提出后发展迅速 , 已经成长为国内联邦学习五大代表流派之一 。
搭建数字技术生态
2017年 , 为保障数据交换时的信息安全 , 保护个人隐私 , 谷歌公司的科学家在一篇文章里首次提出联邦学习概念 。 理论提出后不久 , 国内各互联网公司纷纷搭建团队 , 投入相关研究 。
李晓林说 , 硅谷的竞争速度更像是古代战场:你来一剑 , 我捅一刀 , 大家排兵布阵慢慢打 。 而在中国 , “基本是赤膊角斗 , 相当激烈” 。
根据国内媒体统计 , 目前联邦学习在国内已经形成“五大流派” , 分别是微众银行主打的联邦学习 , 蚂蚁金服主攻的共享智能 , 平安科技的联邦智能 , 京东数科开展的异步联邦学习研究 , 以及同盾科技推出的知识联邦理论体系 。
要在多方竞争中占据一席之地 , 无疑需要具备独特优势 。 李晓林指出 , 知识联邦比联邦学习的范畴更大、更系统 , 更有层次 , “联邦学习是知识联邦的一个子集 。 ”
知识联邦作为一套技术框架体系 , 与联邦学习、区块链、隐私计算、安全多方计算等其它技术领域都紧密相关 。 这些单一技术 , 在知识联邦的不同层面各自发挥作用 , 共同服务于数据“可用不可见”的大目标 。
同盾发布的知识联邦白皮书显示 , 知识联邦具有三大优势:第一是全样本触达 。 联邦后机构间的数据 , 虽然各自为所有者控制 , 由于可以触达更多的数据 , 其性能甚至会超越维度有限数据的中心化聚集方式 。
第二是数据不动模型动 。 联邦后的原始数据保留在本地 , 计算和学习也发生在本地 , 中心节点仅对参与方模型知识进行安全的聚集 。 弱中心化模式达成了效率和安全之间的平衡 , 尤其适合在强监管行业应用 。 对银行等金融机构来说 , 知识联邦的应用前景尤为广阔 。
第三是知识也可以安全的共享融合 。 比如参与方通过NLP构建本地的知识图谱和各种网络节点的关系 , 再通过知识联邦来构建更完整的虚拟图谱 , 这样既能帮助识别欺诈团伙 , 又能提升企业征信的风控模型 。 人工的知识也可以融入其中(human in the loop) , 自主自适应的构建和融合多源知识 , 提炼出最有效的洞见来做智能分析与决策 。
李晓林说:“在知识联邦的模式下 , 模型训练时每个银行和金融机构 , 各自的数据不需对外输出 , 甚至连模型的参数都不用给到对方 , 只需要将模型梯度的变化加密后在密文空间里安全的聚合 。 这样攻击者不能反推出源数据 。 ”
基于知识联邦理论体系 , 同盾科技推出了工业级应用产品智邦平台(iBond) , 通过建立相应的任务联盟 , 解决不同应用场景需求 。
在2020年10月举办的全球人工智能大会智能金融高峰论坛上 , 同盾联合浙江大学、复旦大学、百度大数据实验室、360集团、平安科技等学界业界多家顶尖机构成立“知识联邦产学研联盟” , 旨在实现数据安全前提下 , 共同构建优质数字技术生态 。
李晓林认为 , 按照目前人工智能发展态势 , 2040年前后 , 人工智能将步入3.0时代 , 除数据、算力、算法三要素之外 , 知识要素将成为第四要素 。
开放智能大脑浮出水面
2020年11月 , 同盾人工智能研究院发布知识联邦技术体系下的数据安全交换(FLEX)协议 , 并于12月将其开源 。 该协议中包含一系列的约定 , 只要遵守这些约定 , 参与方就可以安全地加入到联邦 , 无需担心数据隐私会有泄露风险 , 全面实现数据可用不可见 。
协议背后 , 藏着李晓林和同盾对未来的野心 。 在李晓林看来 , 未来肯定不会只有知识联邦一个联邦平台存在 。
行业需要一套完整的联邦数据安全交换标准 , 让各个参与方在选择使用联邦平台时有规可依 , 只要遵循相应标准 , 不同体系之间同样可以实现数据交换 , 知识互通 。
一旦参与机构(数据提供者)足够多 , 联邦规模足够大 , 数据多样性就有保障 , 也就会有更多机构(数据使用者)愿意来使用联邦服务 , 也会有更多科技型机构(模型和应用开发者)来提供丰富的算法、模型和应用 。
届时 , 知识联邦可以充分发挥平台作用 , 对参与机构提供的数据 , 以及科技机构提供的模型和应用进行评估 , 将数据作为生产资料的价值发挥到最大 。
李晓林将其称之为电商式的平台 , 参与方在数据可用不可见的安全环境中 , 进行数据、模型应用的交换 , 甚至可以在区块链等技术的保障下进行自由交易 。 而知识联邦作为平台方 , 可以对参与方贡献出的数据和模型评分 。
良性循环就此建立 , 李晓林说 , 知识联邦的应用范围 , 也将不再局限于某一个行业 , 而是有可能成为贯穿各行各业的开放的智能大脑 。
上世纪90年代 , 李晓林在浙大读书时 , 人工智能尚是冷门专业 。 机器学习课堂上只有五六个学生 , 图书馆里的资料大多是过期的油印本 。 如今的机器学习课堂 , 500人的教室常常坐满 , 课上提出理论 , 课后甚至可以立刻做出样品 , 一个学期的作业就可以做出自动驾驶的原型 , 行业应用不断创新 。
这一切都让李晓林觉得 , 人工智能的下一个时代或许加速到来 , 在这其中 , 必然将有知识联邦的身影 。
【数据|同盾科技李晓林:解决时代困境,知识将成AI3.0“第四要素”】新京报贝壳财经采访人员许哲编辑岳彩周 校对 李世辉
推荐阅读
- 区块|面向2030:影响数据存储产业的十大应用(下):新兴应用
- 产品|泰晶科技与紫光展锐联合实验室揭牌
- 空间|(科技)科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 相关|科思科技:无人机地面控制站相关设备产品开始逐步发力
- 机身重量|黑科技眼控对焦23年后回归,升级! 江一白解读EOS R3
- 公司|科思科技:正在加速推进智能无线电基带处理芯片的研发
- 项目|常德市二中2021青少年科技创新大赛再获佳绩
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- 殊荣|蝉联殊荣!数梦工场荣获DAMA2021数据治理三项大奖
- 视点·观察|科技巨头纷纷发力元宇宙:这是否是所有人的未来?