【新智元导读】作为人工智能发展的三大驱动力之一,数据的重要性毋庸置疑。在硅谷拜访了李飞飞、弓峰敏、吴恩达等人工智能领域的大咖,走访OpenAI和斯坦福机器人实验室等人工智能研究前沿重地之后,我们更深刻地看到了“数据”的重要性:它可能是中美未来人工智能发展水平的决定因素。针对数据的问题,各位走在AI研究前线的大人物和机构负责人也分别发表了自己的见解。李飞飞认为,对于初创公司来说,通过产品来撬动数据获取才是最重要的。吴恩达特别指出:传统科技公司 + 机器学习/神经网络 ≠ AI公司,有3个与数据紧密相关的特征可以判断一家公司是不是AI公司。
在“数据、算法、计算力”这AI 发展的三大驱动力中,眼下最被人们关心的是哪一个?这里的限定词是“最”。在由人工智能领域顶级投资机构红杉资本中国基金和真格基金发起的“AI 双城记”北京-硅谷参访活动交流中,我们发现,关于答案的大部分线索,都指向了“数据”。
走访了今日头条、清华姚班、科大讯飞、阿里巴巴和腾讯的人工智能实验室之后,“AI双城记”一行前往硅谷,向谷歌云机器学习与人工智能首席科学家李飞飞教授、滴滴信息安全战略副总裁、滴滴研究院副院长、Didi Labs负责人弓峰敏博士、加州大学伯克利分校AI实验室负责人Pieter Abbeel教授、 Y Combinator 总裁Sam Altman、斯坦福大学机器人实验室Oussama Khatib教授、Coursera公司联合创始人吴恩达教授等多位业界顶级专家进行了交流学习,探访了唯品会的“AI+时尚”,还深入加州大学伯克利分校与斯坦福大学两大“魔法学校”,面向未来AI 人才进行了校园巡讲。
红杉资本全球执行合伙人沈南鹏和真格基金创始人徐小平也参与了“AI双城记”硅谷段的部分活动环节。沈南鹏认为,人工智能是信息科技高速发展的重要产物,如果企业家能够把握好未来5-10年市场研发方向与机会,应当可以获得前所未有的长足进步,获得跨越式发展。
沈南鹏和徐小平都非常关心AI产业将对教育领域带来哪些改变。徐小平认为,工业时代是把流水线上的人变成机器,而AI时代则是把机器变成人。AI的广泛应用,如果能够极大提高生产力、极大地解放人类,将是非常了不起的事情。
在专家的分享中,在团员们的交流讨论里,“数据”二字一直被反复提起。这些人工智能领域领袖级的专家们,这些走在AI创业前线的企业家们,他们都有着怎样的“数据观”?
具体来说,巨头在数据上的优势会不会形成垄断,构建起发展人工智能的壁垒?对于创业公司来说,在数据不足的情况下,应该如何聚焦以弥补劣势?从技术上来说,是否一定需要“大”数据才能发展AI?从更高的层面来看,不同的市撤境对于数据的产生会有多大的影响,反映在数据上的差异化结果,是否会在AI层面造成长远影响?
为期一周的硅谷之行中,以上问题一一得到了解答。
没有足够的数据怎么办?李飞飞:通过产品来撬动数据,启动飞轮
对于大多数并非以 AI 技术为核心业务的公司来说,智能时代他们最关心的问题是,要怎么用好AI技术(为业务助力)?这些公司在日常经营业务中累积了大量数据,归结起来,这是业务场景的问题。
而作为创业者,其实大多数人比较关心这样一个问题:没有大数据怎么办?专家们的一个建议是做细分领域,原因在于细分领域的数据,大公司不容易触达。
“AI双城记”硅谷段第一场大佬对话的重磅级嘉宾是谷歌云机器学习与人工智能首席科学家李飞飞教授,红杉资本全球执行合伙人沈南鹏先生与真格基金创始人徐小平老师专程到场参加。
图为红杉资本全球执行合伙人沈南鹏先生与谷歌云机器学习与人工智能首席科学家李飞飞教授对话创业者
创业者向李飞飞教授提出这样一个问题:大公司毫无疑问拥有巨大的数据获取优势,那么创业公司还有机会吗?
李飞飞教授的回答是,大公司在获取跟自己产品相关数据方面的优势肯定是无法匹及的。但是,AI应用的场景多种多样,在许多领域还有待开掘。对于初创公司来说,通过产品来撬动数据获取才是最重要的。
图为真格基金创始人徐小平老师聆听李飞飞教授答创业者问
在李飞飞教授看来,科技在不断往前推动,毫无疑问,人工智能是真正革命性的技术。但这一领域的存在只有60年,在大数据中,仅仅是有标注的训练数据集就可以用来做很多工作。
在被问及看好哪些行业会最先在AI的推动下获得长足发展时,她再次提到“数据”这一线索,李飞飞认为,有数据、有场景的地方会用得最好。
硅谷安全教父弓峰敏:给机器“喂”训练所需的数据时,要考虑到其应用场景是什么样的
此次行程中,“AI 双城记”一行也拜访了滴滴信息安全战略副总裁、滴滴研究院副院长、Didi Labs负责人弓峰敏博士。
图为滴滴信息安全战略副总裁、滴滴研究院副院长、Didi Labs负责人弓峰敏博士
据弓峰敏博士介绍,滴滴现在的发展方向不仅仅局限在共享出行,而是瞄准了整个交通系统的变革。滴滴公司每天需要处理的数据超过了4500 TB,而每天通过滴滴平台完成的出行订单则超过2000万次。通过道路设施上的传感器和车辆同时收集而来的数据,变成很大的数据源,这让滴滴训练更加智能的系统成为了可能。
他介绍说,滴滴出行在拼车规划方面的计算量,远远超越了下围棋的AlphaGo。在获得数据以后,系统可以学到对于乘客来说在什么地方、哪一个上车点是最方便的,所以在滴滴APP里面,现在我们看到了“推荐上车地点”这一应用。
他同时谈到了AI时代将会面临的各种安全问题——一窥硬币的另一面。
在他看来,机器学习本身的确增加了方法和模型的复杂度,和软件时代一样,复杂程度本身就是一个可能引起更多漏洞和威胁的弱点。但AI应用引发黑客攻击的可能性已经不是什么新鲜事物,越来复杂的机器学习,已经有对抗的味道在其中。这意味着,机器需要做更多自适应的学习,不断更新,去应对可能出现的安全风险。
另一方面,给机器“喂”训练所需的数据时,就要考虑到其应用场景是什么样的,对于噪音、干扰、信息污染的承受程度又是怎样。如果预见性差,很可能致使学习系统被误导,其学习结果也相对不会理想。
因此,弓峰敏博士指出,解决AI未来应用的安全性问题,也会是一个蓬勃兴起的新领域。
吴恩达教你判断一家公司是不是AI公司:看数据
硅谷行程的最后一天,人工智能和机器学习领域国际最权威学者之一吴恩达为大家作了主题为《当AI成为新的电力,它将怎样改变世界?》的分享。
图为Coursera公司联合创始人吴恩达教授
AI的崛起正在改变公司间竞争的基础,到底什么才是真正的AI公司?吴恩达教授首先谈到了互联网时代,关于定义“互联网公司”的误区——商场 + 网站 ≠ 互联网公司。
“我认识一家大型零售公司的CIO,有一次CEO对他说:‘我们在网上卖东西,亚马逊也在网上卖东西,我们是一样的。’但其实不是的,互联网公司应该如何定义呢?不是看你有没有网站,而是看做不做A/B测试、能不能快速迭代、是否由工程师和产品经理来做决策。这才是互联网公司的精髓。”
他还说,同样地,现在我们经常听人说“AI公司”。在AI时代,我们同样要知道:传统科技公司 + 机器学习/神经网络 ≠ AI公司。
那么,怎样才算是一家真正的AI公司,吴恩达教授认为有3个重要的特征,都与数据直接相关:
第一,AI公司倾向于策略性地获取数据。
第二,AI公司通常有统一的数据仓库。
第三,普遍的自动化以及对人工智能产品经理的新定位(从哪儿获取数据,如何获取数据,对数据精准度的要求)。
数据太小怎么办?OpenAI 有办法
相比科技巨头,初创公司在数据上的劣势是确实存在的。但是,在前沿研究领域,研究者们也在探索,如何利用小量的数据进行学习和训练,在不依赖大量数据的前提下,最高效地发展AI技术。
OpenAI研究员、加州大学伯克利分校教授Pieter Abbeel 和 OpenAI 创始人、YC 创始人 Sam Altman 在与AI Trip团员的分享中,均提到了他们的最新研究方向——在小数据的前提下发展 AI。在OpenAI,研究员们更多地是着眼于机器的“学习”,在自训练(self-play)中训练智能体。
图为Y Combinator 总裁Sam Altman
图为加州大学伯克利分校教授、伯克利AI实验室负责人Pieter Abbeel
Pieter Abbeel更为具体地提到了一个有效的方法——元学习(Meta Learning),给系统很多训练数据,最后得到的是一个自学习的系统,它会随着获得的数据进行更新和快速的学习。这样,少量数据也可以有好的结果,只要有相似的数据。这颠覆了传统的深度学习模式必定需要大量数据集的情况,意味着其实深度学习也可以在少量数据的情况下,得到不错的结果。
翻阅此前的论文,Pieter Abbeel他们的介绍是,这是一种与模型无关的元学习算法,它与任何具有梯度下降训练的模型兼容,适用于各种不同的学习问题,包括分类,回归和强化学习。元学习的目标是在各种学习任务上训练一个模型,以便可以使用少量的培训样本来解决新的学习任务。
在他们的方法中,模型的参数被明确地训练,使得具有来自新任务的少量训练数据的少量梯度步骤将在该任务上产生良好的泛化性能。实际上,他们的方法训练模型很容易微调。已经得到证明的是,这种方法可以在两张图像分类基准上产生最先进的表现,在回归中产生良好的效果,并通过神经网络策略加速策略梯度强化学习的微调。
另一个解决数据不足的办法,斯坦福机器人实验室:用虚拟环境的训练解决数据问题
在斯坦福,机器人专家Oussama Khatib向大家介绍了他引以为傲的机器人Ocean One,这是一个用于深海发掘的机器人,能够到达人类因为生理限制无法到达的海底深度。
图为斯坦福大学机器人实验室教授、电气与电子工程师协会研究员、国际机器人研究基金会主席Oussama Khatib教授
Oussama的团队设计了一种三指机械手,采取AI+触觉反馈的协同工作方式,让机器人手部能够感受到所抓取物体的重量与质感,在斯坦福的实验室里,“AI双城记”团员们也亲身感受到了这一人机协同的新方式。真正能“感受”得到机器那一端的触感。
新智元了解到,Ocean One的研发中,很多训练其实使用了模拟场景,就是虚拟环境。可以用虚拟产生的数据发展AI,这又是解决在没有大数据的情况下发展人工智能的一个妙招。
总结:中美之间在数据上面临的不同情境,很可能会成为将来AI角逐的关键甚至是决定性因素
首先数据为什么重要?这一问题提出的背景是,当下人工智能发展其实有两个非常明显的现象:算法的开源化和计算的云端化。
算法的开源化体现在,不仅具体的算法模型代码会公开,运行和训练这些算法的框架也是开源的,加上近年来火热论文发布平台arXiv,以及Github和Reddit等平台,甚至社交媒体都大大地便利了算法研究的交流,门槛大大降低。
计算的云端化趋势明显,谷歌从2017年开始发力以AI计算为主要对象的云计算领域,而此前亚马逊、微软等科技公司也在推动云计算的普及。在中国,阿里云、腾讯云和百度云也都在竞相发展。直接接入云计算,从而降低计算成本,越来越多地成为一种可行的、划算的选择。
“AI 双城记”团员,唯品会美国研发中心总经理,AI负责人谢楠提到 —— AI 技术有几大趋势:算法“开源化”,计算“云服务化”,数据“私有化”。因此,就算法,数据,和运算能力这三大 AI 要素,企业最需要建立起壁垒的是数据。AI 商业应用与学术论文研究有所不同,算法模型的准确率不必要是唯一的研发目标。在有限的时间与资源的情况下,也许有商业 RoI 更高的研发目标,譬如算法对某业务场景的覆盖范围。在特定的应用场景,80% 的算法模型准确率可能就可以做很多过去做不到的事情。如何在不完美准确率的情况下构建一个切实可行的商用场景是真正挑战商业 AI 实践者的地方,需要对业务及客户需求有深刻得洞察与理解。
中国在未来会成为全球最大的数据产生地。数据是石油,中国在数据上的优势,会让中国成为智能时代的“阿拉伯”——这是“AI 双城记”中,在硅谷优秀的研究者和创业者交流中被频繁地提到的话题。而在这一点上,大家都达成了较为一致的共识:中国拥有发展人工智能最理想的环境,丰富的应用场景和海量的数据。
此前彭 博社对中国发展AI的优势进行分析时,曾经采访到罗切斯特大学研究中国的计算机科学教授罗杰波,他说,“在中国,数据一向是很容易得到的,只是现在,政府、组织以及公司终于明白了数据的价值。只要能找到可以信任的伙伴,他们就会愿意共享这些数据。”
彭 博社曾进一步总结,在发展AI上,中国有着三大优势:大量的软件工程师储备、可供测试的7.51亿(甚至更多)巨量互联网用户基础,以及政府的强力支持。
在“AI 双城记”的交流中,不少AI从业者提到,中美之间在数据上面临的不同情境,很可能会成为两国将来在AI角逐的关键甚至是决定性因素。
AI在中国发展的良好势头,也让通过“AI双城记”走出去的创业公司CEO和高管们受到了极大的关注。在美国两所著名学府——斯坦福大学和加州大学伯克利分校分别举行的校园巡讲座无虚席,场场爆满。
图为真格基金创始人徐小平老师与联合创始人王强老师在校园巡讲期间同框
后记:AI时代,人类将真正第一次在最本质意义上复原成“智人”
红杉资本中国基金一直关注人工智能领域的发展,并在 A 轮甚至 Pre-A 轮就投资了诸多 AI 及相关领域的创业企业,包括安防领域的依图、格灵深瞳、明略数据;金融领域的第四范式、京东金融、百融金服、凯泰明、Ping++;传媒/信息领域的今日头条、快手、秒拍、新智元;生活服务领域的美团点评、饿了么、达达、汇纳科技;汽车/交通领域的蔚来汽车、滴滴出行、摩拜单车、Pony.AI、瓜子二手车;医疗健康领域的推想科技、Voxel Cloud、森亿智能;硬件领域的大疆创新、Ninebot、地平线、出门问问;以及技术层领域的云智慧、智慧芽、神策数据,可以说,这样一个AI投资图谱,已经有效呈现了当前人工智能商业化的几乎所有领域的关键场景。
从红杉资本联手真格基金为成员企业提供的这翅跨北京和硅谷AI盛宴来看,他们对创业者的“帮忙”是真真切切的,从中国最顶级的人工智能实验室,到美国知名学府,再到大名鼎鼎的硅谷AI名人……创业者在这场旅程中接触到了当前可以获得的几乎是最好的交流和学习机会,蓉了“真经”。
正如真格基金联合创始人王强在此行的一次分享中提到的他对AI的理解:“这一场AI越来越凸显特色的智能化革命,实际上就是两个方向。一是不断释放人的大脑所承载了千百年的所有功能,这是继工业革命之后,释放人脑潜力、释放人力资源的又一次革命。用越来越智能化、高效率的方式,来替代人脑不应该承载的任务。”
“另一方面,当人脑的部分工作被人工智能所解放,它必定在呼唤着新的东西。就像人作为灵长类高等动物,古生物学家给人类的祖先命名为‘智人’,随着AI的不断演进,可能人将真正第一次在最本质意义上复原成为‘智人’。”