Waymo和DeepMind模拟进化论 开发新方法训练AI

网易科技讯 7月26日消息,据国外媒体报道,Alphabet旗下的无人驾驶汽车公司Waymo进行了大量训练来改良驱动其自动驾驶软件的人工智能。最近,它与另一家Alphabet子公司DeepMind合作开发了一种模拟进化论的新训练方法,来提高训练质量和效率。

正如Waymo所解释的那样,人工智能算法通过反复试验来自我改进。一个模型被提出一个任务,它通过不断地尝试和根据它收到的反馈进行调整,来学习执行这个任务。执行表现在很大程度上依赖于训练方案——被称为超级参数机制——而找到最佳训练方案的任务要有经验的研究人员和工程师亲自去完成。他们精心挑选正在接受训练的人工智能模型,剔除表现最差的模型,并释放资源从头开始训练新的算法。

DeepMind设计了一种不那么劳动密集型的训练方法:基于群体的训练(以下简称“PBT”),它从多个由随机变量(超级参数)启动的机器学习模型开始运作。这些模型会定期被评估,并以一种进化的方式相互竞争,这样,表现不佳的群体成员就会被“后代”(表现较好的成员的副本,其中的变量略有变化)所取代。PBT不需要重新开始训练,因为每个后代都继承了父网络的状态,并且在整个训练过程中会主动更新超级参数。最终的结果是,PBT有了“良好的”超级参数值,用上多数的资源进行训练。这就是进化的由来,因为这是一种人工自然选择的过程。

PBT并不完美——它倾向于对当前进行优化,而没有考虑长期结果,对发展迟缓的人工智能模型不利。为了缓解这种情况,DeepMind的研究人员训练了一个更大的群体,并创建了一个叫做“利基”的亚群体,在这个群体中,算法只允许在自己的子群体中竞争。最后,团队通过为更独特的模型提供竞争优势来直接奖励多样性。

最近,Waymo和DeepMind让PBT接受Waymo创造更好的虚拟司机的挑战,训练结果令人印象深刻——DeepMind在一篇博客文章中表示,借助PBT,负责标识区分由Waymo汽车的诸多传感器发现的行人、骑车者和摩托车骑手的网络误报率下降了24%。不仅如此,与Waymo以前使用的标准方法相比,PBT还节省了大约50%的训练时间和资源。

使用这种方法时,为了避免潜在的缺陷,DeepMind经过早期研究以后进行了一些调整,其中包括每隔15分钟就对模型进行评估,构建强大的验证标准和示例集,以便确保测试能够为真实世界构建表现更好的神经网络,而不只是仅适用于它们被灌输的特定数据的良好模式识别引擎。

Waymo表示,它已经将PBT直接纳入了Waymo的技术基础设施中,使得来自整个公司的研究人员只需点击一个按钮就可以应用PBT。该公司写道,“自这些实验完成以来,PBT已被应用于许多不同的Waymo车型,并有望帮助创造出更适合道路行驶的汽车。”(乐邦)

也许你还喜欢

“诺奖风向标”预测获奖名单:百度研

【环球网科技综合报道】2019年诺贝尔奖获奖者名单将于今年10月7日起由瑞典皇家科学院

除了5G、人工智能,任正非与顶级AI专

9月26日下午,华为创始人、CEO任正非与两位全球顶级AI专家——杰里·卡普兰(Jerry Kaplan

小公司不要太多方法论,认真磨好豆腐

这是华为创始人任正非与华为员工座谈的精华内容,这次座谈的对象是华为公司日本代表处、

商业航天公司「星途探索」完成数千

36氪获悉,商业航天公司「北京星途探索科技有限公司」(以下简称“星途探索”)于近日完成数

央行司长示警 刷脸支付单一特征交

地铁、超市、便利店、药店……随着应用场景愈加广泛,刷脸支付这项支付新体验正在巨头力

任正非:中国首先要抓基础教育,要具有

9月26日下午,深圳,华为公司创始人任正非对话两位人工智能专家杰里·卡普兰和彼得·柯克

生物技术提供商Amphivena完成6200

投资界9月26日消息,生物技术提供商Amphivena Therapeutics于近日宣布,其已完成6200万美

共逮捕48人!美国陷阱再度重演,国外又

我们知道,因为5G,任正非成为了全球风云人物。如果不是每个百般针对,华为也不会像今天这般

力拓、宝武、清华大学签署谅解备忘

澎湃新闻从英澳矿业巨头力拓集团(Rio Tinto)方面获悉,9月25日,力拓集团、中国宝武和清华大

戴上帽子就可以生发,这到底是什么黑

第一批 90 后开始秃顶了,脱发问题一直是困扰很多人的问题。尽管近几年植发机构和生发药