端到端自动驾驶与自动驾驶前沿研究内容 GAIR大讲堂 | 第21期
分享人:许华哲,UC Berkeley博士
开课时间:2017/10/10 10:25 预计时长:一个小时
课程回放
203人报名
观看回放
课程介绍

分享主题

端到端自动驾驶与自动驾驶前沿研究内容

 

分享内容

本次分享会嘉宾将会通过解读这篇被CVPR2017收录的论文《End-to-end Learning of Driving Models from Large-scale Video Datasets》来介绍自动驾驶前沿的研究内容 。本次工作的核心是定义了如何从视觉的角度通过深度学习来实现自动驾驶,并且与英伟达、CMU的ALVINN的工作不同,不仅仅在路况简单的情况下可以实现“车道跟随”(lane following),而且可以处理更复杂的环境,例如城市、商业区等。现有的深度学习的方法往往由于数据的原因被限制在固定的场景下,他们使用大规模众筹(crowd-sourced)视频数据,从而让模型可以更好地泛化。他们沿着ALVINN的道路尝试了端到端(end-to-end)的训练方式,这样的模型探索了端到端自动驾驶的可能性,同时隐含地学习出图像中关键的信息,并且加入了LSTM来进行对时间序列的建模,从而可以利用驾驶者的历史信息。他们还尝试了用其他task来增强主task,用语义分割网络来对主要驾驶网络进行调整,发现对主要的task有部分效果提升。

《End-to-end Learning of Driving Models from Large-scale Video Datasets》

https://arxiv.org/abs/1612.01079

Robust perception-action models should be learned from training data with diverse visual appearances and realistic behaviors, yet current approaches to deep visuomotor policy learning have been generally limited to in-situ models learned from a single vehicle or a simulation environment. We advocate learning a generic vehicle motion model from large scale crowd-sourced video data, and develop an end-to-end trainable architecture for learning to predict a distribution over future vehicle egomotion from instantaneous monocular camera observations and previous vehicle state. Our model incorporates a novel FCN-LSTM architecture, which can be learned from large-scale crowd-sourced vehicle action data, and leverages available scene segmentation side tasks to improve performance under a privileged learning paradigm

 

分享人

许华哲,UC Berkeley博士,师从Prof. Trevor Darrell。对计算机视觉、自动驾驶、强化学习感兴趣。本科毕业于清华大学电子工程系。

 

分享时间

10月10日周二上午10点30分

 

 

课程须知
  • 本次公开课将于10月10日周二上午10点30分准时开始,请大家提前10分钟进入直播间
  • 公开课后两天内会上传回放视频,错过直播的同学也不要担心
  • 欢迎大家多多向嘉宾提问,问题被采纳者有机会获得神秘礼品