大家好,我是来自PaddlePaddle团队的工程师。深度学习第三课中,曹莹介绍了如何让机器完成简单的写作任务,即利用循环神经网络来完成“文本到文本”的生成任务。在深度学习第四课中,我们会进一步介绍如何让机器读懂视频并用文本进行描述,即更复杂的“视频到文本”的生成任务。
PaddlePaddle最早在百度内部使用的时候,就做过非常多的自然语言处理任务,而自然语言处理任务几乎是RNN的天下,所以PaddlePaddle对RNN支持得非常好。根据深度学习第三课中总结的优势(灵活的序列输入、RNN算的快、可高度定制的RNN单元),本课会进一步展开介绍如下内容:
首先,介绍“视频到文本”的应用场景,给大家一个直观的感受。
其次,依次讲述“文本到文本”、“视频到一句话”、“视频到一段话”的模型优化过程。
最后,介绍PaddlePaddle中的双层序列,并帮助大家看懂双层RNN的配置。
一、应用场景
伴随着信息时代的到来,海量信息在全球被采集、传输和应用。尤其是数码照相机、数码摄像机等数字化产品的出现,让图像和视频进一步成为人们喜闻乐见的交流方式。但视频信息存在数据量大、抽象程度低的特点,并且常常由于缺乏有效的技术导致不能及时处理而浪费。因此,如何让机器读懂视频,是当今的研究热点问题。
让机器读懂视频,即机器能用一个或多个句子来描述视频内容,在视频检索(video retrieval)、视频字幕(video caption)、盲人导航(blind navigation)等领域有广泛的应用。下面举例介绍几个应用场景。
视频检索
高效的视频检索系统,必须具备视频自动检索功能。如在安防监控领域,虽然监控摄像头已经遍布大街小巷,为大多数案件留下了影像资料,给警方破案带来了很大的便利。但是,有了相关视频不等于就找到了目标信息,查找视频、分析视频的工作常常会耗用警方大量的时间和人力。在破案过程中时间是关键,为了争取快一分钟找到线索,公司和学术界都推出了很多高效智能的视频检索软件。
如图1展示在电视剧《生活大爆炸》中检索主人公Sheldon Cooper的示例[1]。从图中可以看出,所有包含该主人公的视频片段都可以被检索到。