保存成功
订阅成功
保存失败,请重试
提交成功

深度学习第四课:让机器读懂视频

PaddlePaddle开源团队成员,毕业于中国科学技术大学计算机学院。研究方向为深度学习和高性能领域,目前主要从事PaddlePaddle在自然语言处理上的开发工作。
查看本场Chat

大家好,我是来自PaddlePaddle团队的工程师。深度学习第三课中,曹莹介绍了如何让机器完成简单的写作任务,即利用循环神经网络来完成“文本到文本”的生成任务。在深度学习第四课中,我们会进一步介绍如何让机器读懂视频并用文本进行描述,即更复杂的“视频到文本”的生成任务。

PaddlePaddle最早在百度内部使用的时候,就做过非常多的自然语言处理任务,而自然语言处理任务几乎是RNN的天下,所以PaddlePaddle对RNN支持得非常好。根据深度学习第三课中总结的优势(灵活的序列输入、RNN算的快、可高度定制的RNN单元),本课会进一步展开介绍如下内容:

  1. 首先,介绍“视频到文本”的应用场景,给大家一个直观的感受。

  2. 其次,依次讲述“文本到文本”、“视频到一句话”、“视频到一段话”的模型优化过程。

  3. 最后,介绍PaddlePaddle中的双层序列,并帮助大家看懂双层RNN的配置。

一、应用场景

伴随着信息时代的到来,海量信息在全球被采集、传输和应用。尤其是数码照相机、数码摄像机等数字化产品的出现,让图像和视频进一步成为人们喜闻乐见的交流方式。但视频信息存在数据量大、抽象程度低的特点,并且常常由于缺乏有效的技术导致不能及时处理而浪费。因此,如何让机器读懂视频,是当今的研究热点问题。

让机器读懂视频,即机器能用一个或多个句子来描述视频内容,在视频检索(video retrieval)、视频字幕(video caption)、盲人导航(blind navigation)等领域有广泛的应用。下面举例介绍几个应用场景。

视频检索

高效的视频检索系统,必须具备视频自动检索功能。如在安防监控领域,虽然监控摄像头已经遍布大街小巷,为大多数案件留下了影像资料,给警方破案带来了很大的便利。但是,有了相关视频不等于就找到了目标信息,查找视频、分析视频的工作常常会耗用警方大量的时间和人力。在破案过程中时间是关键,为了争取快一分钟找到线索,公司和学术界都推出了很多高效智能的视频检索软件。

如图1展示在电视剧《生活大爆炸》中检索主人公Sheldon Cooper的示例[1]。从图中可以看出,所有包含该主人公的视频片段都可以被检索到。

互动评论
评论
徐凌云4 年前
觉得从场景到模型到实现的思路很不错,很有研究性论文风格,给你赞一个,有群的话可以发一下二维码,我也加一下。
评论
Adele4 年前
理论上有没有办法对教学视频 抽取出语音,形成文字形成字幕,这样做需要什么技术储备?
评论
黄锐4 年前
1.PaddlePaddle框架中提供哪些技术防止训练时过拟合? 2.PaddlePaddle是否支持所有参数和权重都量化成8bit的模型? 3.PaddlePaddle是否支持tensorflow或caffe框架训练的权重导入?
评论
咸柠沙士4 年前
想请问生成一个句子还是生成一段话这个是由什么决定的?是在开始时对模式的选择么,就是说如果要生成一个句子,只要选择单层的RNN,而当需要生成段落,则用嵌套的RNN,还是通过其他的因素决定?另外如果再进一步要生成多个段落呢,这种情况目前能否实现?谢谢!
评论
zchq884 年前
视频序列CNN可以用别人训练好的模型做迁移训练么?
评论
闫旭4 年前
目前PaddlePaddle能够支持哪些分布式的框架呢?
评论
陈亚慧4 年前
作为新手刚刚深度学习,有点摸不着头脑,有入门书籍推荐么?
评论
段子手4 年前
拉我进群啊 我早就报名了
评论
谢工4 年前
加小助手gitchatty2,或关注公众号提醒通知
评论
杨书清4 年前
作为新手,刚开始学习深度学习,感觉东西好多,不知道如何入门,有什么建议么?
评论
周军蕊4 年前
请教下,文献8、9、10提出的视频编码向量处理机制,即平均池化,注意力机制的平均池化和特征序列最后一个向量之间有什么区别,分别适合哪些场景呢
评论
罗未萌4 年前
CNN跟RNN的区别?在视频到文本过程中各自起了什么作用?
评论
罗未萌4 年前
PaddlePaddle的接口支持哪些语言?现在开源了吗?
评论
crazy_sparrow4 年前
和tensorflow相比有什么优势啊
评论
lightsilver4 年前
现在有哪些公开的高质量标注数据集?
评论
海正蓝4 年前
如果视频里有音频的话 直接翻译音频到文字 然后在用seq2seq来抽出简介描述 或者是先训练抽取cnn 先抽取视频关键帧组 然后在对关键帧组 用双层lstm来做训练量是否会更小些 为什么采用的是双层rnn 而不是用双层lstm
评论
ustcliao4 年前
paddlepaddle和tensorflow有那些不同呢
评论
crazy_sparrow4 年前
哈哈哈
评论
党委书记还年轻🇨🇳4 年前
请问按照现在发展趋势,机器达到能够预测事件发展的程度还需要多久?
评论
s.p.YYM4 年前
讲的很赞,有个问题想问一下,图片生成文本跟视频生成文本大多采用CNN+RNN的组合方式,其中CNN用来抽取图片或视频的特征,RNN用来解码生成文本,那么这两种场景最大的不同是什么?
评论
查看更多