深度学习第四课:让机器读懂视频

作者/分享人:骆涛
向 Ta 提问
PaddlePaddle开源团队成员,毕业于中国科学技术大学计算机学院。研究方向为深度学习和高性能领域,目前主要从事PaddlePaddle在自然语言处理上的开发工作。

在上一课中,曹莹介绍了如何让机器完成简单的写作任务。这一课中,我们会进一步介绍如何让机器读懂视频并用文本描述,即完成“视频到文本”的生成任务。该任务在视频检索、视频字幕、仪表导航等领域都有广泛的应用。

传统的“序列到序列”模型,只能实现“视频到一句话”的生成任务。为了实现“视频到一段话”的生成任务,我们会引入双层序列和双层RNN的概念。双层序列是PaddlePaddle支持的一种非常灵活的数据组织方式,能帮助我们描述段落、多轮对话等更为复杂的语言数据。而基于双层序列搭建的双层RNN,就能实现将视频映射到一段话的任务。本场Chat主要内容如下:

  1. 介绍“视频到文本”的应用场景,给大家一个直观的感受。
  2. 依次讲述“文本到文本”、“视频到一句话”、“视频到一段话”的模型优化过程。
  3. 介绍PaddlePaddle中的双层序列,并帮助大家看懂双层RNN的配置。

实录提要:

  • 按照现在发展趋势,机器达到能够预测事件发展的程度还需要多久?
  • PaddlePaddle 和 TensorFlow 有那些不同呢?
  • 现在有哪些公开的高质量标注数据集?
  • 和 TensorFlow 相比有什么优势?
  • PaddlePaddle 的接口支持哪些语言?现在开源了吗?
  • CNN 跟 RNN 的区别?在视频到文本过程中各自起了什么作用?
  • 目前 PaddlePaddle 能够支持哪些分布式的框架呢?
  • 视频序列 CNN 可以用别人训练好的模型做迁移训练吗?
  • 生成一个句子还是生成一段话这个是由什么决定的?是在开始时对模式的选择么?
  • PaddlePaddle 框架中提供哪些技术防止训练时过拟合?
  • PaddlePaddle 是否支持所有参数和权重都量化成 8bit 的模型?
  • PaddlePaddle 是否支持 TensorFlow 或 Caffe 框架训练的权重导入?

往期回顾:

已有292人预订
预订达标
文章出炉
交流日期
     
17.05.04
17.05.17
17.05.24 20:30
查看文章评论/提问
s.p.YYM
讲的很赞,有个问题想问一下,图片生成文本跟视频生成文本大多采用CNN+RNN的组合方式,其中CNN用来抽取图片或视频的特征,RNN用来解码生成文本,那么这两种场景最大的不同是什么?
海正蓝
如果视频里有音频的话 直接翻译音频到文字 然后在用seq2seq来抽出简介描述 或者是先训练抽取cnn 先抽取视频关键帧组 然后在对关键帧组 用双层lstm来做训练量是否会更小些 为什么采用的是双层rnn 而不是用双层lstm
党委书记还年轻🇨🇳
请问按照现在发展趋势,机器达到能够预测事件发展的程度还需要多久?
ustcliao
paddlepaddle和tensorflow有那些不同呢
crazy_sparrow: 哈哈哈
lightsilver
现在有哪些公开的高质量标注数据集?
crazy_sparrow
和tensorflow相比有什么优势啊
罗未萌
PaddlePaddle的接口支持哪些语言?现在开源了吗?
罗未萌
CNN跟RNN的区别?在视频到文本过程中各自起了什么作用?
周军蕊
请教下,文献8、9、10提出的视频编码向量处理机制,即平均池化,注意力机制的平均池化和特征序列最后一个向量之间有什么区别,分别适合哪些场景呢
杨书清
作为新手,刚开始学习深度学习,感觉东西好多,不知道如何入门,有什么建议么?
GitChat小姐姐
拉我进群啊 我早就报名了
谢工: 加小助手gitchatty2,或关注公众号提醒通知
陈亚慧
作为新手刚刚深度学习,有点摸不着头脑,有入门书籍推荐么?
闫旭
目前PaddlePaddle能够支持哪些分布式的框架呢?
zchq88
视频序列CNN可以用别人训练好的模型做迁移训练么?
咸柠沙士
想请问生成一个句子还是生成一段话这个是由什么决定的?是在开始时对模式的选择么,就是说如果要生成一个句子,只要选择单层的RNN,而当需要生成段落,则用嵌套的RNN,还是通过其他的因素决定?另外如果再进一步要生成多个段落呢,这种情况目前能否实现?谢谢!
黄锐
1.PaddlePaddle框架中提供哪些技术防止训练时过拟合? 2.PaddlePaddle是否支持所有参数和权重都量化成8bit的模型? 3.PaddlePaddle是否支持tensorflow或caffe框架训练的权重导入?
Adele
理论上有没有办法对教学视频 抽取出语音,形成文字形成字幕,这样做需要什么技术储备?
徐凌云
觉得从场景到模型到实现的思路很不错,很有研究性论文风格,给你赞一个,有群的话可以发一下二维码,我也加一下。
你可能还喜欢
哪些算法和数据结构是需要程序员必须掌握的?
zhen.guo
ACT 敏捷教练培养体系
Chat 三人行
Spring Cloud Consul 从入门到精通
如梦技术 dreamlu
Spring Data JPA 晋级提升篇:复杂场景实战用法与优化
张振华
程序员的自我进化:学习之道,如何更有效的学习
Soyoger
高并发、高性能 Web 架构解决方案
Array老师
微信扫描登录