2018年08月29日,周三晚20:30,美团平台智能技术中心视觉技术负责人魏晓明带来了主题为《如何基于深度学习实现图像的智能审核》的交流。以下是主持人张义整理的问答实录,记录了作者和读者间问答的精彩时刻。
内容提要:
- 美团业务对图片内容审核的要求是怎样的,比如准确率和自动化率?
- 除了辨识明星脸,人脸识别在美团还有哪些应用场景?
- 除了对涉黄信息的鉴别,美团是否有对图片中的暴恐信息,政治敏感内容,广告文字进行甄别,是否采用相同的技术框架?
- 图像识别基于 OpenCV 吗?
- 鉴黄方面,有没有预训练模型可用?数据集的收集和标注,是怎么做的?
- 在电商搜索应用里,美团目前还没有上线“拍图搜物”这个功能。请问有计划上线吗?如果上线,如何对消费者上传的图片进行尽量准确的识别,如何对消费者的搜索意图进行准确的判断并进行结果展示?
- 训练数据以及线上测试数据的样本数量是否有考虑的基准?例如文中提到的训练数据选择25类1.5万,这个数量是怎么考虑的,为何不是更多或者偏少些?
- 对于 AI 算法的稳定性,有些手段只修改某几个关键像素点就能影响最终判别结果,如何防止这种攻击手段?
- 图像审核的本质,是不是就是对图像进行分类(Classification)?
- 难分负例挖掘(抑制人物雕像、画像和动物头像等负例)具体怎么做的?检测中训练样本各类别不均衡怎么处理?
- 为了逃过审核,有些用户在发布涉及一些敏感问题的图片时会将图片旋转,模糊,涂鸦等,这类问题如何解决?
问:美团业务对图片内容审核的要求是怎样的,比如准确率和自动化率?
答:目前美团对图片审核的准确率要求99.9%,自动化率是97%以上。
问:除了辨识明星脸,人脸识别在美团还有哪些应用场景?
答:美团的线下场景比较丰富,所以人脸识别也有很多应用点,比如 B 端有针对商家,骑手的实人认证,C 端有面向零售场景的刷脸支付等。
问:除了对涉黄信息的鉴别,美团是否有对图片中的暴恐信息,政治敏感内容,广告文字进行甄别,是否采用相同的技术框架?
答:文章里可能主要提到涉黄,其实机审流程也会覆盖对涉政,暴恐,垃圾文本等内容的识别。整体的思路是:围绕分类,检测,序列学习这些关键技术点来打造通用能力,并结合具体场景进行定制优化。
问:图像识别基于 OpenCV 吗?
答:目前只有读图环节会涉及 OpenCV,识别部分都是基于深度学习框架。
问:鉴黄方面,有没有预训练模型可用?数据集的收集和标注,是怎么做的?
答:可以借鉴下雅虎公开的这个模型 :https://github.com/yahoo/open_nsfw。
问:在电商搜索应用里,美团目前还没有上线“拍图搜物”这个功能。请问有计划上线吗?如果上线,如何对消费者上传的图片进行尽量准确的识别,如何对消费者的搜索意图进行准确的判断并进行结果展示?
答:图搜这块目前还没有明确的产品规划。一方面与美团 APP 用户行为习惯有关,另外图搜技术更适合标品,而不是菜品这样的非标品。
问:训练数据以及线上测试数据的样本数量是否有考虑的基准?例如文中提到的训练数据选择25类1.5万,这个数量是怎么考虑的,为何不是更多或者偏少些?
答:样本的绝对数量并不是核心点,关键在于是否囊括线上分布。通常会采集线上多个月份的数据并抽样作为训练数据。测试数据这块,如果图片内容没有季节特点,一般取1周数据就够了。
问:对于 AI 算法的稳定性,有些手段只修改某几个关键像素点就能影响最终判别结果,如何防止这种攻击手段?
答:对抗攻防是近几年比较热门的话题,防御策略可以从 GAN 的思路出发,在模型训练过程中加入对抗因素。
问: 图像审核的本质,是不是就是对图像进行分类(Classification)?
答:不完全是。审核会涉及分类,检测,序列学习的技术。比如很多负例类型是通过局部的特定模式来体现的,这就要借助于目标检测。
问:难分负例挖掘(抑制人物雕像、画像和动物头像等负例)具体怎么做的?检测中训练样本各类别不均衡怎么处理?
答: 一种直观的实现方式是级联多个模型来实现,前面模型给出的处于某个置信度区间的 Proposal 可以作为 Hard Negative 的候选集。也可以结合主动学习的思路来做,检测模型训练时的类别不均衡也有多种解法,比如 Loss function 的构造可以增加权重。
问:为了逃过审核,有些用户在发布涉及一些敏感问题的图片时会将图片旋转,模糊,涂鸦等,这类问题如何解决?
答:训练数据准备时要增加对各种扰动的合成,另外模型结构的设计也要增强鲁棒性。比如为了应对广告文字的多角度/扭曲等现象,需要在检测模型的 Anchor 和 Loss 设计上下工夫。
本文首发于Gitchat,未经授权不得转载,转载需要与GitChat联系。