用 NumPy 创造深度学习用的数据集

作者/分享人:林奇思妙想
向 Ta 提问
前新思科技(Synopsys) 软件工程师, 前开立图像算法工程师; 常常在开源世界里行走。 爱好广泛,天性喜欢折腾; 目前正在某医疗大数据公司做 GPU 高性能优化项目.

网上有很多的深度学习训练集, 他们很优秀,但是也具有如下几种缺点:

  1. 数据集一般很巨大, 下载带宽是限制
  2. 数据并不是很形象,很难去窥探为什么使用这个数据
  3. 数据质量不是那么可控
  4. 用来训练非常耗时,耗资源,比方只有 GPU 机器才能跑等等

基于以上的事实,我在平时的工作中,就不得不写一些数据集生成代码。 写的过程中,我也觉得非常有启发, 下面我们分享这一过程的心得。

包括以下内容:

  1. 生成数据
  2. 如何加杂噪声,如何控制生成数据的质量
  3. 怎么可视化生成的数据集
  4. 如何在训练过程中使用自己造的数据
已有109人预订
预订达标
文章出炉
     
18.08.27
18.09.11
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张林奇思妙想的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
查看文章评论/提问
钳工
作者你好,我想问你点本chat之外的问题。看到你之前在开立做图像处理工程师,想问一下,开立对于这块的一个要求和形象点的描述。如果可以,求前辈传授点经验
林奇思妙想: 开立那边有很多部门,我就讲一讲我所在的部门,看你图像算法部门,需要了解: 1 声学成像 2 传统的图像处理算法 3 多线程
你可能还喜欢
JVM 问题诊断快速入门
火币集团研发中心
面试字节跳动的一点小经验
Wayne
互联网公司热门面试题:如何保证缓存与数据库的双写一致性?
魏武归心2016
面试官问:为什么在项目中使用消息队列!到底是想考什么?
零下
小程序 · 云开发实战:从 0 到 1 快速开发电商小程序
微信极客WeGeek
如何做好性能压测(二) | 性能压测工具选型对比
阿里巴巴中间件
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
入群与作者交流×
扫码后回复关键字 入群
Chat·作者交流群
入群码
该二维码永久有效