从零开始做你自己的文字识别系统

作者/分享人:天马行空
向 Ta 提问
与大数据打交道多年,做过 Hadoop 生态大数据开发,围绕数据做过采集、加工、分析工作。近几年主要做人工智能领域的算法研究,探索如何将人工智能算法与实际业务结合落地。

关注人工智能的同学,都知道百度云、阿里云上面都有很多人工智能服务 API 可以调用,外行的人都觉得很高深,殊不知,其实我们自己也可以做得出来。 为了帮大家揭开人工智能的神秘面纱,本 Chat 将带领大家从零开始训练自己的文字识别模型,编写 API 服务,并创建一个 Web 页面来演示其功能。以此,让大家快速走一遍模型训练和部署的过程,获得成就感,激发自己的学习兴趣。

本场 Chat 的主要内容有:

  1. 如何获取训练数据集
  2. Yolo V3 原理介绍
  3. 使用 Yolo V3 训练文字检测模型
  4. 使用 Pytorch 训练文字识别模型
  5. 编写模型 API 服务
  6. 使用 Docker + Flask 部署模型
  7. 文字识别系统完整设计方案

本次 Chat 适合对人工智能感兴趣且有一定编程基础的工程师。

已有421人预订
预订达标
文章出炉
交流日期
     
04月06日
04月22日
04月30日 20:30
查看文章评论/提问
一念成魔
这个识别率如何 ,对于训练集和非训练集的内容?
Jackko
雄军
我大概看了下代码,主要分2步: 1.文本检测:基于yolo实现文字元素box的识别后基于nms做非极大值抑制,合并成文本行box并对文本行box做nms,最终形成文本行box. 2.文本识别:裁剪文字行图片,并基于CRNN+LSTM + CTC实现端到端不定长文本识别。 我的问题是现有的模型存在2个问题 1.识别出的文字是基于行的,会出现图片中本来不连续的文本识别在一起,识别出的文字很难进行语义解析(特别是数字。比如 15 2 30三个数字分别代表单价 数量 总额)。不知道能否返回单个文字的坐标。(MAX_HORIZONTAL_GAP参数无法做到将较小间隔的文本分成2行) 2.文本识别的准确率不太高,是否可以通过自己训练相关场景数据提高文字识别准确率,有什么需要注意的地方?
冯策
from crnn.crnn_torch import CRNN 到这个地方出现导入不了crnn
你可能还喜欢
JVM 问题诊断快速入门
火币集团研发中心
面试字节跳动的一点小经验
Wayne
互联网公司热门面试题:如何保证缓存与数据库的双写一致性?
魏武归心2016
面试官问:为什么在项目中使用消息队列!到底是想考什么?
零下
如何做好性能压测(二) | 性能压测工具选型对比
阿里巴巴中间件
小程序 · 云开发实战:从 0 到 1 快速开发电商小程序
微信极客WeGeek
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
入群与作者交流×
扫码后回复关键字 入群
Chat·作者交流群
入群码
该二维码永久有效