从零开始做你自己的文字识别系统

作者/分享人:天马行空
向 Ta 提问
与大数据打交道多年,做过 Hadoop 生态大数据开发,围绕数据做过采集、加工、分析工作。近几年主要做人工智能领域的算法研究,探索如何将人工智能算法与实际业务结合落地。

关注人工智能的同学,都知道百度云、阿里云上面都有很多人工智能服务 API 可以调用,外行的人都觉得很高深,殊不知,其实我们自己也可以做得出来。 为了帮大家揭开人工智能的神秘面纱,本 Chat 将带领大家从零开始训练自己的文字识别模型,编写 API 服务,并创建一个 Web 页面来演示其功能。以此,让大家快速走一遍模型训练和部署的过程,获得成就感,激发自己的学习兴趣。

本场 Chat 的主要内容有:

  1. 如何获取训练数据集
  2. Yolo V3 原理介绍
  3. 使用 Yolo V3 训练文字检测模型
  4. 使用 Pytorch 训练文字识别模型
  5. 编写模型 API 服务
  6. 使用 Docker + Flask 部署模型
  7. 文字识别系统完整设计方案

本次 Chat 适合对人工智能感兴趣且有一定编程基础的工程师。

已有365人预订
预订达标
文章出炉
交流日期
     
04月06日
04月22日
04月30日 20:30
查看文章评论/提问
一念成魔
这个识别率如何 ,对于训练集和非训练集的内容?
Jackko
雄军
我大概看了下代码,主要分2步: 1.文本检测:基于yolo实现文字元素box的识别后基于nms做非极大值抑制,合并成文本行box并对文本行box做nms,最终形成文本行box. 2.文本识别:裁剪文字行图片,并基于CRNN+LSTM + CTC实现端到端不定长文本识别。 我的问题是现有的模型存在2个问题 1.识别出的文字是基于行的,会出现图片中本来不连续的文本识别在一起,识别出的文字很难进行语义解析(特别是数字。比如 15 2 30三个数字分别代表单价 数量 总额)。不知道能否返回单个文字的坐标。(MAX_HORIZONTAL_GAP参数无法做到将较小间隔的文本分成2行) 2.文本识别的准确率不太高,是否可以通过自己训练相关场景数据提高文字识别准确率,有什么需要注意的地方?
冯策
from crnn.crnn_torch import CRNN 到这个地方出现导入不了crnn
你可能还喜欢
高并发、低 RT 的风控系统架构及技术架构的实现
火币集团研发中心
程序员副业赚钱的 8 种模式
安晓辉
全栈开发入门实战:后台管理系统
鲁鹏
每一个开发人员都应该懂的 UML 规范
码匠笔记
不写代码:程序员最重要的技能 [英文版]
Chat 三人行
“花式吊打”系列之逻辑回归讲透透
天马行空
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
添加小助手微信×