「来源:|Python爬虫与数据挖掘ID:crawler_python」
回复“书籍”即可获赠Python从入门到进阶共10本电子书
今
日
鸡
汤
愿得此身长报国,何须生入玉门关。
大家好,我是Snowball。
一、前言
今天给大家分享的实战项目是常用验证码标注识别,前面两篇文章讲解了文章的创作灵感、需求分析和实现思路、数据采集/预处理/字符图切割等知识,Python项目实战篇——常用验证码标注和识别(需求分析和实现思路),Python项目实战篇——常用验证码标注识别(数据采集/预处理/字符图切割),这篇文章来给大家讲解下高效率数据标注。
二、高效率数据标注
根据第一大步的实现思路描述,大家应该可以了解到,在最初图片验证码数据的标注过程中,都是手动改文件名进行标注的,这种方式对小数据量标注是比较有效的,但是要标注个几百个图片,那效率是非常低,而且容易出错。于是,笔者思考怎么能提升通用图片验证码数据标注的效率,且能把文件管理起来,随时查询、修改、下载。
最开始,是想着用python的gui框架写个简单工具满足,在尝试了Tkinter、PyQT框架API使用之后,发现其列表组件操作非常麻烦,而且自定义item项也很复杂,于是就放弃了这种方案。最终采用现在主流的Web页面+后端的应用方案,这块后端技术栈笔者是比较熟练的,前端技术就很一般,基本现学现用,只需要找一个上手快的前端后台管理模板项目改改就行。这里感谢下之前工作的前端同事妹子,给我推荐了直接上手的开源工程,同时也帮助我解决了修改过程的大部分问题。以下是Vue后台管理系统模板开源项目