人工智能技术发展的核心驱动力在于基础数据,大量的优质数据是满足算法实现深度学习的重要素材。
人工智能的实现与人脑相似,也需要知识和经验的积累。而伴随算法的进步与更多应用场景的出现,学习数据的供需矛盾也逐渐凸显,这为AI基础数据服务平台提出了巨大挑战。较为常见的是,很多研究机构、AI公司由于基础数据预处理(包括:采集、清洗、标注)环节严重滞后,限制了研发进程,产生大量人力成本和时间成本。此外,标注出来的数据不能保证规范性、足量性以及泛化性,从而无法得出正确的算法学习结果,在目前仍然普遍存在。因此如何为人工智能发展增添“原”动力?不少做数据基础服务的企业也在做出新的探索。
CBInsights数据显示,年全球人工智能创业公司总融资达到了亿美元,中国企业占比48%,排名位居世界第一位,超过第二位的美国近10%。俨然,中国企业是在此次技术浪潮中,深切意识到人工智能将为传统劳动密集型企业带来巨大的降本增益空间。据《中国人工智能创新应用白皮书》中预估,中国至年,仅在金融、汽车、医疗及零售行业就能实现约亿元人民币的降本增益效益。这无疑将驱动中国企业在人工智能领域注入更多“血液”。
从经济价值驱动转看技术层面,人工智能发展的三大支柱为数据、计算能力和算法,数据作为最基础要素,是人工智能技术持续进化不可或缺的“原”动力,因此伴随“人工智能”产业的快速增长,中国AI企业对基础数据的需求也产生爆炸式增长。量级大、质量高、泛化性明显的数据更是供不应求。因此,人工智能的飞速发展也催生了人工智能基础数据服务产业出现。倍赛BasicFinder作为AI基础数据服务企业,将在服务模式和系统应用两个方面,提出数据对人工智能发展限制的解决方案。
倍赛BasicFinder冲破AI基础数据屏障
在传统的思维模式下,很多AI企业对于数据采集与标注工作环节,往往采取以下解决方案:找到一个众包平台,在众包平台上同时发布采集与标注的任务。针对该解决方案,倍赛BasicFinder认为数据采集在众包平台上进行操作是可行的,众包平台上可以使收集的数据更加多样化,单位采集成本也相对较低,而且由于众包任务会有明确的任务说明,使接受采集任务的用户能根据需求的贴合性上传更有效的数据。BasicFinder数据采集模块经过长期实践,验证了众包采集数据的合理性。
然而,对于数据标注任务通过众包模式操作则会产生两处明显短板。一处是,众包平台的任务执行者往往没有经历过专业的标注培训,加之抱有兼职心理,所以在数据标注的质量上就很难得到保证。同时,由于标注任务不像是采集任务执行起来相对简单和快捷,所以也有很多任务执行者,在标记要求较复杂的情况下,会放弃该任务,而影响整体数据加工的工期,毕竟现在是一个“快鱼吃慢鱼”的时代,工期延误就会拖慢整个项目的进程,甚至会影响到企业的生存和发展。综上可以看出,面对数据加工,传统的思维方式会遇到两项难题:1.如何保证数据标注质量?2.如何能够提升标注工作的效率?倍赛BasicFinder经过在数据标注领域的长期探索,设计出一套有效的数据加工模式(ETP模式):专业化数据标注师+高效工具集+流程化管理系统,以此模式破解了目前数据预处理环节的两大屏障。
以倍赛BasicFinder为招商银行提供的服务方案为例。在通常状况下,金融机构对证照比对以及单据识别的准确率要求非常高,以防止出现错账和乱账。因此,参与模型训练的图像等数据必须实施高精度标记。鉴于此类项目应用传统解决方案可能需要对相同数据进行多次标注才能保证精度标准,耗时、耗力,所以倍赛BasicFinder根据“ETP模式”进行了如下设计,以解决上述问题。
第一步:部署BasicFinderHIVE系统
安全性方面:由于招商银行的数据需要高度安全性,所以倍赛为其做了BasicFinderHIVE系统的私有化部署,也就是将该系统直接部署到客户指定的服务器上。在BasicFinderHIVE系统平台开展数据预处理的整个流程中,数据流动路径皆在本地加密的控制范围内,有效避免数据外流。
流程方面:首先,BasicFinderHIVE系统改变了传统任务的分发机制,从之前通过人工计数的群分配及网盘分配方式调整为系统辅助分包,提升任务派发效率;其次,倍赛对需求定义、人员设置、数据加工、数据质检、数据修改、接口匹配、汇总交付等多个作业模块进行闭环设计,以闭环的方式保证了数据加工的质量。
第二步:定制化工具集
倍赛根据客户所需加工的数据类型进行工具设置,包括:精准点标记工具、3D画框工具、视频及语音分割等工具。通过定制工具匹配数据类型以提升数据加工环节效率。
第三步:数据标注师培训
倍赛对参与数据预处理的工作人员进行培训,其内容包括系统和工具的使用以及针对不同数据类型的标注技巧。让作业人员充分了解系统和工具,发挥出BasicFinderHIVE的最大效用。
在整体部署完成之后,招商银行已具备自主开展对智能客服、证照比对、单据识别等所需数据的加工能力。
场景演示作业流程
在现实的应用场景中,倍赛曾为某直播平台做过一个关于手势及人像数据预处理的项目,其作业数据量达30万张。在采集数据的过程中,倍赛通过自建的系统平台将任务划分为两部,一部分由具有消化任务能力的数据工厂承担,另一部分则由数据采集众包平台来完成。即工厂里每位数据标注师利用客户端进行数据采集并上传至BasicFinder系统平台数据存储池中,最后合并众包平台上网民上传的数据,以“工厂定额+众包变量”的方式进行数据采集。而后,平台会对采集上来的手势及人像数据进行初步清洗,消除模糊和缺失关键点的数据。清除后,平台将合格的数据包重新适配至做过相似数据加工案例的工厂,再由该工厂的数据标注师借助标注工具集系统进行数据标注,初次标注完成的数据会流入数据审核池,由专门负责质检的人员进行校验,合格的数据则流入交付池,不合格的数据则会原路返回,进行重新加工直至达标。
从客户下需求文档开始,到最后数据交付,BasicFinder都是流水线式的操作,从最前端的任务定义、采集数据,到中间的清洗、加工,以及后端的质量检测、数据交付等全部环节分工作业,并通过工具集系统辅助人工以提高项目整体的作业效率。
人机耦合,充分释放数据标注师效能
倍赛BasicFinder平台在全局产品和服务中,对数据标注工具集以及BasicFinderHIVE平台系统投入大量精力开展研发。这种观念源于倍赛对“工欲善其事,必先利其器”有着自己崭新的理解——人性化的工具可以使作业复杂程度得到最大简化,从而释放工作者效能。一名经历过培训的数据标注师,在使用BasicFinder工具集系统时,相较于传统工具完成相同作业任务平均省时约30%,并且准确率也得到明显提升。
在倍赛与伯克利合作的案例中,倍赛为自动驾驶数据集BDDK提供数据预处理服务。此数据集需要标记的图像包括行人、车辆、障碍物、车道线、路灯、红绿灯、禁停区、绿化植物带甚至包括天空。而且该数据标注的图形要求为目标标记物的轮廓线,相对于矩形框标记复杂程度高出很多。对于这类数据的标注,复杂的图形和更多标签属性致使单一工具无法满足需求。BasicFinder标注工具集系统,则设计有跟踪标记等17种类型的工具,并配置了套模板。例如,数据集BDDK中,对一段视频素材内某个矩形障碍物进行标记,则在这段视频中的其他帧会自动为该障碍物添加相同标记,仅需对标记位置进行细微调整;同时,BasicFinder标注工具集的三次样条曲线工具则可以完成形状复杂的图形轮廓标记,甚至可以完成对行人发丝的标记。数据集BDDK中素材会因批量不同而产生较大变化,标注师则根据不同批量以及自身的作业习惯,通过自由拖拽的方式进行模板配置,以便以最高效方式完成作业任务。除此,BasicFinder工具集系统还加入了辅助线的设计,解决了数据集BDDK中标记落点问题,使整体项目执行效率提升至少1倍。
无论是工具集系统的优化,还是对数据标注人员的培训,倍赛BasicFinder目的是希望通过不断提高数据预处理的能力,来满足人工智能与日俱增的需求,在平台的后期发展方向上,倍赛BasicFinder依旧会在标注工具集与私有化平台系统进行探索和研究,针对数据多样性的变化开发更贴合需求的产品及服务。