Techo开发者大会,腾讯优图分享最新研

12月19日-20日,由腾讯发起的TechoPark开发者大会于北京顺利召开。其中人工智能专场以“人工智能算法与最佳实践”为主题,为开发者、业界及生态伙伴呈现了云计算时代下人工智能领域的最新前沿技术与最佳行业实践。腾讯优图实验室的研究员梁晨、王亚彪、姚达、杨博分别围绕AI视觉传感器、视觉算法在图像编辑生成中的研究与应用、TNN跨平台推理优化、模量化训练部署及实践等发表了主题演讲,向业界展示了优图最新研究成果与产业实践。自研AI视觉传感器VisionSeed,算法多样支持二次开发在论坛上,梁晨给大家介绍了一个有趣的硬件——AI视觉传感器。什么是AI视觉传感器呢?它是由摄像头、NPU和算法组成的硬件模组,其基本运行原理是:在NPU上运行深度学习算法,能够直接对摄像头拍摄到的画面进行实时分析,并将分析的结果通过数字信号传输给主机。据梁晨介绍,腾讯优图推出了一款自研的AI视觉传感器——VisionSeed,内置优图领先的视觉AI算法,还提供专业的配套工具和全平台的SDK作为支撑,让开发者可以方便的进行二次开发。腾讯优图专家研究员梁晨算法是AI视觉传感器的灵魂,VisionSeed具有很强的扩展性,能适应多种算法。一是可以适配SSD、YOLO-V4等开源的目标检测算法。二是应用于自动驾驶小车竞赛领域的车道定位算法,将VisionSeed安装在AGV小车的前端,获取第一人称视角的车道画面后,通过算法输出小车在车道内的横向偏移。这个算法主要通过语义分割进行车道信息提取,再通过回归模型直接得到定位结果来完成任务,将这两个交通标识检测和车道定位模型都部署到AI视觉传感器中,它就能指挥AGV小车完成复杂的任务。三是OCR算法,VisionSeed适配了基于PyTorch开源实现的CRNN算法。VisionSeed将以上算法,在客户端工具中封装成可以一键下载的模块,不仅方便用户下载体验,还可以进行分类任务训练。VisionSeed还同时支持UART和USB两个硬件接口。此外,通过VisionSeed提供的全平台SDK,开发者仅用10行代码就可以获取到AI分析后的结构化结果。研发图像编辑生成技术,解锁图像和视频领域更多可能什么是图像编辑生成?人脸融合、图像分割、动漫化、视频换脸、照片驱动……这些都是利用图像编辑生产技术完成的。演讲中,腾讯优图高级研究员王亚彪重点介绍了视频换脸、面部属性编辑、视线编辑、画质编辑这四项技术,他表示这些技术都会用到GAN生成对抗网络和Encoder-Decoder框架。视频换脸领域早期有一个Deepfake算法,该算法只能对训练过的两个特定ID换脸,无法使用各种各样的人脸去做替换。针对此点不足,优图提出了SimSwap算法,不仅能满足不同人脸的替换,还可以做跨性别替换,在正脸和侧脸之间也可以进行替换。腾讯优图高级研究员王亚彪在面部属性编辑技术研究中发现,模型不同层级的“风格”特征表示,在某些层级具有很好的可分性,因此优图提出了SSCGAN算法,该算法采用多级风格跳跃连接(SSC)和空间信息迁移(SIT)两个模块,实现整体结构和局部面部属性的精确编辑。在视线编辑方面,王亚彪指出,疫情期间在线视频交流越来越重要,但受限于屏幕和摄像头之间的物理布局,导致交流过程中缺乏眼神接触,因此优图提出Ugaze算法框架,矫正眼神视线方向。相较于以往基于3D变换的视图生成和基于生成模型的单目视线编辑,Ugaze算法主要有两点创新:一是提出了基于运动流场结合判别器的方案;二是使用了大量人工合成数据,采用域迁移方法,进一步提升了模型矫正精度。针对画质编辑,优图提出了图像超分RealSR算法。以往的超分算法往往只在特定数据集上有效,难以很好的对真实世界图像做超分。针对以往算法在高清和低清图像pair构造上的不足,我们提出了一种新的图像退化框架,该框架可以估计多样化的模糊核和真实噪声分布。RealSR算法获得了NTIRE挑战赛冠军,并受到了众多社区开发者的


转载请注明:http://www.aierlanlan.com/rzdk/9948.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了