所在的位置：前端 >> 前端前景 >> AI不是魔法人工智能的能与不能人人都是

AI不是魔法人工智能的能与不能人人都是

有人去过北京中科医院 https://m.39.net/pf/a_5212066.html
本文作者将从四类具体应用的实现上，看看AI技术给我们生活带来哪些便利，以及存在哪些局限？enjoy~如果把AI技术分为「前端的交互技术」和「后端的人工智能技术」。前端的交互技术包括语音识别、图像识别和自然语言处理；后端的人工智能技术就是人工智能的核心算法，包括深度学习算法、记忆预测模型算法等。这些前后端的人工智能技术在应用又可分为四类：语音识别、图像识别、自然语言处理和用户画像。那么在这四类具体应用的实现上AI技术给我们生活带来哪些便利，同时存在哪些局限？下面一一来解构：一、语音识别语音识别语音识别有两个技术方向，一个是语音的识别，另一个是语音的合成。语音识别是指我们自然发出的声音需要机器转换成语言符号，通过识别和理解过程把语音信号转变为响应的文本或命令，然后再与我们交互。语音识别技术可以应用在电话销售上，例如：公司新人特别多，没有经验，拿到单子的可能性很低。怎么才能让新人也能有很优秀的销售能力呢？过去的做法是，把经验总结成册子，让新人去背，很容易就忘了。但如果有了高精度的语音识别能力，就能识别出客户在问什么，然后在屏幕上告诉新人，该怎么回答这个问题。语音识别的第二个方向是语音的合成，是指机器把文字转换成语音，并且能够根据个人需求定制语音，然后念出来。以前的声音是那种匀速的、没有语调起伏的机器声音，现在能用比较自然的人声。语音合成能模拟任何一个你喜欢的人的说话方式，可以做到每个人听的东西都不一样。我们驾车经常使用的百度导航里李彦宏的声音就是语音合成的结果。尽管深度学习被引入语音识别后，识别率迅速提升到95%，但要将ASR（自动语音识别）从仅在大部分时间适用于一部分人发展到在任何时候适用于任何人，仍然是不现实的。一个无法突破的问题就是语义错误。例如：生活在南京的人都知道有个地方叫卡子门（kazimen），但是百度导航在理解卡子门的时候，会分词为：“卡子-门”，结果卡子门（kazimen）就被读成了卡子门（qiazimen）。二、图像识别计算机视觉图像识别就是我们常说的计算机视觉（CV）。常用在：印刷文字识别、人脸识别、五官定位、人脸对比与验证、人脸检索、图片标签、身份证光学字符识别（OCR）、名片OCR识别等领域。人类认识了解世界的信息中大部分来自视觉，同样，计算机视觉也成了机器认知世界的基础，其终极目的就是让计算机能像人一样“看懂世界”。目前计算机视觉在人脸识别、图像识别、增强现实等方面有很好的应用，但也存在一定的挑战。我们就拿谷歌的无人驾驶来说，通过机器视觉识别的技术路径在现阶段，仍有完全无法逾越的技术难题。不谈算法，图像的摄取精度就是难关，即使最顶级的摄像设备都无法达到人眼的细节获取能力，看看最顶级的哈苏相机配合最顶级镜头，在夜晚街头短曝光时间下拍的照片，对比人眼看到的图像就能看到差异，这还不谈经济上可行的低成本摄像设备，视觉识别自动驾驶这个系统，眼睛就是近视眼。而且如果下雨，灰尘等对分辨的影响都是很难解决的bug。如果配合雷达的话又有逻辑判断优先的问题，信摄像头，还是信雷达？会不会误报？而作为激光雷达，如果单纯的车身自己也有同样的逻辑判断的问题，什么样的东西是有威胁的，什么是无威胁的。什么是潜在的威胁，这都不是计算机视觉这种单一智能所能解决的。因为预测未来的感知能力，是人与机器最大的区别。三、自然语言处理（NLP）贤二机器僧自然语言是人类智慧的结晶。自然语言处理（NLP）是人工智能中最为困难的问题之一。由于理解自然语言，需要关于外在世界的广泛知识以及运用操作这些知识的能力，自然语言认知，同时也被视为一个人工智能完备（AI-

转载请注明：http://www.aierlanlan.com/cyrz/7892.html

上一篇文章：全球视角前端工程中的国际化实践

下一篇文章：没有了