当前位置: 首页 >> 机械厂家

语音识别是AI重要一环智能语音引发巨头混战

2021-08-18 来源:莆田机械信息网

语音识别是AI重要一环 智能语音引发巨头混战

近日,百度公司首席科学家吴恩达在谈到百度语音技术的最新进展时,对外介绍了百度这四项语音技术,并宣布将免费开放给用户和开发者。

语音识别是AI重要一环智能语音引发巨头混战

“我们已经站在人工智能的黎明。”吴恩达对媒体作出乐观的预测,他希望通过开放人工智能技术,让每个人都能更容易地开发出“智应用”。

不过,站在“黎明”的人工智能何时能有“质”的跨越,或许还需时日。一个细节是,在接受记者采访的会议室里,吴恩达座位不远处还是坐了一位实时整理文字的速记人员。

智能语音:已超正常人类的识别能力

事实上,开放语音API(应用程序编程接口)已经成为行业趋势。

今年3月时,谷歌在Next云计算大会上发布了面向开发者的新机器学习平台,并开放语音识别的API,即谷歌语音搜索和语音输入的支持技术。Google Cloud SPeechAPI一开始将免费提供,以后再进行收费。这一应用包括了80多种语言,适用于各种实时语音识别与翻译应用。

在开放背后,互联网公司希望借此推动智能语音模型的进一步演进和智能语音技术的快速普及。

对于百度公布的四项语音技术,吴恩达说,目前百度还没有收费的计划,这些技术旨在解决用户在使用语音交互的场合时,普遍感到困扰的一些关键问题。“目前的语音识别已经超过了正常人的语音识别能力。”

以情感合成为例,主要是基于深度学习和大数据处理技术,在数据采集、处理、建模等环节进行一系列创新,实现更富有表现力的自然朗读效果。

读者甘肃数码科技有限公司总经理金大时告诉记者,目前“读者数字农家书屋”在甘肃庆阳市试点,根据百度大数据合成情感语音实现书籍有声阅读,让很多不识字的老年人和留守儿童也享受到了阅读的乐趣。

而远场方案技术则是百度自主研发的远场识别技术,基于麦克风阵列,利用麦克风阵列束形成、语音增强、回声消除、声源定位等技术综合实现高准确率远场识别。

百度称,开发者可以通过这一新的技术接口,使语音识别距离增加到3~5米,设备的语音唤醒率提升到95%以上,或解决长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。

例如,百度在上海肯德基旗舰店投入使用的“小度机器人人机语音交互点餐”,可远距离随时应答点餐。

百度语音唤醒技术,主要是通过通用唤醒词解析、大数据声学模型、双层解码等技术优化,唤醒率达95%,支持用户自定义唤醒词。唤醒二期加入指令唤醒,优化唤醒和识别性能。

友情链接