一窥语音AIGC的联想技术方案

小微 科技一窥语音AIGC的联想技术方案已关闭评论145字数 2987阅读模式
摘要5月23日,由联想研究院牵头编写的《联想智能语音技术白皮书》重磅发布,公布了在复杂场景语音识别、声纹唤醒等方面的关键技术。同时,语音AIGC,即语音合成,已广泛应用于联想设备和智能...

5月23日,由联想钻研院牵头编写的《联想智能语音技术白皮书》重磅发布,公布了在繁杂场景语音辨认、声纹唤醒等方面的关键技术。同时,语音AIGC,即语音合成,已广泛利用于联想装备以及智能解决方案中。

白皮书指出,未来多模语音交互将到达“类人”水平。即综合应用语音、文本以及图象,让机器更好地舆解“我在哪里”、“谁在以及我说”、“我要以及谁说”以及“我该说什么”。同时,通过个性化语音技术,合成有情感的语音或特定人的声音,可让用户有与真人对话的亲切自然感,实现“千人千面”的产品特性。文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

1文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

研发布局文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

联想智能语音技术研发布局包含核心技术引擎层、平台层以及利用层,结合本身硬件以及装备优势,打造了从底层硬件到核心技术算法,再到上层产品以及利用,从技术到用户的全链覆盖型企业生态。文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

联想的语音技术研发涵盖了近场语音辨认、远场语音辨认等多个方向。另外,为了知足更多垂直利用,联想还在连续长语音辨认、电话语音辨认等方向延续投入。文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

目前,联想自研语音技术已全线赋能联想的智能装备,包含 PC 、平板、 手机以及 IOT 装备等。所打造的“联想乐语音”助手已预装在了联想中国区出货的所有品牌的手机以及平板。另外,联想语音技术融入了联想的行业智能化方案,正在助力诸多行业的智能化转型。文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

如今,大模型技术带来了新的一波AI浪潮。在语音辨认方向,除了基于大范围语音数据的“X-former”建模外,联想也正在多任务学习,自监督、半监督学习等方面开展探索。语音的AIGC,即语音合成,已广泛利用于联想装备以及赋能公司内外部客户的智能解决方案中。同时,联想也开展了文本语音驱动数字人表情口型方面的钻研,助力智能语音交互的多模态进级。文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

联想智能语音技术研发布局文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

2文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

语音关键技术文章源自微观生活(93wg.com)微观生活-https://93wg.com/2708.html

联想全栈语音核心技术涵盖声学前端、语音唤醒、语音辨认、语音合成、副语言语音属性辨认、说话人日志、发音评测等几大方向,累积了不少业界领先的技术成果。

联想智能语音核心技术模块组成

比如,在繁杂场景语音辨认技术方面,联想将语音增强、端点检测和基于深度神经网络的声学模型、语言模型等模块进行联合优化,晋升在繁杂场景下的语音辨认机能,在2019年Interspeech VOiCES国际远场语音辨认挑战赛固定系统任务中取得第二名;在“ISCSLP2022 国际智能座舱语音辨认挑战赛”中自研的繁杂场景车载语音辨认系统取得第三名。

为晋升繁杂场景下的辨认机能模型需要具备一定的繁杂度,但在人机交互利用中语音辨认常常要做到“流式”,即一边说话一边快速输出文字。联想自研的端到端语音辨认系统,通过采取Transformer、Conformer、Squeezeformer、Zipformer等先进的网络结构,实现了基于同享编码器以及附加编码器的双向解码策略,在保证辨认准确率的同时,在首字延时、尾字延时以及解码效力等指标上给用户提供最好的使用体验。

另外,声纹唤醒技术是实现个性化人机交互体验的关键技术之一,通常需要运行在装备端,但装备端的算力以及存储能力常常没法支撑繁杂的算法或模型,降低了唤醒准确率。为了实现PC关机以及待机状况下的声纹唤醒功能,联想首次提出了面向轻量级利用的非对称“注册-确认”声纹辨认技术,与联想的智能硬件LA2智能嵌入式节制器联合优化,实现了在机能、延时、功耗各方面均到达最好的用户体验。

非对称“注册-确认”技术,指的是说话人确认系统包括大、小尺度两个模型,在注册阶段使用准确率更高但计算资源损耗较大的大尺度模型运行在CPU上,在用户确认进程中,使用小尺度模型用于身份验证,而大、小两个模型在训练阶段通过联合优化的训练策略来保证特征的空间一致性。

基于这些自研核心技术,联想钻研院开发了智能语音服务平台。该平台接口简单、移植性好,以SaaS方式为用户提供个性化的语音辨认、语音合成、声纹辨认、语义理解等能力。不但支撑联想内部各种产品以及装备上的语音利用,也赋能不同垂直领域的智能化方案,如智能客服、智能会议、智慧教育等。

联想智能语音服务平台利用示例

3

智能语音产品以及解决方案

联想依靠装备以及行业解决方案上的优势,通过量技术组合打造自研的语音技术解决方案。联想智能语音产品以及解决方案主要聚焦在消费业务、服务业务、商用业务等几大领域,包含手机、平板、PC、IOT产品等装备上的智能语音利用;语音助手以及声纹唤醒AI芯片;联想电话语音客服系统;智能会议系统;智慧教育领域的英语口语据说平台等解决方案。

联想语音技术利用全景图

在消费业务方面,2021年9月联想发布了LA2智能嵌入式节制器,这是一款为PC打造的专用硬件,以运行智能算法、实现智能功能为目的。在这款节制器上通过软硬件联合优化,实现了个人电脑在关机以及待机状况下采取声纹进行辨认以及唤醒的功能,为全世界开创,唤醒率超过95%,功耗降低50%以上。

在服务业务方面,联想魔方智慧客服系统接入语音辨认、语音合成、声纹辨认、性别辨认、情绪辨认等基础引擎,具有智能机器人、在线客服、呼唤中心、工单系统、智能运营、智能质检六大功能板块,能够覆盖售前、售中、售后的全场景客户服务需求,知足繁杂的业务场景,为客户提供完全的行业智慧客服解决方案。

联想智能客服系统逻辑架构图

在商用业务方面,针对企业用户混合办公场景的利用需求,联想thinkplus打造了以会议平板为核心,技术、装备以及服务一体化的混合办公场景智能解决方案。与业界主流智能语音辨认产品相比,联想智能会议语音辨认系统拥有多个技术优势,例如支撑汉语普通话以及中英文混合两种场景,支撑依照用户需求定制专业术语库、TB级别的语言模型建模,高达97%的语音辨认准确率,和支撑扩大声纹辨认等。

联想thinkplus混合办公场景

在智慧教育方面,联想基于自研的英语口语发音评估技术,推出了英语口语据说平台,赋能联想智慧教育解决方案,助力K12教育英语口语考试以及训练。方案已落地北京第二十中学、山东邹城第六中学等学校,助力学生进行英语摹拟考试、教师实现AI教学。

联想英语据说教学模考训练系统

4

未来瞻望

2013年,联想发布了支撑引擎自由插拔的第一代自适应语音平台,支撑各类装备上的语音利用。2017年,联想推出了第二代语音平台,它能够基于联想自研核心技术输出语音辨认、语音合成等SaaS服务,实现了语音辨认全场景覆盖。除了了装备端,联想也为数个垂直领域提供语音能力以及服务,触及智能客服、智慧教育、智能车载利用等多个行业。

联想语音技术研发历程

语音作为最自然的交互方式,承载侧重要信息。跟着AI技术以及硬件基础设施的进步,语音技术的基础机能势必延续增强,加速其在更多领域的商业化利用。

其次,语音装备生态将走向开放互联。在智能家居、办公、车载等场景中,语音交互会基于多装备协同,语音指令能跨装备自由流转。

另外,离线语音技术将进一步晋升语音产品渗入率。斟酌到用户隐私、网络不乱性、响应速度等因素,装备端 、边沿侧的离线语音处理能力成为人机交互进程中不可或缺的部份。特别是智能家居、车载和其他高安全级别场景,会对装备端及边沿侧的离线语音处理能力提出更高请求。

瞻望未来,跟着AI芯片以及语音算法能力不断提高,语音交互势必覆盖全场景利用,助力联想以服务为导向的智能化转型与行业的发展。

以上就是微观生活(93wg.com)关于“一窥语音AIGC的联想技术方案”的详细内容,希望对大家有所帮助!

继续阅读
 
小微
  • 版权声明: 本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:81118366@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
  • 转载请务必保留本文链接:https://93wg.com/2708.html