您的位置: 首页 >> 芯片

3G手机语音识别应用中DSP的选择策略

2019.12.03 来源: 浏览:0次

3G 语音识别应用中DSP的选择策略

随着DSP技术的进步,计算能力更强、功耗更低和体积更小的DSP已经出现,使3G上植入更精确更复杂的自动语音辨认(ASR)功能成为可能目前,基本ASR运用可以分成3大类:1. 语音-文本转换(语音输入);2. 讲者识别;3. 语音命令控制(语音控制)

这三类功能包括了3G所需的众多ASR性能语音-文本转换的典型实例是语音拨号和电子邮件听写讲者辨认功能可以通过语音辨认安全地读出存储器中的个人数据,从而满足信用卡定购和银行服务等保密性高的应用需要语音命令控制功能包括连接语音扩展标记语言(VXML)站内容的语音接口,它支持财经服务与目录助理等业务目前VXML被用于規范站內容的語音標簽

语音辨认的两种方法

3G的ASR运用设计可分为两类,即以终端为中心和以客户/服务器为中心的运用如图1所示为以终端为中心的设计方法,3G(终端)执行整个语音辨认过程并送出识别结果在图2所示的客户/服务器方法中,终端只是履行预处理特点提取,然后通过一个误码受保护的数据信道将这些参数发送给中心服务器,中心服务器终究完成语音辨认如果采用以客户/服务器为中心的设计方法,3G应使用数据信道而非移动信道来将语音发送给服务器进行辨认,因为移动信道所用的低速率语音编码会严重影响语音辨认的性能

各种ASR系统的差异主要体现在词汇量上一个简单的络设备可能只需要16字的词库就能实现所要求的语音辨认功能,而3G移动则需要更大的专业词库这些辞汇可以跟讲者相干(训练语音辨认装备使之熟习用户的声音特征)或跟讲者无关(语音辨认装备可以辨认任何人的声音),DSP的计算负荷就随着词汇量和训练数据的增加而增大

例如,根据隐性马尔可夫模型(HMM)可以分析一个典型的跟讲者无关的100条命令辨认的应用实例假定HMM模型从左到右没有跳跃地顺序摆放,共有6个状态、5个具有对角协方差的混合高斯散布,包含39个特点(13唛-频率对数系数或MFCC,及其一阶和二阶差分),具有16位精度,那么,HMM声学模型的大小就是100×5×5×(39+2)×2=240kB

为了实现输入语音样本差分、窗口截获、MFCC抽取、概率计算和维特比搜索等运算的实时性,典型情况下需要消耗DSP的1千万个乘法-累加周期(MMAC)对于连续语音辨认来讲,上千个三音素模型和多种语法模型需要更多的存储空间,也需要更快的DSP处理速度

因此,移动中ASR系统的成败很大程度上取决于DSP的功能和设计第三代系统本身就需要比第二代系统更强性能的DSP,而增加ASR功能就对DSP提出了更高的要求从结构角度看,对DSP性能的要求是处理速度快、功耗低和代码密度高

采取高速DSP是关键

由于系统要实时对语音进行处理和取样,因此语音识别系统需要具有巨大的计算能力下面的数字和计算假设采取的是围绕终端的设计方法如果将DSP计算资源的20%分配给一个10MMAC的语音辨认系统使用,那么就需要一个具有50MMAC的DSP才能满足这一功能需要,并可提供足够的空间执行3G所需的其它DSP任务,如处理软猫如果采取较慢的DSP,如25MMAC的DSP,那末词汇表中的命令数量就要减半,或减少HMM参数,这样会下降全部系统性能

DSP的速度决定了语音辨认系统的复杂性和性能举例来说,如果一个基本的跟讲者无关的连续语音识别系统需要100MMAC,DSP计算资源的50%用于满足3G的其它DSP任务的需求,那么DSP的处理速度就需要到达200MMAC [page]

本钱、性能和效率的折衷

DSP的速度越快,就越便于利用现代的HMM技术,如信道匹配和声域匹配技术,因此,理论上讲,DSP速度越快,ASR系统的性能就越好然而,并行处理方法在提高ASR系统吞吐量中也扮演着重要角色例如,一个具有4 ALU(算术逻辑单元)的200MHz DSP比只有1 ALU但运行于400MHz的DSP具有更高的吞吐量根据具体应用的不同,2到3个单ALU DSP提供的性能与一个具有4 ALU的DSP相仿相对一个具有4 ALU的DSP处理器方案来讲,多个单ALU的DSP会提高的本钱,因此对于适销对路产品要充分权衡本钱与性能之间的折衷

总之,当比较一个600MHz的单ALU DSP和一个300MHz但有4 ALU的DSP时,设计工程师始终应把握的最终目标是高效的运算吞吐量,具有多个ALU的DSP也许是最好的解决方案

性能与功耗

顶级性能的DSP采取并行结构来取得最好的性能空间有个著名的平衡型并行结构StarCore SC140就采取了指令级并行结构,它具有4个并行ALU和一个称为变长执行集(VLES)的改进型甚长指令字模型VLES的优点在于它支持在内存中完成高效的指令调度、履行和打包它能通过一个指令队列对前端提供反馈,并通过调度器控制后端,因此除非需要执行计算,VLES处理一般不消耗功率

在并行VLES结构中,一些特殊指令需要成组以避免空操作(Nop),由于减少了时钟周期,处理时间也相应减少了比较而言,在甚长指令字计算中,所有执行步骤都必须按顺序排列,因此在一个8字节的执行集甚至是1字节数据时,系统就需要7个占位符(placeholder)或Nop

由于VLES结构不需要Nop,VLES设计中的复杂性从硬件或编程器转移到了编译器由于每一个周期都充满了数据,因此每一个周期就具有更高的效力,从而也提高了电源与内存的使用效力

电源管理

由于ASR系统需要连续处理语音数据,会使DSP成为消耗电能的主要部件,因此高效利用电源对装备成功走向市场至关重要

在高性能DSP中,选择16位指令集而非32位指令集能提高代码密度,进一步减少对内存、功耗和体积的需求,一部分缘由是由于更短的16位指令集可以减少寄存器和数据线数量例如在ASR应用中,存储的词汇量可能达到2.5MB(对1024簇的3音素状态,5个合成和39个参数来说,声学HMM状态模型是400KB;1本有1万个三态3音素代码本是60KB;3音素状态转移概率矩阵是500KB;一个具有40个杂乱态2万字的双字母组是1.6MB)如果DSP具有高的代码密度,能为ASR系统提供固定数量的存储器,那么就可以获得更好更大的声学和语言模型

片上和片外存储器

对ASR系统中使用的DSP来说,有效地利用片上和片外存储器是另外一个重要的课题由于ASR系统需要大量的存储空间用于词汇与模式识别数据的存储,一个灵活的存储结构在这里将显得特别重要例如,一个具备统一寻址存储器的DSP能使设计工程师很好地平衡程序和数据,还能平衡系统算法的复杂性与声学和语言模型的大小以获得最优化的性能

例如,如果具有100条命令的识别系统模型只有100kB的片上系统内存,总共内存空间需求是240kB,那末采取二次辨认方法能更有效地利用片上快速存储器

第一次(原始辨认阶段)只使用39个参数中的13个MFCC,因此模型大小为80kB,可以载入片上内存原始识别阶段的候选命令数量要比原来的100个少,比方说是33个命令,但可信度高达99.9%

第二次(精确辨认阶段)把33个候选命令的39个参数作为模型使用,大小是80kB,因此又可以把该模型装载入片上内存这类二次识别方法会引入一些延时,但延时非常小,大约只有10ms,说话人一般不会觉察到

统一寻址存储器能够支持较大的词汇库或命令集,还能支持较大的HMM模型或神经络系数,因此能简单化实时任务例如为ASR系统的程序和数据准备100kB的存储器,设计工程师就能平衡好算法复杂性与词汇量或命令集大小之间的关系如果程序要占50kB,那末数据只能是50kB如果允许下降识别精度而将程序代码压缩到20kB,那么命令集就能用到80kB,也就是增加了词汇库容量

在ASR系统中,高度并行化、高代码密度和有效利用存储器等优点还能使DSP完成语音辨认之外的任务在大多数情况下,设计工程师可以将部分计算资源分配给语音识别之用,而将剩余资源用来履行信道处理系统中所需的其它任务[page]

除DSP内核以外的其他要求

在选中最优化的DSP后,要想取得高性能的ASR用系统级芯片还需要增加一些功能,例如快速缓存或快速指令/数据存取以及实时操作系统(RTOS)才能使ASR系统真正完成实时性能多任务RTOS能使系统同时运行多个应用如双通道语音识别,因此能极大地提高系统性能

复杂SoC运用(如信道处理系统)设计工程师能从使用高效的高级语言编译器的DSP和SoC中获益,由于这些编译器允许设计工程师使用C或C++语言进行编程采取增强的片上仿真和调试功能还可以进一步缩短设计时间对于3G移动应用中各层次的元器件与系统设计来讲,除了实时性能和简化设计流程外,功率管理控制一样非常重要在设计SoC时,选择具有可调功率功能的内核将获益非浅例如当移动用户在说话时,DSP需要全速运行(如300MHz)当未使用ASR功能时,SoC电源管理电路可以逐步降低到较低的时钟速度(如100MHz),从而有效地下降漏电和功耗

由于ASR系统对计算速度的需求会根据辨认特点的差异产生很大变化

,例如孤字辨认或连续语音辨认、词汇量和跟讲者无关的语音辨认等,因此,能支持ASR功能的信道处理系统的复杂性变化也很大

SoC非常适合于构造芯片的基础架构,因此在以客户/服务器系统为中心的设计中是非常理想的选择,但SoC器件由于功能太强大,因此并不非常适合于用户端以终端为中心的设计然而,随着ASR系统的逐步成熟以及3G支持越来越复杂的应用和复杂ASR,这类功能强大的SoC也能成功地应用到用户端

在SoC上使用多个DSP能使系统在完成语音识别的同时更容易地履行其它任务例如三个内核中的一个可以专门指定用来完成多信道的服务器端ASR,而其它2个内核用于执行像语音信道和互联数据处理这样的任务将来如果键盘不复存在的话,ASR将成为用户与之间的唯一接口,到时这一功能将占用大部分的工作时间

采取多个DSP内核还能提供强大的计算能力,从而使执行非常复杂的ASR任务成为可能,如电子邮件听写中的连续语音辨认、安全交易和VXML中的“口令+讲者验证”等多个DSP再加上统一的大型片上存储器可以极大地缩短跟讲者无关的训练进程,由于在统计型ASR中训练过程的计算负载比识别处理进程的负载重得多

本文小结

尽管3G要想赢得市场,人们对其功能和设计仍将拭目以待,但这些系统需要高性能的信号处理平台以满足多媒体任务需求是无可置疑的,而随着ASR系统的不断普及,3G肯定需要具有运行多任务能力的多DSP SoC作为解决方案

儿童口臭是什么原因

有赞微商城登入

薏芽健脾凝胶亚宝药业

张家口治疗盆腔炎费用

资阳牛皮癣

宜春治疗遗精费用

山东有没有治疗癫痫病的医院
南阳睾丸炎治疗费用
乌鲁木齐哪家医院能治癫痫病
Tags:
友情链接