基于DSP的小语音库识别

VIP免费
3.0 牛悦 2024-11-19 4 4 1.3MB 68 页 15积分
侵权投诉
摘 要
语音识别技术一直以来都受到各界的广泛关注。随着语音识别技术的研究进
展,其对计算机发展和社会生活的重要性也日益凸显出来。因此研究语音识别技
术并开发相应的产品有着广泛的社会和经济意义。虽然经典的隐马尔可夫模型在
语音识别领域中得到了一些应用,但效果不甚理想。它在某一状态上产生的观
值的概率随着观测时间的增加按指数逐渐减小,这与语音信号的物理基本事实不
符合。因为 HMM 算法应用在语音信号的处理中,每个状态通常与相应的语音的
一定单位对应,这些语音单位的分布又相对的稳定,实际分布是观测时间较小或
较大时出现概率较小,处于某些中间值时出现概率较大。本文考虑将状态的持续
时间作为一个新的参数,加入到系统中表达 HMM 系统,从而使它更确切地表示
语音信号,提高识别率。
本文主体结构大致分为六个部分。第一部分主要介绍了语音识别的背景知识
和发展历程,提出了研究的问题与困难;第二部分主要介绍了语音信号处理与识
别的基本知识,详细描述了主要的两种识别模型;第三部分在传统 HMM 模型的基
础上提出了一种改进模型 SDHMM,并对模型进行了仿真研究;第四部分主要介绍了
系统的硬件组成和相应部件的功能;第五部分为系统开发环境的介绍和软件识别
流程的设计与实现,最后一本分为结论以及展望。
关键字: 语音识别 隐马尔科夫模型 状态持续时间隐马尔科夫 DSP
ABSTRACT
Speech recognition technology has been concerned in many different areas. As the
development of speech recognition technology research, its importance to our social
life and the computer cscience are also increasingly prominent. Therefore, the research
of speech recognition technology and the corresponding products has broader social
and economic significance.Although the the classic hidden Markov model has some
applications in the field of speech recognition,but the effect is less than ideal. The
probability of the observed value that generate from a cretain state exponentially
decreases as the increasement of the observation time,which does not meet with the
basic physical fact of the voice signal.Because in the processing of the voice
signal,each state usually corresponds to a cretain unit of the voice,these units has the
relatively stable distribution.The fact is that the probability is low when the
observation time is small or big and is high when the observation time is modest.In
this paper, we consider getting the state duration involved in the expression of a HMM
systerm as a new parameter so that it can express the systerm more accurately and
improve the regonition rate.
This paper can be divided into six main parts. The first part introduces the
background knowledge of speech recognition and development process, brings up the
problems and difficulties that raised by the research; second part focuses on the basic
knowledge of speech signal processing and recognition and a detailed description of
the two major recognition models; third part brings up a new improved model
SDHMM based on the study of traditional HMM model and complete the simulation
on Matlab; fourth part describes the system hardware components and the function of
the corresponding parts; the fifth part contains the introduction of the system software
environment and process design then implementation of speech recognition, finally a
conclusion and the outlook.
Key Word: Speech Recognition, Hidden Markov Mode, State Duration
Hidden Markov Model, DSP
目 录
中文摘要
ABSTRACT
第一章 绪 论...................................................................................................................1
§1.1 语音识别技术的背景和研究意义...................................................................1
§1.2 语音识别技术的发展和现状...........................................................................2
§1.3 孤立词的小语音库识别...................................................................................3
§1.3.1 语音识别的种类.....................................................................................3
§1.3.2 孤立词语音识别.....................................................................................4
§1.3.3 汉语数码语音识别面临的困难与问题.................................................5
§1.4 课题来源和内容安排.......................................................................................6
§1.4.1 课题来源.................................................................................................6
§1.4.2 研究内容安排.........................................................................................7
第二章 语音识别及信号处理基础理论.........................................................................8
§2.1 语音信号的产生及属性...................................................................................8
§2.2 语音信号的处理...............................................................................................9
§2.2.1 短时时域处理.........................................................................................9
§2.2.2 短时频谱分析技术...............................................................................12
§2.2.3 线性预测技术.......................................................................................12
§2.3 语音识别的主要算法......................................................................................13
§2.3.1 动态时间归正(DTW)的识别技术.......................................................13
§2.3.2 隐马尔可夫模型(HMM.................................................................15
第三章 基于状态持续时间的隐马尔科夫模型...........................................................20
§3.1 基于状态持续时间的隐马尔可夫模型.........................................................20
§3.2 SDHMM 模型的仿真实现 ............................................................................. 24
第四章 语音识别系统的硬件设计...............................................................................27
§4.1 DSP 的特点及优势 ......................................................................................... 27
§4.2 系统的硬件框图及部件介绍.........................................................................27
§4.2.1 硬件结构框图.......................................................................................27
§4.2.2 TMS320VC5509 介绍 ...........................................................................28
§4.2.3 VC5509 的片上外设............................................................................. 29
§4.3 语音处理模块和 DSP 接口设计 .................................................................... 30
§4.3.1 TLV320AIC23B .....................................................................................30
§4.3.2 TLV320AIC23B 与微处理器的接口....................................................31
§4.4 DSP 与外扩存储器的接口设计 ..................................................................... 33
§4.5 系统其他模块的设计.....................................................................................35
第五章 语音识别系统的软件设计...............................................................................37
§5.1 软件设计流程.................................................................................................37
§5.2 语音信号的预处理.........................................................................................37
§5.3 语音信号的特征提取.....................................................................................41
§5.4 模板训练与匹配.............................................................................................42
§5.5 系统的软件编写.............................................................................................43
第六章 总结...................................................................................................................44
附 录.............................................................................................................................45
参考文献.........................................................................................................................63
在读期间公开发表的论文.............................................................................................65
致 谢...............................................................................................................................66
第一章 绪论
1
第一章 绪 论
§1.1 语音识别技术的背景和研究意义
所谓的语音识别技术其实就是让机器通过理解和识别的过程把人类的语音信
号转变成为相应的命令或文本的技术,通俗的说也就是要让机器“听懂”人类说
的话,这是一门涉及面非常广的交叉学科,属于智能计算机接口以及多维的模式
识别的范畴。与数字通信、语言学、数理统计学、计算机、人工智能、信号处理
等学科都有着密切的关系。
随着信息时代的到来,计算机已成为人类日常生活不可缺少的工具。在计算
机的工作中,一般以键盘作为人机交互介面。为了使计算机和人类更加的友好,
科学家不断开发出许多操作简单的界面,其中当属口述语言为最方便最自然的界
面。这是自计算机诞生以来人类梦寐以求的想法。伴随着计算机软硬件技术的快
速发展,人们想要摆脱键盘的束缚,采用语音输入这样方便使用并且自然、人性
化的输入方式的想法愈发迫切。正是这种遐想一直激发着人类的创新欲望,也正
是社会的需求在推动着语音识别技术的发展。
语音识别技术作为计算机智能研究的主导方向和人机语音通信的关键技术,
一直受到科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机
发展和社会生活的重要性日益凸显出来,以语音识别技术开发出来的产品,应用
领域非常广泛[1]语音打字机:用口述来代替键盘计算机输入符号和文字。数据库
检索:政府、科研,军事等部门以及银行、交易所和各种金融、旅游、交通、工
业部门都需要对庞大的数据进行繁杂的检索和查询,其中大多都是通过电话来进
行的。语音识别可以免除操作人员的重复劳动,让用户通过语音直接向数据库查
询与检索,既经济又方便。特定环境需要的语音命令:在特定环境下人类不能亲
自操作时,需要用语音来发出指令操作。例如快速行驶的汽车中驾驶员用语音拨
打电话或者操作驾驶,座舱内飞行员用语音发出一些命令来控制等,都需要语音
识别系统。这样一来就可以同时使用耳、口、眼,手脚来输入或传递信息以便同
时参与其他工作,显然语音识别也会给残疾人带来很大的帮助。语音识别现已应
用于家庭服务、旅行社服务、宾馆服务、医疗服务、银行服务、股票查询服务等
等,几乎深入到日常生活的每一个领域,其经济与应用效益前景非常好。尤其是
对于汉语语音识别而言,面对着十几亿人的大国,市场需求和经济效益都非常可
基于 DSP 的小语音库识
2
观。语音识别技术正在迅速成为一个最关键的、最富有竞争力的技术,必将改变
人们以后的日常生活。
§1.2 语音识别技术的发展和现状
语音识别的研究起源于 20 世纪 50 年代,AT&T Bell 实验室研究出了可识别十
个英文数字的 Audry 系统。1959 年,C.D.Forgie J.W.Rorgie 采用数字计算机识
别英文元音及孤立字,开始了用计算机来进行语音识别研究工作。60 年代计算机
技术逐渐发展,这时期提出了线性预测(LP)和动态规划(DP)技术,后者较成功的解
决了如何使语音信号生成模型这个问题。到70 年代,线性预测技术(LP)进一步
发展,动态时间规(DTW)基本成熟,有效的解决了时间不等长的语音信号的匹
配问题。尤其是隐马尔可夫(HMM)模型理论的提出,将孤立的字作为整体建立语
音模板,使用于特定人说话语音识别。
20 世纪 80 年代,语音识别的研究重点就是连续语音词的识别,一方面重点是
开发了多种连续词和关键词的识别算法,例如多级的动态规划的识别算法。另一
方面重要发展就是语音的识别从微观转向宏观,从基于模板匹配技术的算法转向
基于统计模型技术的算法,其中隐马尔可夫模型(HMM)是最典型的代表,它可以
很好的描述语音时变信号平稳性,使大词汇量连续语音识别系统的开发成为可能。
并且将隐马尔可夫模型和人工神经元网络(ANN)成功应用于实践开发中。进入 20
世纪 90 年代后,语音识别技术进一步的成熟并开始向市场提供产品,语音识别技
术从实验室走向实用。AT&T 的电信语音识别系统可以使用户和机器直接对话
IBM 开发的 Via Voice Microsoft 开发的一系列语音识别引擎系统标志着非特定
人大词汇量连续语音识别的实用化。由于中国的国际地位不断提高,汉语的语音
识别逐步受到重视,IBM,微软,L&H 等公司都相继投入到汉语语音识别系统的开
发与研究中。
我国的语音识别研究工作虽起步较发达国家相对较晚,但是近年来的发展却
十分的迅速,成果也十分突出
70 年代80 年代中期的移植引进阶段开始。我国应用国外先进的理论和
技术,在此基础上对汉语语音识别进行了研究,成功的进行了特定人孤立字为主
的汉语语音识别。80 年代以后一直到 90 年代的初期,在国家 863《智能计算机主
题》专家
组对汉语语音识别研究立项以后,汉语语音识别的研究逐渐拓展到非特定人
语音、中大字表、连续语音识别、说活人识别等领域,形成了自己在汉语语音识
摘要:

摘要语音识别技术一直以来都受到各界的广泛关注。随着语音识别技术的研究进展,其对计算机发展和社会生活的重要性也日益凸显出来。因此研究语音识别技术并开发相应的产品有着广泛的社会和经济意义。虽然经典的隐马尔可夫模型在语音识别领域中得到了一些应用,但效果不甚理想。它在某一状态上产生的观察值的概率随着观测时间的增加按指数逐渐减小,这与语音信号的物理基本事实不符合。因为HMM算法应用在语音信号的处理中,每个状态通常与相应的语音的一定单位对应,这些语音单位的分布又相对的稳定,实际分布是观测时间较小或较大时出现概率较小,处于某些中间值时出现概率较大。本文考虑将状态的持续时间作为一个新的参数,加入到系统中表达H...

展开>> 收起<<
基于DSP的小语音库识别.pdf

共68页,预览7页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:68 页 大小:1.3MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 68
客服
关注