基于单片机的智能语音识别系统设计毕业设计论文.doc

基于单片机的智能语音识别系统设计 (硬件部分) 系 别 专 业 班 姓 名 学 号 指导教师 基于单片机的智能语音识别系统设计硬件部分 The Design of Intelligent Speech Recognition System Based on Single-chip Computer HardWare 摘 要 本文设计一个让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术的语音识别系统。本语音识别系统以LD3320语音识别芯片为核心部件,主控MCU选用STC10L08XE。主控MCU通过控制LD3320内部寄存器以及SPI flash实现语音识别和对话。通过麦克风将声音信息输入LD3320进行频谱分析,分析后将提取到的语音特征和关键词语列表中的关键词语进行对比匹配,找出得分最高的关键词语作为识别结果输出给MCU,MCU针对不同的语音输入情况通过继电器对语音命令所对应的电器实现控制。同时也可以通过对寄存器中语音片段的调用,实现人机对话。

设计中,电源模块采用3.3V供电,主要控制及识别部分采用LM1117-3.3稳压芯片,语音播放及继电器部分采用7812为其提供稳定的电流电压。寄存器采用一片华邦SPI flash芯片W25Q40AVSNIG,大小为512Kbyte。系统声音接收模块采用的传感器为一小型麦克风驻极体话筒,在它接收到声音信号后会产生微弱的电压信号并送给MCU。另外系统还采用单片机产生不同的频率信号驱动蜂鸣器来完成声音提示,此方案能完成声音提示功能,给人以提示的可懂性不高,但在一定程度上能满足要求,而且易于实现,成本也不高。

关键词语音识别 LD3320 STC10L08XE单片机 频谱分析 Abstract This paper designs a hi-tech speech recognition system which enables machines to transfer speech signals into corresponding texts or orders by recognizing and comprehending. The centerpiece of the speech recognition system is LD3320 voice recognition chip,its master MCU is STC10L08XE. Master MCU achieve voice conversation by controlling the internal registers and SPI flash LD3320.The sound ination is ted into LD3320 by microphone to do spectrum analysis. After analyzing the voice characteristics extracted are compared and matched with the key words in the list of key words.Then the highest scores of key words found would be output to MCU as recognition results. MCU can control the corresponding electrical real of speech recognition for different voice through the relays and can also achieve voice conversation through a call to voice clips in register. In the design, power module uses 3.3V.The main control and identification part adopt LM1117-3.3 voltage regulator chip,and 7812 is used to provide stable current and voltage for the part of voice broadcast and relay.Register uses chip SPI flash W25Q40AVSNIG which is 512Kbyte. The sensor used in the speech reception module of the design is microphone,namely electrit microphone.After receiveing the sound signal,it can produce a weak voltage signal which will be sent to MCU. In addition,the system also adopts a different frequency signals generated by microcontroller to drive the buzzer to complete the voice prompt, and this program can complete the voice prompt.The program gives a relatively poor intelligibility Tips. However, to some extent,it can meet the requirements and is easy to implement and the cost is not high. Key wordsSpeech Recognition LD3320 STC10L08XE Single-chip computer Spectrum Analysis 目 录 摘要I AbstractII 绪论1 1 设计方案5 1.1 系统设计要求5 1.2 总体方案设计5 2 系统硬件电路设计6 2.1 电源模块6 2.2 寄存器模块6 2.3 控制单元模块7 2.3.1 STC10L08XE单片机简介8 2.3.2 STC11/10 xx系列单片机的内部结构10 2.4 声音接收器模块10 2.5 声光指示模块11 2.6 语音识别模块11 2.6.1 LD3320芯片简介11 2.6.2 功能介绍12 2.6.3 应用场景13 2.6.4 芯片模式选择15 2.6.5 吸收错误识别16 2.6.6 口令触发模式17 2.6.7 关键词的ID及其设置.............................................18 2.6.8 反应时间....................................................... 18 3 系统软件设计20 3.1 系统程序流程图20 3.2 系统各模块程序设计20 3.2.1 主程序20 3.2.2 芯片复位程序27 3.2.3 语音识别程序28 3.2.4 声音播放程序37 4 系统调试44 4.1 软件调试44 4.1.1 上电调试44 4.1.2 读写寄存器调试44 4.1.3 检查寄存器初始值44 4.2 硬件电路调试45 4.2.1 硬件检查45 4.2.2 硬件功能检查45 4.3 综合调试46 结论47 致谢48 参考文献49 附录1实物图片50 附录2系统电路图51 54 绪 论 课题背景及意义 让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。语音识别是一门交叉学科,关系到多学科的研究领域,不同领域上的研究成果都对语音识别的发展作了贡献。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分 (1) 语音特征提取目的是从语音波形中提取随时间变化的语音特征序列。

(2) 声学模型与模式匹配(识别算法)声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生,目的是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型(模式)进行匹配与比较,计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大影 (3) 语义理解计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。

语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程。对机器来说,识别系统也要利用这些方面的知识,只是鉴于语音信号的多变性、动态性、瞬时性,语音识别技术与人类的大脑还有一定的差距。因此在语言识别技术选择,其应用模式和系统开发上,都需要专业的设计和调试,以实现最好的应用效果[1]。

1996年9月,Charles Schwab开通了首个大规模商用语音识别应用系统股票报价系统。该系统有效地提高了服务质量和客户满意度,并减少了呼叫中心的费用。不久,Schwab又开通了语音股票交易系统。

美国主要电信运营商Sprint的PCS部门以卓越和有创新的客户服务著称。自2000年来为客户开通了语音驱动系统,提供客户服务、语音拨号、查号和更改地址等业务。2001年9月开通的可以自然方式对话的咨询系统,更实现了以自然、开放的询问方式实时获得所需要的信息。

Bell Canada,加拿大最大的电信运营商,也拥有多个语音驱动系统,提供从客户服务,增值业务和资讯服务多种功能。这些系统不但减少了用户的投诉,也为无线网络服务增值,增强了客户的忠诚度并开辟了新的收入来源。

仔细分析这些案例不难发现,一个成功的语音应用首先是基于详细准确的用户需求调查。只有详细了解客户需求,才能根据需要选用不同类型的产品。目前市场上的语音识别产品基本可分为 特定人/非特定人是按照声学模型建立的方式来划分。特定人识别的声学模型是针对某一特定用户训练的。一般来说用户需要先训练系统,然后才能识别该用户的发音。而非特定人识别的声学模型是针对某一种特定的语言来训练的,发音人不需要训练既可使用。虽然在建立模型时需要大量的语料,对用户来说却提供了更大方便,他们甚至不需要了解该过程。

嵌入式/服务器模式嵌入式是将语言识别软件及模型,写在设备如手机的存储器里,识别过程在终端完成。在服务器模式,终端只负责收集和传导语音信号,由服务器负责完成识别。因此,对于大规模,多用户和有大量识别需求的系统,服务器模式提供了有效的方式。

目前运营商和企业用户的需求多数适合采用非特定人服务器模式的服务。例如上面提到的Charles Schwab,SprintPCS和Bell Canad