语音识别技术简介
2019/11/17 16:52:33 查看:980
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别的工作模式
音识别一般来说具有两种工作模式:识别模式和命令模式。语音识别程序的实现也会根据两种模式的不同而采用不同类型的程序。识别模式的工作原理是:引擎系统在后台直接给出一个词库和识别模板库,任何系统都不需要再进一 步对识别语法进行改动,只需要根据识别引擎提供的主程序源代码进行改写就可以了。命令模式相对来说实现起来比较困难,词典必须要由程序员自己编写,然后再进行编程,后还要根据语音词典进行处理和更正。识别模式与命令模式大的不同就是,程序员要根据词典内容进行代码的核对与修改。
语音识别环境设置
一般语音识别程序的环境设置步骤包括CTI服务器硬件默认参数采集与设定,识别硬件采集卡初始化,引擎端口设置等几个部分。
1、CTI 服务器设置。
应用程序的所有工作都是根据CTI技术(Computer Telephone Integration)来工作的, 语音硬件平台默认设定 CTI 服务器。
2、语音采集系统的初始化。
语音识别的平台会通过判断是否已经输入语音来进行工作,那么获得语音就需要语音采集系统了。为了采集和输出,我们一般采用语音卡作为工具。工作时,打开语音卡内自带的板卡,然后在程序中加入参数就可以运行了。
3、引擎端口设置。语音开发平台已对硬件API接口函数进行提供, 因此只需对函数进行调用和赋值即可。
语音字典的编译
语音字典的设置包括语法、识别语音的规则、语音模板制作等内容,根据语音平台的规则来进行。在语音字典设置时,首先要设置语音识别核心包,再根据自己编译的语音的规则来完成字典的全部设置。
编制识别主程序
在编译语音识别程序的后阶段,程序员需要为主程序编写GUI(Graphical User Interface) 界面,以便于用户与计算机进行交互操作。