关于语音识别你了解多少?

陌无崖 · · 6692 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

语音识别有哪些功能

语音输入系统

1、提取有效的声音信息
2、从有效信息识别身份
3、声音信号转换成电信号

语音控制系统

通过语音信息与实际内容进行匹配

智能对话系统

智能理解用户的需求

实现过程

转化语音信号

1、语音预处理(语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等)
2、声波------>电信号------>二进制
3、语音识别只能找到与说话者发音最为相似的字音。在判断相似性时 ,我们首先需要设定好标准读

比较两个向量之间的夹角大小 ,把特征分析提取的一组随时间而变的特征矢量序列和事先通过学习后存在机器里样本序列进行比较。我们将两个向量相乘再除以他们各自的模得到他们之间的夹角 ,夹角越小 ,向量之间也就越为相似 ,从而语音识别得以找到最接近每个人发音的字形。(模板匹配法、隐马尔夫法 (HMM) 和神经网络法 (ANN)

机器学习过程

1、训练
首先 ,我们人为的将不同的声波匹配成不同的特征向量 ,并将它们输入到语音识别内部的计算机内 ,这样语音识别就拥有了一个初步的词组库 ,随后以词组库为基础 ,建立一个能够分类这些词组的模型
2、学习
识别出的词组数据用来完善数据库

语音分析

分词断句(贝叶斯原理)

采样和量化

模拟信号———>采样———>量化———>数字信号
采样:离散的序列代表采样函数,将音频波形分成若干等分。
量化:量化采用数字化的方法来反映出声波电压值的大小。以bit为单位。在量化的过程中需要做好失真处理,一般我们使用提高采样频率和增加量化精度。

上下文表示

在识别过程中使帧与帧之间语音信号从模拟信号到数字信号转变是过渡平稳,且能够保持一种连续性。采用交叉识别重叠的方式进行分帧处理

端点检测

确定语音的开始和终止。(时域处理,频域分析)

本文参考文献
[1]詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计
算机(专业版)
[2]《语音识别》——维基百科,自由百科的全书
[3]杨行峻, 迟惠生,“语音数字信号处理”, 电子工业出版社. 1995
[4]崔天宇 吉林大学硕士学位论文《基于HMM的语音识别系统的研究与实现 》
[5]陆昱方,科技传播第二期期刊《简述语音识别的实现过程》

最近在学习语音识别相关知识,这篇文章作语音识别的入门介绍。
Golang技术杂文


有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:陌无崖

查看原文:关于语音识别你了解多少?

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

6692 次点击  
加入收藏 微博
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传