- 本课程为精品课,您可以登录eeworld继续观看:
- (三) 基于C55xx C674x 和 PCM1864 语音识别 前端语音处理解决方案(3)
- 登录
- 课程目录
- 相关资源
- 课程笔记
同时TI也在做一个限震的板子 现在还没有发布 正在
安排生产的事情
很快就会发到TI的官网上
作为前期评估的发布是自己开发的方案
(听不清)就不需要自己去单独做一个(听不清)
做评估
这个如果真要去做的话 可以先考虑等线阵
对 等线阵出来之后 先考虑线阵会好一点
如果就用这个防震的话 建议你
不要选5517
而是选C674X的板子
C6747 48 的那款 选那个板子
为什么呢
因为我的5517只有总共只有三个FS
总共就有三个FS
提供最多就只是6个麦克风
所以 我这里面防震的板子是
7+1的
(听不清) 所以说里面有几个孔没连进来
没连进来的问题 无非就少几个麦克风 是吧
(听不清)从8个里面选4个
问题是我的enforcement效果就没有了
因为enforcement一定要有 是对称的
这个7+1你是选不出四个对称的麦克风的
所以效果是很不好的
跑出来的效果是很不好的
所以防震这个板是
硬件是可以连的 但是从算法的角度 它是不匹配的
简化程序处理 因为像我们demo里面提到这种这个
KWS也就是关联置换器
关联置换器这块 我们用的是
(听不清)里的识别引擎
这是一个第三方公司 好像现在apple的后面
目前好像 听说是用了它的 反正就是像
(听不清)好像也是用的它的
就是很多家 用的都是这家的识别引擎
因为它十种语言 各种语言都支持
像TI自己做了一个 那个只是英文
好像我们本国去做的话就会做一个只支持中文的
这家公司提供的是多语言都支持
他的语言 看你的需要 (听不清)这也是一个需要考虑的问题
这个是语言
它一个特点是这个东西需要的数据能力很低
不需要很强的数量
(听不清)我感觉就10兆 的(听不清)
一点点数量就可以了
从TI的(听不清) 从哪里开始
如果去做语音识别的话
首先 算法 我说了
一个是前处理 后面是识别
前处理就包括了东西 (听不清)
这是一个波 回声消除
这些(听不清)东西 都对(听不清)没什么关系 对不对
但是基本的一些 voice speech的基本的算法
都是降噪的 都是基本的算法
这些算法 其实在TI一直有
(听不清)苹果数据像电子屏幕
(听不清)FP 这个都是可以用的
这是TI优化好的 (听不清) 是整个算法里面需要的
然后像和AEC里面的话 包括这些
帧页控制 (听不清) 动态范围压缩
(听不清)是后来加进去的 加到这里边去的
做这个东西把(听不清)加进去的 在(听不清)
然后VO内部有语音检测
像VIP TI的VIP的时候的一个库
TI以前在VIP上面 大家知道
以前打电话都需要华为的语音广播 就是TI的东西
(听不清)也是TI的
所以这些算法 TI来说 一直是有
只是说 其实是在12年的时候
TI就在做这些东西 只是说做早了一步
那时候 也有些其他的公司在做 比如说(听不清)
这个市场 那时候还没火起来
市场火起来就是因为那个亚马逊的Echo
这个应用 把它火起来
这个技术其实一直存在
因为我记得大概在2000年的时候 手机
三星的手机 就有语音拨号功能
就算手机有识别能力 对吧
就说语音识别这个东西 并不是一个新鲜的技术
它一直都有 只是这个应用
做成一个产品 这是一个 这两年一个由亚马逊的Echo引燃起来的的APP
点燃起来的 手机里 100(听不清)或者200(听不清)近距离
电话号码用到各种 智能家居上面的话
可能要把它跨远一点 远距离啊
这是语音识别的 是TI可以在网上可以下载的EI
ESR
它只是英文 (听不清)
TI的demo是集成的这个 因为它是
如果要用它的话 就直接取代连接器就好了
因为它 始终这个东西 只是从网络上看的话
它只是制作这个东西
没有识别引擎
另外一些通用的speech的部分 就是(听不清)这样的一些部分
TI在网上可以下载
另外像访问云的时候 需要的OPUS格式的话
也是TI的网上公开可以下载的
所以说 TI能够提供 基本上都能提供
只是说效果好不好 大家可能需要去 把它产品化的时候
可能还要去做一些工作
基本的算法 组件 TI都提供
另外这些东西 就是相应的访问软件包(听不清)
无线的CSL GPL TI的(听不清) 的软件包
而且我们这些功能是针对各种平台
我们都有相应的版本
比如C5000 C6000等等
我们都有PI的版本 可以免费下载
安装完一个目录的结构 这是SD的一个结构
这是AEC
这是我们的demo提供的里面的东西
软件的东西
K2G
专门为这个做的一个demo
demo可以用软件包的方式
你是对它说话 然后呢它把没处理过的和处理过的
存下来 可以在比较
处理前后声音的一个对比
噪声的情况
这是回声消除库 大家可以看到 回声消除库里面
包含很多东西
很多东西在这里面
每一个对我来说都是比较复杂的
因为我不是做算法的
因为你是做算法的就会看到这里的东西是一个
很好的一个起点
因为 EQ也好 还是动态范围压缩也好
只是(听不清)
你如果都要自己去写的话
当然 如果你是一个有积累的公司 在这方面有专长的话
那可能是一回事
如果不是有专长的话 那你可能仅仅是实现
可能效果或者性能的对比
都是一个很大的挑战
TI的这些东西 都是经过一些成熟的应用
验证过的 算法的效果 最起码是可以接受的
可以说是业界最好的
它是厂家已经接触过的 产品应用上的
这是我们的一个design tools
因为前面说了一个(听不清)麦克风的摆放
以及距离 它都有关系
参数会不一样
我们就是说(听不清)的一个工具
里面就是说 输入你的采样率啊
几个麦克风啊 麦克风的摆放位置是方形 圆形还是线性的
这些参数给它之后 它会生成
这就是对应这个图的一些设置项目
会生成
一大部分的performance的参数
这个 把参数放到(听不清)到文件里面重新编译
会变成这样的
(听不清)就可以了
同时 这个文件里面 是对应的
几个麦克风
一些参数
这个也在TI的文档里面 有一个pdf文件
里面告诉你了(听不清)的图片
该怎么用 以及哪些参数
怎么修改
硬件就是我们几种 目前来说 当然 不是说别的不行
你用M57那也可以 关键是说你的ARM来干什么
然后做产品 选一个 最接近应用需求的
一个最便宜的方案
这是一个最靠谱的选择
这个呢 大家可以看 它输出的时候
是一个左右震荡 当然是左还是右
就是一个是处理的 一个是没处理的
像上面这个噪声
像这个就会干净很多
这个是处理完的 这个没处理
这个是我们的前面提到的几款芯片的大致情况
像5517 我们目前来说是C5000里面性能最高的一款
(听不清)的CPS芯片
C5000的主要特点就是低功耗
另外我说不出它有什么优点
毕竟相对来说它的处理性能会不如C6000
C6768这是一个系列
外设分布很多 而且(听不清)支持16个MS
而且是EDR 它的处理也高一些
另外功能的外设 包括显示等等
(听不清) USB 做这些应用呢
做全处理 它是一个性能比较适中的
芯片选择
可以做6个麦克风以上
两到四个麦克风(听不清)也就差不多了
这是K2G K2G的特点是 它有一个A45的ARM
所以(听不清)的处理能力也高很多
处理能力很强
它需要一个强的ARM来做其他应用
特别适合选(听不清)K674X还是K67
这是简单的芯片的
细节没有必要去一个一个过
总结一下 就是我
TI
这个应用里面
这个语音识别 (听不清)低光敏的和降噪(听不清)选择DRC
回声消除
这一块 TI都有现成的软件库以及demo
硬件 没有了 如果是对这方面应用感兴趣的
可以在TI的平台上有一个好的开始
它是不需要自己去想 有一个好的开始
这就是我的topic的大致
这些内容
猜你喜欢
换一换
推荐帖子