(三) 基于C55xx C674x 和 PCM1864 语音识别 前端语音处理解决方案(1)

展开字幕 关闭字幕 时长:16分15秒
评论 收藏 上传者:admin
嗯 我这部分跟大家简单介绍一下 TI现在在这个语音识别上面做的一些工作 大家应该有所了解这个语音识别最近还是比较火啊 莫过于亚马逊的 Apple 以及我们这边的京东 以及另外的像智能的一些家电 比如说 电视 空调 可能将来会出现更多的这种语音控制的家用电器 嗯 这些就是TI 的处理器方面有很多 从低端到高端从便宜的到非常贵的各种的这个器件 我们 就我所在的 是在这个部分 啊 这个processor 像WCS以及MCU这些啊 是 在TI 都是属于不同的部门 所以这个器件对于你们来说呢如果你找TI 的支持 那就是找processors 找我或者是像刚才Danny这种同事 属于一个Processor Team的 MCU呢 是一个MCU Team的 WCS呢 是无线啊 是另外一个Team的 这都是在TI内部是有 互相要沟通的 嗯 像刚才嗯那个工业总线啊 Sitara啊 Sitara系列都有一些工作 我们另外的 大家可能都知道 TI 以前最著名的一个就是 DSP后来这个处理器的一块 ARM在发展TI也在ARM上面有很多的产品 提一句其实就是 TI在ARM上面是一直以来是 最大的ARM的客户 因为TI在以前是在手机上面 3G之前的手机 GSM那一代 那是TI的 基本上都是TI的平台 诺基亚 呀 那个摩托罗拉 都是TI的平台 那里面 也是ARM+DSP的芯片 OMAP系列 那里面就有ARM 可是那时候 TI 没有把它做单独的ARM芯片 像三星啊 什么的 做一个单独的ARM芯片这样来做一个产品 所以说 大家可能对TI在ARM上面的这个 工作 印象深不深刻 嗯 也没什么 记住TI是做DSP的 就好了 因为我是做DSP的 呵呵 现在呢 就是TI在软件上面因为 尤其在以前 嗯 在 或者说 八年吧 十年以前 TI其实光做DSP 那个 DSP上面的提供的软件呢不是那么丰富 因为那个时候 这个软件的生态系统 也 要求也没有那么多 然后 ARM之后呢 Linux等等一些操作系统的出现 所以 大家对软件的需求依赖性就越来越强了 希望可以重用 以前没这个概念 以前都是自己拿个芯片过来自己开发 所以说 现在TI这个要求 所以 TI呢 这个软件也越来越丰富了 嗯 中间经历了很多各种各样的SDK 软件开发包 现在呢 TI全部 所有的软件都集成到一个叫Processor SDK 不管是RTOS的或者是裸跑的 RTOS的 现在其实呢 嗯 RTOS就是 DSP BIOS 但是它里面相同的驱动呢 它其实没有做成 跟 TI的BIOS管理器 那个差不多系统要求的那个驱动 其实你可以把它单独拎起来用 另外 Linux的就不说了 嗯 有的熟悉 所以说 再一个好处呢就是 你用TI的平台不同的这个软件包 组件啊 结构啊 内容 都会比较熟悉 继承性比较强 这页就切到我要讲的这个 这个topic的主题 语音识别系统 嗯 这张图呢就是一个总体的一个流程 不管怎样的语音识别系统 首先是一个输入 也是 呃 比如说是 模拟麦克风的话就要加ADC 要是数字麦克风的话 就直接出来就是I2S信号再做PDM处理转成数字信号 接到一个处理器 通过I2S接口进来 嗯 因为你 因为 目前市面上已经进来就是两个麦克 目前市面上就是说 在收录的那些产品 尽管是两麦 两麦的话 就是 性能还不是那么好其实大家都不满意 但是呢 没有的选择的选择 所以说在两麦克的基础上呢 大家 提出了多麦克这么一个效果更好的这么一个产品 那就是多麦克来实现 多麦克实现呢前面借助一个算法叫Beamforming 做一个波束合成 然后呢 再做降噪 因为采进来的有各种各样的噪声 背景噪声也好 怎么样也好 要降噪 然后呢 如果是 不是做本地识别 是做端去识别呢 还要做一个编码 这个DPUS是做一个打包 可以根据的需求 云需要的格式打一个包 然后送给后面的网络部分 呃 访问网络的部分 访问网络部分看你的需求啊 你可以一个简单的呃 一个MCU也可以 那个复杂的ARM处理器也可以 基于你的那个部分还要做额外的功能 可以简单可以复杂 然后到端 让云端去识别 端识别之后 把识别结果就返回来 到本地 也是说 也就是说 感觉到控制 那可能就要控制起IO 或者应用软件 你看看我在做什么 嗯 还是说 你只是down下来听 比如说 像那个Smart Speaker 智能音箱 那个是说 你要听什么歌直接跟它说 我要听什么歌 然后端 识别之后端把那个歌直接送下来 让你本地再放 嗯 就这样 比如说控制 空调要开机关机 或调什么温度 或者是看电视 你要调到哪个台 还有识别之后 根据本地识别的结果来控制本地的一个动作 就是说 不管这是用哪个平台实现 总的流程 识别系统都是这种一样的 只是说 这一块识别呢 你有可能是弄到端去识别 或者说 你是在本地识别 那在你来说 啊 的能力 因为识别这一块呢相对是里面的DSP 嗯 两块里面的呢 重要的一块 一块就是前面我们的这个 前处理 然后 后面一块呢就是识别 识别可以在本地做 也可以在端去做 有的现在你 市面上在做的方案 有像科达讯飞之类的 都是弄到端去 在云端去识别 比如说 那个手机上的那个Strategy或者说别的 都是到端去识别不是在本地手机上识别的 如果在本地呢 那就是说会 相应的会 快一点啊 显得会快一些 呢它有它的一些好处就是说 慢一点呢 它是 它有可能准确度会高一些 运算能力强 它的神经网络之类的 它可以做得相对更强一些 就是实际能力会好一些嗯 准确度好一点 嗯 当然最终 都是算法实现 算法实现是个选择从来没有一个绝对的一定好的实现 还有一些数据限制就是说 你的产品的需求 简单来说 是在互联网之间 是吧 最起码你需要能够访问网络的东西 你是有线的话还是说无线无线还要加一个无线的 芯片 嗯 有这个成本的 那你的成本是怎么定义的 对于我们来说 就是TI来说呢 我是 我们是 卖处理器和DSP 这一块呢我们推荐就是说 我们的DSP 是适合于做这个东西的因为目前 为什么说呢 因为 嗯 当然 嗯 总的来说啊 只要是个处理器 有软件 那都能做 是吧也没有说一定 是用TI你能做 ATI不能做 那就没道理呀 呵呵 又不能说王婆卖瓜 是吧 只是说呢 我们DSP 确实适合于做这个东西 而且我们在上面也做了很多的工作 嗯 模拟这边就是 模拟声音进来了我们有这个 四合一的一个1864的ADC 比如说做8个麦克呢那就用两片就行了 四个麦克呢 用一片就行了 通常呢 对于这个识别呢大家关心的就是说 希望它准确 嗯 响应快 嗯 对它的这个性能的影响 通常是 什么 造成 通常是造成 呃 当然如果在安静的环境下 其实目前你是两麦克还是四麦克 可能关系其实并不大 并不大 因为它噪声不大背景噪声不大的话 它设备空间就是说五米还是说七米的距离 体现不出来 这个 安静的环境下 但是在噪声环境下 那就会很明显了 你比如说 两麦的也许就是说两三米 甚至于 就是 你站在桌子前那种一米的距离 就顶天了 在这种环境下但是呢 你通过四麦克或者是七麦克这种 那可以达到七米开外它还能够正常使用 识别 就是说 嗯 如果提高这个准确度 那首先 就是说 通过麦克风阵列因为通过麦克风阵列呢 它是波束合成的这个算法的话 一定指向性 然后定位到你说话人的方向 然后就屏蔽掉你的这个方向之外的噪声 它就以这个原理来提高它的 实音的这个 精度 或者说能量 然后 通过这个 这个空间滤波啊 然后 还有一个 呃 呃 降噪 降噪 还有回声消除 因为在那种尤其是智能音箱这种应用 声音是一直在放的 还有比如说电视机它也是一直在放的 你不可能说 我要先把声音调低或者调成静音 我再跟它说 这个用户体验不好 那不要说做了 没人愿意去你要很现实的 要有人愿意去用啊 加这个功能本来是要提高人家的便捷性 所以说 这些功能都要加进去 降噪可能要看效果放进去 回声消除的话 那肯定就是说你要给它一路参考的信号 或是依这种声音频率给它一个参考的信号 在麦克风采进来的时候 通过这个参考信号之后 采进来的这里面那一部分的声音是放出去的 是希望被采集到端或者后面识别器件去处理 所以说它 涉及到很多的算法在这里面 事实上这么一个 看上去简单的东西 它涉及到很多算法在里面因为它每一个算法很多来说呢 你 你从不同的角度 或是怎么样的角度呢 好像都不是那么容易 不是一个通用的 甚至说 或者 有些是一个研究的空白或是一个已经解决了的东西 但是要做成产品的话呢它要考虑到他的一个 嗯 稳定性或者说 可靠性 质量到底怎么样 比如说 在不同的房间 房间的大小 这个 嗯 墙面高度因为涉及它的反射的不同 这些噪声 它的滤除的 噪声的自适应器 要做得好 因为你在房间里比如说像这个房间 诶 这个房间可能还好 像这些 有些墙面比较光滑 比如玻璃房子那个它的反射率很强 那你在这个里面 所以 其实 还怕里面没有地方 范围很小 要把这些东西都反射回来 不然你从它的角度 它采得是很快的 我们听 人听无所谓 有点反射我后面跟你说的啥 它采进去的那个就是 这前后叠起来的声音 它可能会分辨不出来的所以要有风险要去掉 从算法 嗯 从这个识别系统 角度呢 第一个 比如说 嗯 那个智能音箱的话呢第一个 唤醒 要把它唤醒因为你不能让它一直在身边 尤其是那种可对话的那种音箱 那种可对话的 你跟它说什么它就从端 找到下一个资源 告诉你是什么样的天气它就告诉你天气怎么样等等之类的 嗯 所以说 一定要有一个唤醒词不然的话 你把它放在电视机前的话 那它就一直在说来说去 跟电视机 是吧 所以就像 Apple HomePod 京东 把它唤醒 然后是否支持你本地的命令 像那些智能家居的话那可能要加些本地的识别 本地的控制 不是说什么东西都要到端去 你比如说开机关机 超过什么温度 希望在本地设置就好了 可能会方便一点 因为到端里有可能延时然后说了一句 过后一两秒才响应 你会感觉怪怪的 虽然它也实现了 不过它感觉有点怪 另外一些东西 资讯的那些东西呢 那可能只能从端了 比如你要听首歌或者是查询什么信息的话 那从端可以 呵 预处理呵 其实这就是我这个topic呢 就是说要 重点介绍的 TI的在预处理里做的一些工作 对一个系统来说 基本上就是加起来 当然了你可以从这个把它分隔开 预处理加上后面的时延 或者是访问 因为这部分是 可以是一个小ARM也可以是一个大ARM来实现 然后 WiFi 啊什么之类的 前面这一部分呢 你就是说 用一个DSP 做一个预处理 把声音滤干净 送给后面的你去做实验
课程介绍 共计0课时,2小时35分23秒

基于 TI 高性能处理器的解决方案

TI 处理器 解决方案

  • 相关产品
  • 样品申请
  • EVM购买
  • 文档下载
  • 软件/工具
  • TI Design

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新文章 手机版

站点相关: EEWORLD首页 EE大学堂 论坛 下载中心 Datasheet 活动专区 博客

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2017 EEWORLD.com.cn, Inc. All rights reserved