【SpeechX—统一高性能语音部署工具】SpeechX Custom ASR - 代码天地

【SpeechX—统一高性能语音部署工具】SpeechX Custom ASR

企业开发 2023-04-07 22:29:01 阅读次数: 0

(以下内容搬运自 PaddleSpeech)

在一些场景中，识别系统需要高精度的识别一些稀有词，例如导航软件中地名识别。而通过定制化识别可以满足这一需求。

相关demo: https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/custom_streaming_asr

相关脚本: https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/speechx/examples/custom_asr

脚本的代码是一个详细的教程，用户可以根据自己的需求进行定制。

这个 demo 是打车报销单的场景识别，需要识别一些稀有的地名，可以通过如下操作实现。

G with slot: 打车到 “address_slot”。

这是 address slot wfst, 可以添加一些需要识别的地名.

通过 replace 操作, G = fstreplace(G_with_slot, address_slot), 最终可以得到定制化的解码图。

结果

demo的结果示例：

0513 10:58:13.827821 41768 recognizer_test_main.cc:56] wav len (sample): 70208
I0513 10:58:13.884493 41768 feature_cache.h:52] set finished
I0513 10:58:24.247171 41768 paddle_nnet.h:76] Tensor neml: 10240
I0513 10:58:24.247249 41768 paddle_nnet.h:76] Tensor neml: 10240
LOG ([5.5.544~2-f21d7]:main():decoder/recognizer_test_main.cc:90)  the result of case_10 is 五月十二日二十二点三十六分加班打车回家四十一元

demo 脚本的cer：

Overall -> 1.23 % N=1134 C=1126 S=6 D=2 I=6
Mandarin -> 1.24 % N=1132 C=1124 S=6 D=2 I=6
English -> 0.00 % N=2 C=2 S=0 D=0 I=0

P.S. 欢迎关注我们的 github repo PaddleSpeech, 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。

猜你喜欢

转载自blog.csdn.net/qq_21275321/article/details/127516633

【SpeechX—统一高性能语音部署工具】SpeechX Custom ASR

【SpeechX—统一高性能语音部署工具】SpeechX Architecture

语音识别（ASR）阿里云

初探语音识别ASR算法

智能语音识别ASR工具Riva简介

语音识别ASR入门知识点

语音识别ASR技术通识

asr_syllabel_master语音识别详解

自动语音识别（ASR）研究综述

LU_ASR01语音模块使用

Python使用whisper实现语音识别（ASR）

Arduino+Asr_pro语音模块：智能语音交互

腾讯云叮当语音识别ASR对接流程

语音交互的三驾马车：ASR、NLP、TTS

ASR-深度卷积神经网络之语音识别

PaddleSpeech 流式语音识别系统 PP-ASR

asr 语音识别方法基于paddle的方法

ASR（自动语音识别）任务中的LLM（大语言模型）

前端使用百度ASR（语音识别）

ASR性能测试方案--详细见云盘

asr学习

开源(离线)中文语音识别ASR(语音转文本)工具整理

Unity 工具之 Azure 微软连续语音识别ASR的简单整理

《嵌入式 - 语音识别TWen-ASR-ONE开发笔记》第4章 TWen-ASR-ONE PWM调光

《语音识别TWen-ASR-ONE开发笔记》第3章 TWen-ASR-ONE 多线程和消息队列

新一代LoRa系统芯片ASR6501,ASR6505推动LoRa技术更深层次应用

OpenLayers官方示例详解一：Custom Interactions

ASR：基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略

ROS 教程3 机器人语音语音识别理解合成控制 ASR NLU TTS

AM and LM in ASR 语音识别中的声学模型和语言模型

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)