语音识别接入说明
概述
思必驰DUI智能语音开放平台提供如下几种在线语音识别技术:
- 实时短语音识别:将时长较短(不超过60秒)的语音信息实时转化为文字信息,支持Server(云对云)、Android、iOS方式接入。
- 实时长语音转写:通过与服务端建立websocket长连接,对连续的音频流(不超过5小时)进行实时识别,获取返回的文字流识别结果,支持Server(云对云)、Android、iOS方式接入。
- 录音文件长语音转写:将已经录制好的音频文件, 通过识别服务,将长段音频数据(5小时以内)转写成文本数据,支持Server(云对云)、Android、iOS方式接入。
- 一句话识别:将整句(不超过60秒)音频信息,非实时转化为文字信息,支持Server(云对云)、Android、iOS方式接入。
注意:以上几种识别技术都需要在联网环境下进行。
示例 Demo
实时短语音识别
实时短语音识别/ASR,采用了基于业界领先的算法,用于实时语音交互,提供高质量的语音识别服务,让应用(设备)听懂用户的声音。
产品优势
- 识别率更高:采用业界领先的算法、超大规模语言模型,覆盖多个垂直领域,通用识别率>97%,垂直领域定制识别率>98%;支持方言识别。
- 智能标点预测:识别过程中,能够针对不同的环境和人进行自调整,支持智能断句和标点符号的预测,提升识别准确率。
- 自定义上传词库:同时还支持开发者自行上传词库和定制本地指令,训练专属的识别模型,满足个性化需求。
适用场景
- 智能车载:通过语音操作实现导航、播放音乐、收发微信、接听电话等,可以解放驾驶员的双手和双眼,为驾驶安全提供重要保障。
- 电视语音遥控器:通过语音来查找电视节目、演员、影片类型等,还可通过语音实现定时关机、快进快退、开启应用、快速换集等功能。
- 智能音箱:通过语音操作实现播放音乐、收听电台、查询天气、控制家电等,也可以语音叫车、订外卖,给生活带来了非常便捷的体验。
- 其他:更多需要短语音进行人机交互的场景。
如何接入
- Server方式接入说明:Server接入
- Android设备接入:Android SDK接入
- iOS设备接入:iOS SDK接入
实时长语音转写
实时长语音转写,对连续的音频流进行实时识别转写,配有内置的智能断句,达到“边说边出文字”的效果,可用于大会演讲投屏、实时直播字幕、实时法庭庭审记录等场景。
产品优势
- 准确率更高:采用业界领先的算法、超大规模语言模型,先进的解码技术,大幅提高了识别精度。
- 智能标点预测:识别过程中,能够针对不同的环境和人进行自调整,支持智能断句和标点符号的预测,提升识别准确率。
- 识别速度快:采用字级深度序列网络CTC建模、超大规模语言模型,识别速度更快。
适用场景
- 大会演讲投屏:将会议音频内容实时转换为文字,供参会者观看,特别适用于大会演讲等远距离、大场地场景。
- 实时直播字幕:将视频直播或现场直播中的音频实时转为字幕,提供更佳观看体验的同时,还可以对视频内容进行监控。
- 实时法庭庭审:将庭审各方的语音实时转变为文字,在减少人工记录成本的同时,提高记录效率和质量。
- 其他:更多需要长语音实时转写进行人机交互的场景。
如何接入
- Server方式接入说明:Server接入
- Android设备接入:Android SDK接入
- iOS设备接入:iOS SDK接入
录音文件长语音转写
对用户上传的录音文件或文件链接中的音频进行识别,将长段音频数据转写成文本数据,可用于采访录音转写、音频数据录入、会议记录总结等场景。
产品优势
- 准确率更高:采用业界领先的算法、超大规模语言模型,先进的解码技术,大幅提高了识别精度。
- 智能标点预测:运用超大规模的语言模型,支持智能断句和标点符号的预测,提升识别准确率。
- 识别速度快:采用字级深度序列网络CTC建模、超大规模语言模型,识别速度更快。
适用场景
- 采访录音转写:通过录音文件转写,将采访获取的音频转化为文本,提升工作效率。
- 音频数据录入:上传各类音频文件,通过录音文件转写得到文本,录入数据库,便于后期查看。
- 会议记录总结:对会议记录的音频文件进行识别,转成文字,让后期的信息检索和整理更方便快捷。
- 其他:更多需要音频文件转写的场景,如呼叫中心质检、医疗病例录入等。
如何接入
- Server方式接入说明:Server接入
- Android设备接入:Android SDK接入
- iOS设备接入:iOS SDK接入
一句话识别
一句话识别,对时长较短(≤60秒)的语音信息进行识别,转为对应的文字信息,非实时的返回识别结果。适用于社交娱乐、下达语音指令、字幕转写等场景,可集成在各类APP、智能设备、语音助手等语音交互产品中。
产品优势
- 高识别准确率:思必驰DUI开放平台采用一流的字级CTC建模技术,使用业界领先的算法,大幅度提高了识别精度。
- 智能标点预测:运用超大规模的语言模型,支持智能断句和标点符号的预测,提升识别准确率。
- 一流解码速率:采用超低帧率建模和优化的GPU运算,在保证识别准确率的基础上,大幅度提升解码速率,缩短处理时间。
- 适用领域广:通用于包括医疗、金融、电商、家居、餐饮等在内的多个领域,应用范围广泛。
适用场景
- 社交娱乐:在社交聊天、游戏娱乐时,可以将用户发出的语音(≤60秒)转为文字消息,提升用户体验。
- 短语音指令:在进行人机交互时,通过语音指令实现对设备的控制,让设备“听懂”人类语言、更加智能,最大限度解放双手。
- 音视频字幕转写:通过一句话识别服务,将不超过一分钟的音频转写为文字,作为音视频字幕使用,处理速度快,体验效果好。
- 其他:更多需要一句话识别进行音频转写、人机交互的场景。
如何接入
- Server方式接入说明:Server接入
- Android设备接入:Android SDK接入
- iOS设备接入:iOS SDK接入