语音识别接入说明

概述

思必驰DUI智能语音开放平台提供如下几种在线语音识别技术：

实时短语音识别：将时长较短（不超过60秒）的语音信息实时转化为文字信息，支持Server（云对云）、Android、iOS方式接入。
实时长语音转写：通过与服务端建立websocket长连接，对连续的音频流（不超过5小时）进行实时识别，获取返回的文字流识别结果，支持Server（云对云）、Android、iOS方式接入。
录音文件长语音转写：将已经录制好的音频文件，通过识别服务，将长段音频数据（5小时以内）转写成文本数据，支持Server（云对云）、Android、iOS方式接入。
一句话识别：将整句（不超过60秒）音频信息，非实时转化为文字信息，支持Server（云对云）、Android、iOS方式接入。

注意：以上几种识别技术都需要在联网环境下进行。

示例 Demo

实时短语音识别：点此获取
录音文件转写：点此获取
实时长语音转写：点此获取
一句话识别：点此获取

实时短语音识别

实时短语音识别/ASR，采用了基于业界领先的算法，用于实时语音交互，提供高质量的语音识别服务，让应用（设备）听懂用户的声音。

产品优势

识别率更高：采用业界领先的算法、超大规模语言模型，覆盖多个垂直领域，通用识别率>97%，垂直领域定制识别率>98%；支持方言识别。
智能标点预测：识别过程中，能够针对不同的环境和人进行自调整，支持智能断句和标点符号的预测，提升识别准确率。
自定义上传词库：同时还支持开发者自行上传词库和定制本地指令，训练专属的识别模型，满足个性化需求。

适用场景

智能车载：通过语音操作实现导航、播放音乐、收发微信、接听电话等，可以解放驾驶员的双手和双眼，为驾驶安全提供重要保障。
电视语音遥控器：通过语音来查找电视节目、演员、影片类型等，还可通过语音实现定时关机、快进快退、开启应用、快速换集等功能。
智能音箱：通过语音操作实现播放音乐、收听电台、查询天气、控制家电等，也可以语音叫车、订外卖，给生活带来了非常便捷的体验。
其他：更多需要短语音进行人机交互的场景。

如何接入

Server方式接入说明：Server接入
Android设备接入：Android SDK接入
iOS设备接入：iOS SDK接入

实时长语音转写

实时长语音转写，对连续的音频流进行实时识别转写，配有内置的智能断句，达到“边说边出文字”的效果，可用于大会演讲投屏、实时直播字幕、实时法庭庭审记录等场景。

产品优势

准确率更高：采用业界领先的算法、超大规模语言模型，先进的解码技术，大幅提高了识别精度。
智能标点预测：识别过程中，能够针对不同的环境和人进行自调整，支持智能断句和标点符号的预测，提升识别准确率。
识别速度快：采用字级深度序列网络CTC建模、超大规模语言模型，识别速度更快。

适用场景

大会演讲投屏：将会议音频内容实时转换为文字，供参会者观看，特别适用于大会演讲等远距离、大场地场景。
实时直播字幕：将视频直播或现场直播中的音频实时转为字幕，提供更佳观看体验的同时，还可以对视频内容进行监控。
实时法庭庭审：将庭审各方的语音实时转变为文字，在减少人工记录成本的同时，提高记录效率和质量。
其他：更多需要长语音实时转写进行人机交互的场景。

如何接入

Server方式接入说明：Server接入
Android设备接入：Android SDK接入
iOS设备接入：iOS SDK接入

录音文件长语音转写

对用户上传的录音文件或文件链接中的音频进行识别，将长段音频数据转写成文本数据，可用于采访录音转写、音频数据录入、会议记录总结等场景。

产品优势

准确率更高：采用业界领先的算法、超大规模语言模型，先进的解码技术，大幅提高了识别精度。
智能标点预测：运用超大规模的语言模型，支持智能断句和标点符号的预测，提升识别准确率。
识别速度快：采用字级深度序列网络CTC建模、超大规模语言模型，识别速度更快。

适用场景

采访录音转写：通过录音文件转写，将采访获取的音频转化为文本，提升工作效率。
音频数据录入：上传各类音频文件，通过录音文件转写得到文本，录入数据库，便于后期查看。
会议记录总结：对会议记录的音频文件进行识别，转成文字，让后期的信息检索和整理更方便快捷。
其他：更多需要音频文件转写的场景，如呼叫中心质检、医疗病例录入等。

如何接入

Server方式接入说明：Server接入
Android设备接入：Android SDK接入
iOS设备接入：iOS SDK接入

一句话识别

一句话识别，对时长较短（≤60秒）的语音信息进行识别，转为对应的文字信息，非实时的返回识别结果。适用于社交娱乐、下达语音指令、字幕转写等场景，可集成在各类APP、智能设备、语音助手等语音交互产品中。

产品优势

高识别准确率：思必驰DUI开放平台采用一流的字级CTC建模技术，使用业界领先的算法，大幅度提高了识别精度。
智能标点预测：运用超大规模的语言模型，支持智能断句和标点符号的预测，提升识别准确率。
一流解码速率：采用超低帧率建模和优化的GPU运算，在保证识别准确率的基础上，大幅度提升解码速率，缩短处理时间。
适用领域广：通用于包括医疗、金融、电商、家居、餐饮等在内的多个领域，应用范围广泛。

适用场景

社交娱乐：在社交聊天、游戏娱乐时，可以将用户发出的语音(≤60秒)转为文字消息，提升用户体验。
短语音指令：在进行人机交互时，通过语音指令实现对设备的控制，让设备“听懂”人类语言、更加智能，最大限度解放双手。
音视频字幕转写：通过一句话识别服务，将不超过一分钟的音频转写为文字，作为音视频字幕使用，处理速度快，体验效果好。
其他：更多需要一句话识别进行音频转写、人机交互的场景。

如何接入

Server方式接入说明：Server接入
Android设备接入：Android SDK接入
iOS设备接入：iOS SDK接入