语音识别接入说明

概述

思必驰DUI智能语音开放平台提供如下几种在线语音识别技术:

  1. 实时短语音识别:将时长较短(不超过60秒)的语音信息实时转化为文字信息,支持Server(云对云)、Android、iOS方式接入。
  2. 实时长语音转写:通过与服务端建立websocket长连接,对连续的音频流(不超过5小时)进行实时识别,获取返回的文字流识别结果,支持Server(云对云)、Android、iOS方式接入。
  3. 录音文件长语音转写:将已经录制好的音频文件, 通过识别服务,将长段音频数据(5小时以内)转写成文本数据,支持Server(云对云)、Android、iOS方式接入。
  4. 一句话识别:将整句(不超过60秒)音频信息,非实时转化为文字信息,支持Server(云对云)、Android、iOS方式接入。

 

注意:以上几种识别技术都需要在联网环境下进行。

示例 Demo

实时短语音识别

实时短语音识别/ASR,采用了基于业界领先的算法,用于实时语音交互,提供高质量的语音识别服务,让应用(设备)听懂用户的声音。

产品优势

  • 识别率更高:采用业界领先的算法、超大规模语言模型,覆盖多个垂直领域,通用识别率>97%,垂直领域定制识别率>98%;支持方言识别。
  • 智能标点预测:识别过程中,能够针对不同的环境和人进行自调整,支持智能断句和标点符号的预测,提升识别准确率。
  • 自定义上传词库:同时还支持开发者自行上传词库和定制本地指令,训练专属的识别模型,满足个性化需求。

适用场景

  • 智能车载:通过语音操作实现导航、播放音乐、收发微信、接听电话等,可以解放驾驶员的双手和双眼,为驾驶安全提供重要保障。
  • 电视语音遥控器:通过语音来查找电视节目、演员、影片类型等,还可通过语音实现定时关机、快进快退、开启应用、快速换集等功能。
  • 智能音箱:通过语音操作实现播放音乐、收听电台、查询天气、控制家电等,也可以语音叫车、订外卖,给生活带来了非常便捷的体验。
  • 其他更多需要短语音进行人机交互的场景。

如何接入

实时长语音转写

实时长语音转写,对连续的音频流进行实时识别转写,配有内置的智能断句,达到“边说边出文字”的效果,可用于大会演讲投屏、实时直播字幕、实时法庭庭审记录等场景。

产品优势

  • 准确率更高:采用业界领先的算法、超大规模语言模型,先进的解码技术,大幅提高了识别精度。
  • 智能标点预测:识别过程中,能够针对不同的环境和人进行自调整,支持智能断句和标点符号的预测,提升识别准确率。
  • 识别速度快:采用字级深度序列网络CTC建模、超大规模语言模型,识别速度更快。

适用场景

  • 大会演讲投屏:将会议音频内容实时转换为文字,供参会者观看,特别适用于大会演讲等远距离、大场地场景
  • 实时直播字幕:将视频直播或现场直播中的音频实时转为字幕,提供更佳观看体验的同时,还可以对视频内容进行监控
  • 实时法庭庭审:将庭审各方的语音实时转变为文字,在减少人工记录成本的同时,提高记录效率和质量
  • 其他:更多需要长语音实时转写进行人机交互的场景。

如何接入

录音文件长语音转写

对用户上传的录音文件或文件链接中的音频进行识别,将长段音频数据转写成文本数据,可用于采访录音转写、音频数据录入、会议记录总结等场景。

产品优势

  • 准确率更高:采用业界领先的算法、超大规模语言模型,先进的解码技术,大幅提高了识别精度。
  • 智能标点预测:运用超大规模的语言模型,支持智能断句和标点符号的预测,提升识别准确率。
  • 识别速度快:采用字级深度序列网络CTC建模、超大规模语言模型,识别速度更快。

适用场景

  • 采访录音转写:通过录音文件转写,将采访获取的音频转化为文本,提升工作效率。
  • 音频数据录入:上传各类音频文件,通过录音文件转写得到文本,录入数据库,便于后期查看。
  • 会议记录总结:对会议记录的音频文件进行识别,转成文字,让后期的信息检索和整理更方便快捷。
  • 其他:更多需要音频文件转写的场景,如呼叫中心质检、医疗病例录入等。

如何接入

一句话识别

一句话识别,对时长较短(≤60秒)的语音信息进行识别,转为对应的文字信息,非实时的返回识别结果。适用于社交娱乐、下达语音指令、字幕转写等场景,可集成在各类APP、智能设备、语音助手等语音交互产品中。

产品优势

  • 高识别准确率:思必驰DUI开放平台采用一流的字级CTC建模技术,使用业界领先的算法,大幅度提高了识别精度。
  • 智能标点预测:运用超大规模的语言模型,支持智能断句和标点符号的预测,提升识别准确率。
  • 一流解码速率:采用超低帧率建模和优化的GPU运算,在保证识别准确率的基础上,大幅度提升解码速率,缩短处理时间。
  • 适用领域广:通用于包括医疗、金融、电商、家居、餐饮等在内的多个领域,应用范围广泛。

适用场景

  • 社交娱乐:在社交聊天、游戏娱乐时,可以将用户发出的语音(≤60秒)转为文字消息,提升用户体验
  • 短语音指令:在进行人机交互时,通过语音指令实现对设备的控制,让设备“听懂”人类语言、更加智能,最大限度解放双手
  • 音视频字幕转写:通过一句话识别服务,将不超过一分钟的音频转写为文字,作为音视频字幕使用,处理速度快,体验效果好
  • 其他:更多需要一句话识别进行音频转写、人机交互的场景。

如何接入