形式:已錄制音頻
聲道:單聲道&多聲道
支持格式:wav,flac,opus,m4a,mp3
基于語音流的不間斷、免喚醒實時語音識別算法,具備強大的語音聽寫、語音轉(zhuǎn)寫、語音合成等能力,識別結(jié)果響應時間低于10ms,系統(tǒng)運行效率讓信息溝通變得無比順暢。
擁有領先的語音識別技術(shù),核心技術(shù)達到國際領先水平,語音識別準確率已經(jīng)超過98%,在業(yè)界遙遙領先。
用戶可將一些非常見的詞匯上傳至識別引擎,當實時轉(zhuǎn)寫的音頻流中出現(xiàn)該詞匯時,引擎可將其識別出來,提高專業(yè)用語識別準確率。
運用超大規(guī)模的語言模型,智能預測語境,提供智能斷句和標點符號的預測。
對結(jié)果中出現(xiàn)數(shù)字、日期、時間等內(nèi)容格式化成規(guī)整的文本。
形式:已錄制音頻
聲道:單聲道&多聲道
支持格式:wav,flac,opus,m4a,mp3
形式:json格式字符串
編碼:UTF-8
結(jié)果:分詞形式&完整句子形式,詞&句置信息度詞&句時間戳,詞屬性,多候選詞,文法格式智能轉(zhuǎn)換,多發(fā)音人分離
將坐席通話轉(zhuǎn)成文字,幫助電話質(zhì)檢和信息同步,也為數(shù)據(jù)挖掘提供原料基礎。
將會議和訪談的音頻轉(zhuǎn)換成文字存稿,讓后期的信息檢索和整理更方便快捷。
將視頻中音頻文件進行語音轉(zhuǎn)寫,輕松生成與視頻相對應的字幕文件。
可以從轉(zhuǎn)寫出的文字結(jié)果中搜索匹配相關詞類,對黃暴/涉政內(nèi)容進行高效鑒別。