全部标签

个人博客

语音合成，流式处理、非流式处理有什么区别？用途是什么

语音合成技术中的流式处理与非流式处理在多个方面存在显著差异，这些差异主要体现在处理方式、实时性、用户体验以及应用场景上。区别流式处理非流式处理处理方式分段合成，即边输入边输出，对输入文本进行分词断句，声学模型和声码器局部合成语音特征和音频，分段传回合成的音频。一次性输入文字，一次性输出语音，注重语音合成系统的整体运算速度。实时性实时性高，首包响应时间短，用户等待时间少，适合需要即时反馈的场景。实…
个人博客
- 229
- 0
15153224年8月13日
基于小批量预测修正的自监督说话人验证

论文题目：基于测小批量预测修正的自监督说话人验证作者列表：王钧旭，方志华，何亮单位：1.新疆大学计算机科学与技术学院 2.清华大学电子工程系研究背景目前高性能的深度学习模型大多通过精心标记的数据集进行训练，随着数据需求量的增加以及人们对数据隐私的重视，基于无标签或少标签的训练方法可以更有效地利用容易收集的无标签数据。2阶段地自监督说话人验证系统通常具有更好的性能，并且聚类-迭代的第二阶段通…
个人博客
- 139
- 0
15153224年7月20日
大模型集体失智！9.11和9.9哪个大，几乎全翻车了

没眼看……“9.11和9.9哪个大”这样简单的问题，居然把主流大模型都难倒了？？强如GPT-4o，都坚定地认为9.11更大。来源丨量子位谷歌Gemini Advanced付费版，同样的口径。新王Claude 3.5 Sonnet，还一本正经的给出离谱的计算方法。9.11 = 9 + 1/10 + 1/1009.9 = 9 + 9/10到这一步还是对的，但下一步突然就不讲道理了如上所示，9.11比9…
个人博客
- 121
- 0
15153224年7月20日
SD-Eval新基准，让语音交互大模型情智兼备

随着GPT-4o、Moshi等模型的发布，语音交互大模型越来越受到大家的关注。如何全面的评价语音交互大模型的情商？最近港中大（深圳）联合字节跳动提出了SD-Eval，一个多维度评估语音对话理解和生成的基准数据集，旨在促进更具同理心和更加智能的语音交互大模型的开发。语音包含丰富的信息，不仅仅是内容，还有副语言和环境信息。副语言信息包含了情感、口音、年龄等，而环境信息表达了语音所发生的场景信息。随着研…
个人博客
- 140
- 0
15153224年7月20日
声学和韵律一致性的基于文本的语音编辑

本次分享由内蒙古大学计算机学院S2Lab实验室（https://ttslr.github.io）刘瑞研究员团队投稿在 InterSpeech 2024的论文《FLUENTEDITOR: TEXT-BASED SPEECH EDITING BY CONSIDERINGACOUSTIC AND PROSODY CONSISTENCY》。该论文提出了一个名为FluentEditor的基于文本的语音编辑（…
个人博客
- 133
- 0
15153224年7月20日
浅谈大模型的多模态和语音流式技术

ChatGPT 引爆LLM的同时scaling law席卷了整个机器学习行业，openai 、meta、google等公司在语音方向也分别推出了whisper、mms、audioPaLM多个语音大模型，在模型和数据规模上再次发挥scaling的神力，单一模型支持多达百千种语言也带来更好的效果（做大做强），但这些工作并未探明语音作为重要模态如何和LLM深度结合并做出全新的应用。直到 gpt4o、as…
个人博客
- 140
- 0
15153224年7月20日
语音/音频处理学术速递

今日论文合集：cs.SD语音7篇，eess.AS音频处理10篇。cs.SD语音【1】 A Preliminary Investigation on Flexible Singing Voice Synthesis Through Decomposed Framework with Inferrable Features标题：利用具有不可分割特征的分解框架进行灵活歌唱声音合成的初步研究链接：htt…
个人博客
- 158
- 0
15153224年7月20日

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

个人博客

语音合成，流式处理、非流式处理有什么区别？用途是什么

基于小批量预测修正的自监督说话人验证

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

SD-Eval新基准，让语音交互大模型情智兼备

声学和韵律一致性的基于文本的语音编辑

浅谈大模型的多模态和语音流式技术

语音/音频处理学术速递

归档

分类

{{userData.name}}已认证

个人博客

语音合成，流式处理、非流式处理 有什么区别？用途是什么

基于小批量预测修正的自监督说话人验证

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

SD-Eval新基准，让语音交互大模型情智兼备

声学和韵律一致性的基于文本的语音编辑

浅谈大模型的多模态和语音流式技术

语音/音频处理学术速递

语音合成，流式处理、非流式处理有什么区别？用途是什么