国产大模型新进展，光芒照进听觉领域

2023-08-23 11:47:33

按照传统看法，AI与大模型等涉及到的机器学习概念主要集中在“视觉”领域，经过不懈努力，现在已经拓展到听觉领域了。清华大学与火山语音团队合作，推出认知导向的开源听觉大模型SALMONN，名称源于Speech Audio Language Music Open Neural Network的首字母缩写。Demo链接：

如果仅以人的角度来看，视觉与听觉是既独立又配合的信息系统。但从电脑，大模型等涉及到AI的角度来说，从视觉到听觉的跨越绝非动动嘴或手指那般想象中的简单，其中的意义可以用美国登月先驱阿姆斯特朗的那句名言概括：“这是我个人的一小步，也是人类的一大步。”

与传统的语音输入或语音助手等不同，仅从名字上就不难发现，SALMONN对讲话、语音、音频、音乐等各类音频信号输入都具有感知和理解能力，相当于给大模型加上了耳朵，再以此为基础发展出多语言、跨模态推理等更复杂且高维的能力。具体说来，SALMONN的底层大模型是Vicuna 13B，即著名的“羊驼”，加一个基于Whisper Encoder的通用音频编码器，再来一个负责对齐音频和文本模态的融合器。在这套设施的配合下，SALMONN就对音频信息具有了直接感知能力。

而传统的音频处理手段较为繁琐，在接受到音频信号后先要通过API调用底层工具将音频转化为文字信息，再将文字信息输入大模型做后续处理。与之相比，SALMONN可以直接从现实世界获取知识，并在一些复杂场景中也有很好的理解和处理能力。而且由于训练数据全部基于文本指令，因此也可以说它拥有跨模态的交互能力。

官方发布的模型解析图

从目前的消息来看，SALMONN能够胜任多种多样的语音相关任务，同时又有多种在训练时没有专门学习过的多语言和跨模态能力，如不同语种的语音识别、英语到其他语言的翻译、对语音内容的摘要与提取关键词、通过音频生成故事、音频问答、语音和音频联合推理等任务。

根据官方团队的说法，SALMONN能处理的任务，依据从易到难的程度可以分为三类：1.训练中就学习过的任务，2.训练中没学过，但SALMONN能够基于文本输入完成的任务，3.训练中没学过，需要直接感知音频或视频的多模态大模型才能完成的任务。

如果仅看论文和demo很容易觉得SALMONN“不过如此”，但前面已经提到过，机器视觉与机器听觉属于两个领域，目前经常提到的AGI（通用人工智能）和机器学习等概念里，关于听觉的研究仍然以“语音助手”或类似的形式出现，比如十几年前就登上iPhone的Siri。虽然概念非常前沿，但机器听觉的发展却长期不如机器视觉那样迅速且高产，即使现在AGI，大模型等概念非常火热，但机器听觉似乎还是难以引人注目。

**之所以会有如此窘境，主要是因为机器听觉与机器视觉的先天性差异，以及由此导致的一系列困难。**过去曾介绍过，苹果的Siri已经算是质量很好的语音助手了，但依然经常被人嘲讽为“人工智障”。后来又有消息说苹果对Siri也有诸多不满，历次发布会里对它一直都很少提及，即使提到可能也只是“更智能”“更强大”之类的套话。之前马克·古尔曼爆料苹果在秘密开发Apple GPT时也说过，Siri部门长期陷于费力不讨好的泥沼中，苹果多年来一直想为Siri进行一次革命性更新，甚至是为此而单独规划生产线，专门出一款新产品，将Apple GPT与Siri集成到一起或许是一种好方法，能识别语音且能用语音控制的大模型，的确是比较酷的。

此次清华大学与火山语音合作推出的SALMONN可能就走在这样一条路上，也的确展示了全新的玩法，或许没多久就有更多类似的新产品问世了。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论