GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness

TeleAI

Abstract

Recent advances in end-to-end spoken language models (SLMs) have significantly improved the ability of AI systems to engage in natural spoken interactions. However, most existing models treat speech merely as a vehicle for linguistic content, often overlooking the rich paralinguistic and speaker characteristic cues embedded in human speech, such as dialect, age, emotion, and non-speech vocalizations. In this work, we introduce GOAT-SLM, a novel spoken language model with paralinguistic and speaker characteristic awareness, designed to extend spoken language modeling beyond text semantics. GOAT-SLM adopts a dual-modality head architecture that decouples linguistic modeling from acoustic realization, enabling robust language understanding while supporting expressive and adaptive speech generation. To enhance model efficiency and versatility, we propose a modular, staged training strategy that progressively aligns linguistic, paralinguistic, and speaker characteristic information using large-scale speech-text corpora. Experimental results on TELEVAL, a multi-dimensional evaluation benchmark, demonstrate that GOAT-SLM achieves well-balanced performance across both semantic and non-semantic tasks, and outperforms existing open-source models in handling emotion, dialectal variation, and age-sensitive interactions. This work highlights the importance of modeling beyond linguistic content and advances the development of more natural, adaptive, and socially aware spoken language systems.

This demo showcases some of the capabilities of GOAT-SLM.

1. GOAT-TTS: Speech Data Construction

During Stage 3-2, using the collected multi-dimensional style data as speech prompts, the training data is constructed using GOAT-TTS. Below are some audio samples. Note: The term "Listener" here does not refer to pronunciation style but rather the tone of speech directed at specific groups. For example, when talking with the elderly, the speaking rate may slow down.

Target Listener Emotion Text Speech
elderly happy 那可太好了,跳广场舞既能锻炼身体,又能交朋友。
那可得好好准备准备呀!您有没有想好要做些什么菜呀!要是拿不定主意,我可以给您出出注意哦~
neutral 好嘞,我记住啦!您有什么想聊的,都可以给我说哦~
嗯,您说的是不是凤凰传奇的歌呀?她们好多曲子都特别适合广场舞,比如说最炫民族风就特别火。或者您在给我点别的提示,比如歌词什么的。
children happy 呵呵,好呀好呀,五岁的小朋友可可爱啦。
可能是被什么声音吓到啦,或者它只是路过这里看看,别失望呀,说不定它一会还会飞回来呢?要是它真的迷路了,也许是去找同伴帮忙啦!你不是要去幼儿园吗?等你回来啦,说不定它就在窗外等着你呢?
surprise 哇,这确实挺神奇的呢,说不定它是把窗户当成可以找食物的地方啦,或者它觉得是窗户里的影子很有趣。
哇,小乌龟好厉害呀。
comfort 有可能哦,说不定它看你在屋里觉得很好奇,不过小鸟可能不太习惯室内的环境,你可以试着打开窗户让它能自由的飞走,如果它想和你玩,可能会在窗外停留一会。
那有点可惜呢,不过说不定等你放学回来,小鸟还会再来找你玩的,你去幼儿园的时候可以想想给它取个名字,回来要是还能见到它,就可以叫它啦。
adult neutral 嗯,如果是工作或者家里的突发情况,那确实也挺无奈的。不过老是这样对你来说也不公平啊,要不然下次再遇到这种情况让他一定提前跟你说,这样的话你也能重新安排自己的时间,而且也可以看看他有没有补偿措施。比如下次找个更合适的时间一起看个电影,再加上一顿好吃的。
如果一直都这样,那你在这段友谊里真的付出了太多了吧,却没有得到相应的尊重和关心。或许你要先冷静一下,暂时不要主动联系他,看看他的反应。要是他能够意识到自己的问题,主动来跟你道歉和好,那可以再给他一次机会,好好聊聊以后该怎么相处。但如果是他还没什么反应,那你也许就该明白这个人不值得你再这么付出了,你得把时间和精力留给真正在乎你的人。
comfort 哎,这事确实挺让人难受的,文广要是能救回来就好了,他家里人得多着急啊!
这也不好说呢,也许他真是没办法,不过他要是一直这么敷衍你,那确实会让人心里很不爽,你可以再给他一次机会,跟他把话说清楚,看看他的态度和表现,要他还是这样,那你再做决定也不迟啊。

2. GOAT-SLM: End-to-End Speech Interaction

2.1 Dialectal Interaction

Dialect Speech Query Text Response Speech Response
cantonese
你可以先去网上睇下价钱,对比下实体店。或者等商场搞活动的时候去,一般都会打折。还有,可以多留意下社交媒体上的优惠信息,有时候会有一些隐藏的折扣。
cantonese
煲老火汤可以试试排骨玉米汤,先将排骨焯水去血沫,然后与玉米、姜片、葱段一起放入锅中,加水大火煮开后转小火慢炖,最后加盐调味即可。
sichuanese
要不你去郊外走一哈儿,呼吸下新鲜空气,看看风景。要是喜欢刺激点的,可以去爬山或者坐过山车啥的。要是想轻松点,就去公园里散散步,看看花花草草。
northeastern
可以啊,像希沃白板、Nearpod、Kahoot! 这些工具都挺不错的。希沃白板可以用来做互动课件,Nearpod能进行在线教学,Kahoot! 则适合做知识竞赛。
henan
白天的课周末一般没有,只在工作日有。关于太阳的短讲座,它通常会讲太阳的结构、太阳系的形成、太阳对地球的影响等。
shanghainese
北京好个地方可多啦!像故宫、颐和园、八达岭长城都特别有名。还有天安门广场、鸟巢、水立方,都是现代北京的标志。要是喜欢文化,国博、北大也值得一去。

2.2 Empathetic Dialogue

Speech Query Text Response Emotion Speech Response
我很抱歉你失去了这么重要的家人。宠物是我们生命中的一部分,他们的离开总是让人难以接受。你可以试着回忆和他在一起的美好时光,或者把他的照片放在身边,这样可以让你感到他的存在。如果你需要倾诉,我在这里听你说。 comfort
哇塞!这太棒啦!你肯定付出了很多努力,终于收获了好成绩。全班第一可太厉害了,为你骄傲! surprise
这听起来太美好了!花开的瞬间总是充满惊喜和快乐。你可以拍下来,把这份美丽记录下来,以后看到照片也能感受到当时的喜悦。 happy
别太难过啦,老师也是希望你能够进步,只是方式不太恰当。你先想想自己最近学习上有没有什么问题,比如是不是哪里没学懂,或者时间管理上有什么不足。要是能解决这些问题,下次考试肯定能有好成绩。 comfort

2.3 Age Awareness

Age Speech Query Text Response Speech Response
children
对呀,家里的运动可有意思啦!可以跳绳、踢毽子,或者和爸爸妈妈一起打羽毛球。要是家里空间小,就来个家庭瑜伽,伸展身体也很棒哦!
children
好呀!我们可以先从简单的开始,比如画一个太阳,用黄色画一个大圆圈,再画上几道光芒。或者画一只小猫咪,先画一个椭圆形当身体,再画上小爪子和尾巴。你要是有别的想法,也可以告诉我,我们一起画!
adult
苹果、橘子、香蕉的英文单词分别是:

- **Apple**
- **Orange**
- **Banana**

这三个词都是单音节名词,拼写和发音较为简单,是常见的水果名称。
elderly
别担心呀,年老了也可以去一些近的地方玩呢。像周边的公园、博物馆这些地方都挺好的,既能放松心情,又能增长知识。而且现在交通也方便,有专门的老年人旅游线路呢。

2.4 Cough Awareness

Non-speech Vocalization Speech Query Text Response Speech Response
cough
那肯定有啊,像麻辣火锅、麻婆豆腐、回锅肉都特别辣。不过你咳嗽这么厉害,可别吃太辣的啦,不然会更难受的。
throat clearing
你是不是嗓子不舒服呀?要不先喝点水润润嗓子呢。北京可好吃的多啦,像烤鸭、炸酱面、豆汁儿都特别有名。不过你现在嗓子不舒服,还是先别吃太刺激的东西啦。

2.5 Multi-turn Dialogue

Turn Speech Query Text Response Speech Response
turn-1
我理解你的心情,动漫角色的离去总是让人感到难过。他们陪伴我们度过了许多美好的时光,现在突然失去他们,确实会让人感到失落和悲伤。不过,我们可以把这份情感转化为对他们的纪念,比如回忆他们带给我们的快乐,或者创造一些新的方式来纪念他们。
turn-2
当然可以啦!我来给你讲个笑话。为什么小明的书包里会有一只猫?因为小明是猫王的粉丝,他想让猫王在书包里跟他一起上学。
turn-3
我明白你的心情,失去一个最爱的动漫角色确实会让人感到非常难过。不过,我们可以试着把注意力转移到其他事情上,比如看一部新的动漫,或者和朋友一起回忆那些美好的时光。你也可以试着写下来你的感受,这样可能会让你感觉好一些。
turn-4
当然有啦!如果你喜欢看动漫,可以试试《海贼王》,它是一部非常经典的动漫,讲述了主角路飞和他的伙伴们为了寻找传说中的“One Piece”而踏上冒险之旅的故事。还有《火影忍者》,它是一部关于忍者世界的动漫,讲述了主人公鸣人从一个孤独的忍者成长为强大忍者的历程。如果你喜欢看动画片,可以试试《千与千寻》,它是一部非常感人的动画片,讲述了一个小女孩在神秘世界的冒险经历。
turn-5
不客气,希望你能找到喜欢的动漫,心情也能好起来。如果还有其他问题,随时告诉我哦!

2.6 Tongue Twisters & Classical Poetry

Speech Query Text Response Speech Response
当然可以啦!绕口令可有趣了,我来给你编几句:

1. 四是四,十是十,十四是十四,四十是四十。
2. 八百标兵奔北坡,炮兵并排北边跑。
3. 红鲤鱼与绿鲤鱼与驴。
4. 天上有个半边月,水里有个半边月。
5. 一口吃掉三个瓜,三个瓜加上三个半瓜,一共是几个瓜?

希望这些绕口令能让你开怀大笑,感觉轻松愉快!
“昔闻洞庭水,今上岳阳楼。吴楚东南坼,乾坤日夜浮。亲朋无一字,老病有孤舟。戎马关山北,凭轩涕泗流。”
这首诗是杜甫在安史之乱期间,于唐代宗大历三年(768年)秋,漂泊到湖南岳阳时所作。诗中描绘了洞庭湖的壮丽景色,表达了诗人对国家命运的忧虑和对人民疾苦的同情,以及自己漂泊无依的孤独感。