PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems

preprint: arXiv:2406.12428
Kentaro Mitsui, Koh Mitsuda, Toshiaki Wakatsuki, Yukiya Hono, Kei Sawada
rinna Co., Ltd.

Multimodal language models that process both text and speech have a potential for applications in spoken dialogue systems. However, current models face two major challenges in response generation latency: (1) generating a spoken response requires the prior generation of a written response, and (2) speech sequences are significantly longer than text sequences. This study addresses these issues by extending the input and output sequences of the language model to support the parallel generation of text and speech. Our experiments on spoken question answering tasks demonstrate that our approach improves latency while maintaining the quality of response content. Additionally, we show that latency can be further reduced by generating speech in multiple sequences. Demo samples are available at


Demo Video


Sample 1

Q: ワインはどのように発酵しますか?
Q: How does wine ferment?

Ground Truth

A: 一般的に、ブドウの果汁が容器の中でアルコールに変化することで発酵していきます。
A: Generally, grape juice ferments by turning into alcohol inside a container.


A: 飲みます。
A: You drink it.


A: 糖がアルコールになる発酵です。
A: It is the fermentation where sugar turns into alcohol.


A: ワインは、ブドウの果肉や皮をアルコール発酵させたものです。
A: Wine is made by fermenting the flesh and skins of grapes into alcohol.


A: 酵母菌の力で糖分がアルコールに変換され、アルコール発酵と呼ばれる状態になります。
A: Yeast transforms the sugar into alcohol, a process called alcohol fermentation.

Sample 2

Q: 何のために鶏の足を使うのですか?店で女性が鶏の足の大きなパックを買っているのを見ました。
Q: What do you use chicken feet for? I saw a woman buying a big pack of chicken feet at the store.

Ground Truth

A: 鶏の足は中華料理やタイ料理で使われ、鶏の足でスープやシチューを作るのが好まれます。 家庭料理のガンボでも、鶏の足はかなり人気があります。一部の人々は骨から出汁をとります。 主に風味を出すために使いますが、足の肉もかなり柔らかいです。
A: Chicken feet are used in Chinese and Thai cuisine, and they are preferred for making soups and stews. They are also quite popular in home-cooked gumbo. Some people use the bones to make broth. They are mainly used to add flavor, but the meat on the feet is also quite tender.


A: 鳥の足は、煮る、焼く、揚げる、蒸す、揚げる、 煮る、焼く、蒸す、揚げる、煮る。と、色んな調理法があります。
A: Chicken feet can be boiled, grilled, fried, steamed, fried, boiled, grilled, steamed, fried, boiled. There are various cooking methods.


A: 食べるためです。
A: They are for eating.


A: それは、お料理の具材です。
A: They are ingredients for cooking.


A: 鶏肉の料理が好きなので、鶏足も好きです。
A: I like chicken dishes, so I like chicken feet too.

Sample 3

Q: 休日に行くことができたら、どこに行きますか?またなぜですか?
Q: If you could go anywhere on a holiday, where would you go and why?

Ground Truth

A: ニューヨークに行くのが大好きです!とても活気のある場所です。やることや見ることがたくさんあり、そこで何週間も過ごすことができます!
A: I love going to New York! It's such a vibrant place. There are so many things to do and see, you could spend weeks there!


A: 地元の神社にお参りに行きます。
A: I would visit the local shrine.


A: 京都に日帰りで行きます。京都は、歴史が好きだし、お寺や神社も多いので、いろいろなところを見れるからです。
A: I would take a day trip to Kyoto. I love history, and Kyoto has many temples and shrines, so there are lots of places to visit.


A: 家でゆっくりする。
A: I would relax at home.


A: 海に行きます。なぜかというと、海が好きだからです。
A: I would go to the beach because I love the sea.

Sample 4

Q: 緊急車両が追い越そうとしているとき、どうしたらいいですか?
Q: What should you do when an emergency vehicle is trying to overtake?

Ground Truth

A: アメリカとカナダでは、救急車、パトカー、消防車は一般車両よりも優先権があります。それらの車両が安全に通行できるように、すぐに道路脇に寄って停車する必要があります。
A: In the US and Canada, ambulances, police cars, and fire trucks have the right of way over regular vehicles. You should pull over to the side of the road immediately to allow them to pass safely.


A: 車線変更は絶対にしない。後続車が追い越してから、左側に寄せて停車。
A: Never change lanes. After the following car overtakes, pull over to the left and stop.


A: 道譲ってあげてください。
A: Please yield the way.


A: 車両が近づいて来たら、安全な車線へ移動すればいいと思います。
A: When the vehicle approaches, you should move to a safe lane.


A: 譲りましょう。
A: Let them pass.

Sample 5

Q: 切手はどこで購入できますか?
Q: Where can I buy stamps?

Ground Truth

A: 切手は、コンビニや郵便局で入手できます。
A: You can get stamps at convenience stores and post offices.


A: 郵便局、コンビニ、駅の売店、文房具店、ホームセンター、雑貨屋、100均、等々。
A: At the post office, convenience stores, station kiosks, stationery stores, home centers, variety stores, 100 yen shops, etc.


A: 郵便局、コンビニ、切手の取扱いがある文房具店、等々。
A: At the post office, convenience stores, and stationery stores that handle stamps, etc.


A: コンビニで買えますよ。
A: You can buy them at convenience stores.


A: 切手はコンビニでも買えますよ。
A: You can also buy stamps at convenience stores.