VUI

Voice User Interface Designについて

Voice User Interface Designについて

Voice User Interface Designについて

About the conference

はじめまして!プロダクトデザイナーの崔 盛旭(チェ ソンウク)と申します。
先日(2017年)San Fransiscoで開かれたO’Reilly Design conferenceに参加してきました。
カンファレンスはUXデザイナーのために、様々な内容で構成されていて、個人的にはとても有益な経験でした。

ローソンチケットの集客ページである「興業まとめ」ページのUX改善を実施するためのプロジェクトに取り組みました。目標は、ユーザーの購入までのフローをより正確に追跡し、「興業まとめ」ページに必要な要素、適切なUIをユーザーに提供することでした。
私の役割はユーザーシナリオを検討し、どのような状況でもユーザーが必要としているソリューションを考案することでした。

Conference

世界17カ国からの参加者がいた大規模のカンファレンスでした。

特に「AI」、「VUI」、「Robot」などホットなキーワードのセッションも多数あってUXトレンドの変化を肌で感じることが出来ました。
本日は次のVUI (Voice User Interface)のセッションで聞いた内容を簡単に紹介したいと思います。

SESSION
SESSION
SESSION

Designing conversational voice user interfaces

Designing conversational voice user interfaces

スピーカはCathy Pearlさん。
エネルギーが溢れる素敵な女性の方で、VUIの書籍も出版したVUI界のエキスパートです。ちまにみセッションの評価も5点満点!

そんなCathyさんがVUIのプリンシパルとして挙げたのが、次の9つです。(ちょっと多めですね。)

  • Disambiguation
  • Go beyond context
  • Follow the cooperative principle
  • Let the user continue the conversation
  • Be open to learning
  • Show what you know
  • Don’t pretend to be conversational when you’re not
  • Multi-modal
  • Putting it all together

数は多いですが、一つずつ簡単に説明します。

1. Disambiguation

JAISTの言語情報処理 用語集によると下のような意味ですね。

曖昧性解消 (disambiguation)
“形態素解析や構文解析など、自然言語処理における諸問題において、解析結果の候補が複数得られることを「曖昧性を生じる」という。このとき、解析結果の候補の中から正しい解析結果を選び出すことを「曖昧性を解消する」という。”

ふーむ。個人的には曖昧さが増す説明ですね。

簡単な例で話すとカフェで次のような会話があった場合、

👨🏼 客:カフェモカください。
💁🏼‍♀️ 店員:アイスとホット、どちらになさいますか?

店員は曖昧さを回避するために質問をしたんでしょうね。これがDisambiguationの意味だと思います。

2. Go beyond context

訳すると「文脈を超えて」ですが…なんか曖昧性を解消したくなる気持ちですよね…

これは言葉を辞典的な意味で解釈するのではなく、話者の意図を把握することを意味していると思います。

例えば、家の近くに「ラーメン三四郎」というラーメン屋さんがあって、営業時間を聞く場合

👦🏻 Human A:おい。三四郎は何時まで?
🤖 A.I. Voice三四郎さんのスケジュールはわかりません。

上のような問答になると、やっぱり、AIはまだまだだなーと思ってしまいますよね。
普通の人間だと三四郎が人の名前ではなくラーメン屋さんだと分かるので、

👦🏻 Human A:おい。三四郎は何時まで?
👩🏽‍🦰 Human B:夜11時までだよ。

のような会話になると思います。Go beyond contextはこれを指していると思います。

3. Follow the cooperative principle

これは、ポール・グライスという言語学者の「協調の原理」を従ってね。という意味です。

協調の原理は、会話において話す人、聞く人が暗黙的にに守っているルールみたいなことで、次の4つの公理があります。(Wikipediaより)

  • 量の公理 — 求められているだけの情報を提供しなければいけない。
  • 質の公理 — 信じていないことや根拠のないことを言ってはいけない。
  • 関連性の公理 — 関係のないことを言ってはいけない。
  • 様式の公理 — 不明確な表現や曖昧なことを言ってはいけない。

全部を説明すると長くなるので動画を見てください。

犬に噛まれた人の立場から考えてくださいね。

動画の会話は次の内容になりますが、

🕵🏻‍♂️ Clouseau: Does your dog bite?
👴🏻 Hotel Clerk: No.
🕵🏻‍♂️ Clouseau: Nice doggie.
・・・(Clouseauが犬に噛まれる)・・・
🕵🏻‍♂️ Clouseau: I thought you said your dog did not bite!
👴🏻 Hotel Clerk: That is not my dog. ← これは良い会話だと言えないですよね。

のような会話になると思います。Follow the cooperative principleはこれを指していると思います。

4. Let the user continue the conversation

翻訳すると会話を続けられるようにしてね。の意味です。

例えば

👵🏻 Human A:日本で一番長い橋は?
🤖 A.I. Voice:日本で一番長い橋は千葉県木更津市にある東京湾アクアブリッジです。橋長は4,425mです。世界の一番長い橋はアメリカのポンチャートレイン湖コーズウェイです。

ここまではいい感じですね。問題はここで後続の質問がある場合…

👵🏻 Human A:ね。何州にある?
🤖 A.I. Voice: 何の場所を聞いていますが?質問にお答えできません。

こんな感じで、さっきまで話が噛み合わなくなると、AIまだまだだなーと思いますよね。前の話に続けて、後続の会話もできるようにすることがこのプリンシパルの意味です。

5. Be open to learning

このプリンシパルは、説明しなくても新入社員の時にみんな頑張ってたはず…

例えば

👨🏼‍🦰Human A:明日長男の誕生日だよ。僕の長男の名前知ってる?
🤖 A.I. Voice:いいえ。部長。まだ教えてもらっていません。
👨🏼‍🦰 Human A:ヒロシというんだよ。いい名前だろう。
🤖 A.I. Voice:ヒロシくんですね。覚えておきます。← ここ!

会話で得られた情報を覚えておくことは人間の会話でも同じですよね。
もし、上の会話が先輩後輩の会話だと、

👦🏻新入社員A:今日ヒロシくんの誕生日ですよね?おめでとうございます。
🧒🏼新入社員B:先輩の長男の名前なんでしたっけ? ← マイナス5ポイント

のような感じです。

6. Show what you know

「知ってるのを話して」の意味です。やはりサンプルがあると理解しやいので…

サンプルです。

🤦🏻‍♂️ Human A:ね。トイレットペーパーがないよ。
🤖 A.I. Voice:楽天市場で注文しましょうか? 2ヶ月前にABC製紙のBBB製品を楽天市場で購入しました。 ← ここ!
🤦🏻‍♂️ Human A:あれはよかったよね。買ってね。

何を買うかいちいち指示をするより、とても簡単に購入ができました!
ユーザーに必要な情報がある場合、提示することで便利さが増しますね。

7. Don’t pretend to be conversational when you’re not

これは翻訳が難しいですね。「無意味な会話を続けないこと」の解釈が適切かなと思います。

例えば

😢 Human A:部長に怒られたよ。
🤖 A.I. Voice:会社員は大変ですね。私に会社員は無理です。ではどうしましょうか?
😢 Human A:別に何もいらない。
🤖 A.I. Voice:チャイティーラテがストレスに良いです。ストレスを緩和する成分が入っているので Blah Blah…ではアマゾンでチャイティーラテを注文しますか?
😢 Human A:ほっといてくれ。

のようになんでもかんでも話題をふったり、無意味な会話を続けてる必要がないとのことだと思います。常識的に考えてもVUIの会話には確実な方向性が必要ですよね。

8. Multi-modal

これの翻訳も難しいですね。「音声以外の手段での入力を許容すること」になりますかね‥.

音声入力だけでいい例

🤖 A.I. Voice:こんばんは。今日の気分はどうですか。
ーここで返事(音声)を待つ、ボタンとか画面に表示しなくていい
👩🏻‍🦱 Human A:とてもいい!
🤖 A.I. Voice:よかったですね。← ここは別に待つ必要なし

音声以外に手段でも入力を許容する例(スマホの例)

📱 Smartphone A.I. Voice:部長から電話です。出ますか?
ーここで返事を待つ、選択ボタンも画面に表示する
👱‍♀️ Human A:いや。(音声で)


上の場合、音声でもいいですが、YES、NO、待機とかの選択しかので、各ボタンを画面上に表示してユーザーに選択してもらうことも可能だし、それがユーザーに便利な時もありますよね。

9. Putting it all together

「1−8までのプリンシパルを全部使って」というプリンシパルです。このプリンシパルは別に無くても良いのでは。。。

以上です!

いかがでしたか?
VUIのプリンシパルのはずなのに、VISUALのUIプリンシパルと共通してるところもある感じですよね。

では次回のブログも楽しみにしてください!

Selected Works

All content ©Seonguk Choi  2020