VUI

Voice User Interface Design에 대해서

Voice User Interface Design에 대해서

Voice User Interface Design에 대해서

Voice User Interface Design에 대해서

About the conference

안녕하세요! 프로덕트 디자이너 최성욱이라고 합니다.
2017년, San Fransisco에서 개최된 O’Reilly Design conference에 참가하고 왔습니다.
컨퍼런스는 UX디자이너를 위한 다양한 내용으로 구성되어있어서 개인적으로 매우 유익한 경험이였습니다.

Conference

세계 17개국에서 참가한 대규모 컨퍼런스였습니다.

특히「AI」,「VUI」,「Robot」등 핫한 키워드의 세션도 많아서 UX의 트렌드 변화를 실감할 수 있었습니다.
오늘은 아래 소개해 드릴 VUI (Voice User Interface)세션의 내용을 간단히 소개해 드리고자 합니다.

SESSION
SESSION

Designing conversational voice user interfaces

발표자는 Cathy Pearl.
에너지가 넘치는 멋진 여자분으로 VUI의 서적도 출판하신 VUI업계의 권위자이십니다. 참고로 세션 평가도 5점만점에 5점!

이러한 Cathy님이 VUI이 원칙으로 소개한 것이 아래의 9항목입니다. (분량이 좀 됩니다.)

  • Disambiguation
  • Go beyond context
  • Follow the cooperative principle
  • Let the user continue the conversation
  • Be open to learning
  • Show what you know
  • Don’t pretend to be conversational when you’re not
  • Multi-modal
  • Putting it all together

조금 많은 느낌이 있지만 하나씩 설명하도록 하겠습니다.

1. Disambiguation

한경 경제용어사전에 의하면 다음과 같은 뜻입니다.

중의성 해결(disambiguation)
“네이버의 통합검색 알고리즘에서 검색어의 중의적 의미가 존재할 경우 검색결과에 다양한 의미를 나열하기 위한 개념이다. 이는 기존 통합검색이 특정 키워드에 대한 중의적 의미가 포함될 경우 모든 답을 주려던 방식에서 탈피해, 지식백과, 뉴스 등 콘텐츠에서 설명하고 있는 내용이 키워드와 동일한지 판별해 선택적으로 노출하게 된다. ‘Entity Linking’ 기술을 활용하게 되며, 현재는 지식백과와 뉴스에 우선 적용됐으며, 향후 UGC로 영역을 확대할 예정이다.[네이버 지식백과] 중의성 해결 [disambiguation] (한경 경제용어사전)”

흠... 굳이 네이버의 사례로 한정할 필요는 없어보이고 이해가기가 조금 어려운 설명입니다.

간단한 예를 들어 말하자만 카페에서 다음과 같은 대화가 있을 경우,

👨🏼 손님:카페모카 주세요.
💁🏼‍♀️ 점원:아이스모카, 핫모카 어떤걸로 드릴까요?

점원은 애매함(중의성)을 해결하기 위해 질문을 하였습니다. 이것이 Disambiguation의 현실적인 사례가 아닐까 생각합니다.

2. Go beyond context

직역하자면 「문맥을 넘어서」입니다만... 왠지 애매함을 해결하고 싶은 느낌이 듭니다...

이것은 사전적인 의미로 해석하기보다, 말하는 사람의 의도를 파악하는 것을 의미한다고 생각합니다.

예를 들어 집근처에 「똘이 한정식」이라고 하는 식당이 있다고 가정하고 영업시간을 물어볼 경우

👦🏻 Human A:똘이 몇시까지 하지?
🤖 A.I. Voice똘이님의 일정은 알 수 없습니다.

이와 같은 문답이라면, 역시 AI는 아직 멀었어 라고 생각될 것입니다.
똘이가 사람이름이 아니라 한정식집이라는 것을 아는 사람과의 대화라면,

👦🏻 Human A:똘이 몇시까지 하지?
👩🏽‍🦰 Human B:밤 12시까지해.

이와 같은 대화가 성립할 것입니다. Go beyond context는 이러한 문맥을 이해하는 대화를 의미한다고 생각합니다.

3. Follow the cooperative principle

이것은, 폴 그라이스라는 언어학자의 "대화격률을 따를 것" 이라는 의미입니다.

참고로 대화격률은, 자연스러운 대화가 이루어질 수 있도록 지켜져야 하는 다음의 네 가지 대전제입니다.

  • 질의 격률: 진실을 말하라
  • 양의 격률: 정보를 제공하라
  • 관련성의 격률: 관련성 있게 말하라
  • 방법의 격률: 명료하게 말하라

역시 이 설명만으로는 알기 어려운 느낌입니다... 그러면 샘플 동영상을 참고로 설명하도록 하겠습니다.

개에 물린사람의 입장에서 생각해보시기 바랍니다.

동영상에 나오는 대화내용을 보면

🕵🏻‍♂️ Clouseau: Does your dog bite?
👴🏻 Hotel Clerk: No.
🕵🏻‍♂️ Clouseau: Nice doggie.
・・・(Clouseau가 개에 물리는 순간)・・・
🕵🏻‍♂️ Clouseau: I thought you said your dog did not bite!
👴🏻 Hotel Clerk: That is not my dog. ←이것은 자연스러운 대화라고 할 수 없겠지요.

이와 같은 내용이 되는데요 Go beyond context는 이처럼 자연스러운 대화에 대한 원칙이라고 할 수 있겠습니다.

4. Let the user continue the conversation

번역하자면 "대화를 이어 갈 수 있도록 할 것" 이라는 의미입니다.

예를 들어

👵🏻 Human A:한국에서 가장 긴 다리는?
🤖 A.I. Voice: 한국에서 가장 긴 다리는 영종도 인천국제공항과 인천송도 국제도시를 연결하는 18.4 km 길이의 인천 대교 입니다. 세계에서 가장 긴 다리는  홍콩과 마카오, 광둥성 주하이를 잇는 전체 길이 55km의 강주아오 대교입니다.

여기 까지는 위화감없이 자연스럽습니다만 문제는 다음 질문이 이어질 경우...

👵🏻 Human A:우와 길다. 그런데 건너갈 때 여권이 필요하나?
🤖 A.I. Voice:어디를 건너는지  모르겠습니다. 대답할 수 없습니다.

이렇게 대화가 이어지지 않으면 역시 AI는 아직 멀었어... 라고 생각하실 것입니다. 앞의 대화 내용을 이어가도록 하는 것이 이 원칙의 추구하는 내용이 되리라 봅니다.

5. Be open to learning

이 원칙은 굳이 설명하지 않더라도 많은 분들은 신입사원이나 신입생 시절 경험했을 터...

예를 들어

👨🏼‍🦰Human A:내일 우리 큰아들 생일이야. 큰아들 이름 알고있나?
🤖 A.I. Voice:아니오. 부장님. 아직 안 알려주셨습니다.
👨🏼‍🦰 Human A:철수라고 해. 참 좋은 이름이지.
🤖 A.I. Voice:철수이군요. 잘 외어놓겠습니다. ←이부분!

대화에서 얻은 정보를 기억해 두는 것은 인간의 대화에서도 같다고 할 수 있겠습니다.
만약 위의 대화를 후배사원 두명의 경우로 생각해 보면,

👦🏻후배사원A:부장님~ 오늘 아드님 철수생일이죠? 여기 축하선물 입니다.
🧒🏼후배사원B:어?, 부장님 아들 이름 뭐라고 했죠? ←마이너스 5점

이런 느낌이겠죠.

6. Show what you know

「알고 있는 것을 보여줄 것」이라는 의미인데요. 역시 예를 들어 설명하는 것이 좋아보이네요..

예)

🤦🏻‍♂️ Human A:어랏. 화장실 휴지가 떨어졌어.
🤖 A.I. Voice:AAA쇼핑몰에서 구입할까요? 2달전에 한국제지 양면롤 12개들이를 AAA쇼핑몰에서 구입하였습니다. ← 이부분!
🤦🏻‍♂️ Human A:아 그거 괜찮았어. 구입해.

뭐를 살지 일일히 지시하기 보다 아주 간단하게 구입이 가능한 상황이였습니다. 유저에게 필요한 정보가 있다면 정보를 제시하는 편이 편리한 경우가 많겠죠.

7. Don’t pretend to be conversational when you’re not

이 원칙은 번역이 좀 어려운데「무의미한 대화를 계속하지 말 것」으로 해석하는 것이 적절해 보입니다.

에를 들어

😢 Human A:부장님한테 엄청 깨졌어.
🤖 A.I. Voice:회사원도 많이 힘들지요. 전 정말 회사원은 못할 것같아요. 그럼 뭐를 할까요?
😢 Human A:아무것도 필요없어.
🤖 A.I. Voice:챠이티라테가 스트레스에 좋다고 합니다. 스트레스를 완하해주는 성분이 들어있어서 Blah Blah…그럼 아마존에서 챠이티라테 구입할까요?
😢 Human A:좀 가만히 놔둬.

이렇게 유저에게 두서없이 필요없는 말을 거는 것은 무의미한 대화라고 볼 수 있겠습니다. 상식적으로 생각해도 VUI의 대화에는 확실한 방향성이 필요하겠죠.

8. Multi-modal

이것도 번역이 좀 어려운데... 풀이 하자면「음성 이외의 수단을 이용한 입력을 허용할 것」이 적절해 보입니다.

음성입력만으로 충분한 예

🤖 A.I. Voice:안녕하세요. 오늘 기분어떠세요?
ー여기서 음성대답을 기다림. 입력버튼의 표시는 불필요
👩🏻‍🦱 Human A:아주 좋아!
🤖 A.I. Voice:잘 됐네요!

음성이외의 입력을 허용하는 예 (스마트폰의 예)

📱 Smartphone A.I. Voice:영희님으로부터의 전화입니다. 받으실래요?
ー여기서 대답을 기다림、선택 버튼도 화면상에 표시
👱‍♀️ Human A:흠. 아니야 안받아.


스마트폰의 경우 음성으로 지시를 해도 문제없지만 YES, NO, 대기하기 정도의 선택밖에 안되기에 각 버튼을 화면상에 표시하는것이 가능하고 그것이 유저에게 더욱 편리한 경우도 생각해 볼 수 있겠네요.

9. Putting it all together

「1-8의 원칙을 전부 사용할 것」이라는 원칙입니다. 이 원칙은 굳이 없어도...

이상입니다! 어떠셨나요?

조금은 낯설은 VUI의 원칙이였지만, VISUAL의 UI원칙과도 공통점이 많다고 느끼지 않으셨나요?

그럼 다음 블로그도 기대해 주세요!

Selected Works

All content ©Seonguk Choi  2020