音声認識UI/UX Googleの会話UIガイドラインのざっくりまとめ
音声認識デバイスが増えると、音声UI(=音声を介したヒューマン・マシンインタフェース)の設計機会も増えていくことになるのですが、そこはGoogle先生が、涼しい顔でデザインガイドラインを作って公開してくれていました。
The Conversational UI and Why It Matters | Actions on Google | Google Developers
先生によると、「会話」というものは次のシンプルな6つのステップに分解できるそうです。
The 6 steps of conversation
The basic mechanics of a conversation can be broken down into six simple steps:
- Open a channel to set up common ground — Speaker A sends a message to speaker B
- Commit to engage — B commits to the conversation with A
- Construct meaning — A and B connect through a set of structured ideas and (often unspoken) contexts
- Evolve – A or B (or both) learned or gain something based on their interaction
- Converge on agreement — If everything works, A and B have reached an agreement; if not, both may move to repair the situation
- Act or interact — Functional action may follow as a result of the conversation, or some unconscious goal may be reached (being less lonely counts)
会話が成立するには、キャッチボールをして合意が形成される必要があるのですが、そのためには、そもそもお互いに会話をする意思があることの確認や、これから一緒に合意を形成していくことについて合意をする必要があるということですね。
音声認識UIデザインのためのステップ
上記のような会話の構造分析に基づいて、Google先生は以下のような音声認識UIのデザインステップを推奨しています。
1. Pick the right use cases
正しい利用シーンを選択すること。例えばフードの注文やタクシーのピックアップなど、短時間のやりとりでユーザーに大きなベネフィットをもたらすようなやりとり。また、音声によるコミュニケーションが(その他の手段より)優れているようなケース。料理中や、運転中など。
いずれにしても、ユーザーはそのコミュニケーション手段を取ることで、そうではない方法よりも、時間を節約できたりより良い結果を得られるのでなければ、音声認識を利用する意味がないことに注目しなければならない。
2. Create a persona
ペルソナの作成。ユーザーのペルソナではなく、音声認識エンジンのペルソナです。声のトーン(ブランドのTone of Voiceを文字通り作るということw)や、年齢性別などのデモグラ属性、回答の傾向のような心理属性まで。
3. Write dialogs
ユーザーにとってもっとも好ましい「幸せな会話(Happy Path)」をシナリオ化し、あとは想定外のケースへの対応や、会話の終了方法を設定していきます。
4. Test it out
5. Build and iterate
あとはプロトタイピング→テスト→修正の繰り返しです。
チェックシート
完成したUI(シナリオ)をチェックするための項目も用意されています。
Design Checklist | Actions on Google | Google Developers
音声認識UIはどこへ向かうのか?(向かいそうか?)
ガイドラインにある通りで、音声UIにも得意な領域、不得意な領域があります。Siriではよくありますが、音声でコミュニケーションを開始して、結局いつものキーボード入力に戻ってしまうと、余計な手間が増えてしまっただけ。
満足度の高い音声UIを提供するには、「音声であることの必然性」を吟味し、「インタラクションの完結までのスムーズなシナリオ作成」が必須だと思います。
それらが十分なレベルに達している前提で、ペルソナも重要な差別化要素だと思います。音声UIエンジンの挙動が人間に近ければ近いほど、ユーザーはそこに人間性を求めるわけなので、話しやすさ、感じのよさ、キャラクターといった「Tone of Voice」の重要度も増していくと思います。
音声UIのレベルが低いうちは、まだ赤ちゃんを相手にしているとユーザーが思ってくれるはずですが、UIとしてのキャズムを超えるタイミングで、一定のサービスレベルを同時に超えていく必要があるはず。
あと、Googleのカンファレンスで聞いたのですが、音声UIを使う時はアプリインストールしたり起動するという概念がなく、ユーザーによる発話でコミュニケーションがスタートするそうです。
これはユーザーにとっては使い勝手が良いことですが、事業会社にとっては、クロスセルのためのプロモーションを行いにくいということにもなります。
そうすると、音声UIを導入する企業側のメリットは少なくなるため、音声UIによってユーザー体験にイノベーションが起きて目に見える差別化や収益増が見込める企業以外の導入は、あまり進まないかもしれないです。
Sketch用のUIKitまであるので、何かやってみたいです。肝心のAIがないけど。