コールセンター

AI音声認識システムを徹底比較！主要クラウドサービス4社の認識精度は？

公開日:2020/06/08 最終更新日:2025/01/29

最終更新日：2020年6月11日

このブログはコールセンター向けにAIを活用したソリューションを提供する、株式会社サイシードが作成しています。最新の事例や企業での活用方法を紹介していきますので、ぜひ参考にしてみてください！

こんにちは。
夏が来る前に身体を引き締めようと自宅筋トレを始めました。より自分を追い込むためにスマートスピーカーを活用しています。
「アレクサ、疲れた」と話しかけると「もう2セットやったら休みましょう」
「アレクサ、今夜の食事は？」と話しかけると「鶏むね肉です」
と答えるように英才教育しております。
今回は、私も活用している音声認識システムの概要と実際の性能をテストした結果を紹介します！
また、記事の最後ではコールセンターの効率化を検討する際に参考となる「sAI Voice Analyzer概要資料」をDLいただけますので、ぜひ最後までお付き合いくださいね！

スマートフォンのアプリやスマートスピーカーをはじめ、音声認識は広く一般利用できる場所まで広がっています。
議事録の文字起こしとして音声認識システムを利用したことがある方も多いと思いますが、実はコールセンター業務の効率化で非常に大きなポテンシャルを持っています。
本記事では、音声認識システムの概要から各システムの定量比較まで音声認識システムを検討する際に役立つ情報を紹介していきます。

音声認識技術の概要

音声認識技術とは、音声をコンピュータが解析をしてテキストに変換する技術です。
近年性能が進化しているAI（人工知能）の技術を音声認識システムにも活用することで、その認識精度が飛躍的に向上してきています。

iPhoneのSiriやAndroidのGoogleアシスタントなど、スマートフォンにも標準で音声認識ソフトがインストールされているため、馴染みのある方も多いのではないでしょうか。

そのほかにも、認識した音声を元に議事録を起こしたり、コンピュータに動作指示をしたり、店舗の予約受付を行うといった用途で使われています。スマートスピーカーも徐々に普及しており、自宅にお持ちという方もいらっしゃると思います。

音声認識システムには、音響モデルと言語モデルが活用されています。

・音響モデル
音響モデルとは、数千人/数時間分の音声を統計処理したものをベースとして、音声の波形から音声の最小単位である音素を特定します。

・言語モデル
言語モデルとは、大量の日本語テキストを統計処理したものをベースとして、ある単語や文字列が組み合わせとして出現する確率の高さを評価します。

比較対象となる4つのAI音声認識サービス

今回、比較対象としてピックアップしたのは以下の4つのシステムです。

・Google Cloud Speech-to-Text
・Watson Speech to Text
・Microsoft Speech Service
・Amazon Transcribe

４つのシステムは全てリアルタイムで音声をストリーミング処理することもできますが、今回は同じ音声ファイルで認識精度を比較するためにバッチ処理で、その性能を比較していきます。
また本来はオペレーターと顧客の会話が行われますが、実務上オペレーターは顧客の発言内容を復唱するため、オペレーター側のみの音声で比較します。

これらのシステムの簡単を紹介していきます。

Google Cloud Speech-to-Text

運営企業：Google
利用料金：60分までは無料、それ以降は15秒ごとに音声処理料金が発生

・特徴
Googleが提供する音声認識サービスです。APIが解放されており、Googleの機械学習技術を使用した精度の高い音声認識を利用することができます。

120の言語と方言を認識しており、日本語もサポートされています。リアルタイムで話す音声も事前に作成された録音データも、テキスト化することが可能です。

https://cloud.google.com/speech-to-text?hl=ja

Watson Speech to Text

運営企業：IBM
利用料金：1ヶ月500分までは無料、それ以降は月の利用量によって金額が発生

・特徴
IBMが提供するAIエンジンのWatsonを活用した音声認識サービスです。こちらもクラウド上でAPIが解放されており、幅広い言語に対応しています。

Watson Speech to Text では最初から多くの語彙を学習してありますが、特有の単語や言い方を追加学習することも可能です。

IBM Cloud のライト・アカウントを登録することで無料で Watson Speech to Text を利用することが可能です。

https://www.ibm.com/watson/jp-ja/developercloud/speech-to-text.html

Microsoft Speech Services

運営企業：Microsoft
利用料金：Freeプランで1 か月あたり 5 音声時間まで無料。それ以降は、Standardプランとなり、音声時間あたり ¥112となります。

Microsoftも音声認識のためのAPIを提供しています。他の製品同様、様々な音声データをリアルタイムにテキスト変換することが可能です。

Microsoftが展開するクラウドサービスAzureのサービスとして、無料で使えるFreeプランから提供されています。

https://azure.microsoft.com/ja-jp/services/cognitive-services/speech-services/

Amazon Transcribe

運営企業：Amazon
利用料金：最初の文字起こしリクエストから１２ヶ月間、１ヶ月あたり６０分の無料枠あり。それ以降は従量課金制で利用料が発生。

Amazonの提供する音声認識サービスで、APIが用意されています。こちらも他サービスと同様に、リアルタイムでの文字起こしや固有の用語を追加登録することが可能です。

Amazon Transcribe Medical という医療従事者向のAPIも用意されており、医療関連の専門用語を含む音声データでもテキストに変換することが可能です。

https://aws.amazon.com/jp/transcribe/

AI音声認識システムの認識精度の比較方法

では早速、クラウド型で展開していてwebからすぐに利用することができる4つの音声認識システムをピックアップして、認識精度の比較を行っていきたいと思います。

音声認識精度を検証するためのスクリプト

今回の検証では、コールセンターで扱うことが多い「通信販売業」「金融・保険業界」「医療業界」の３つの業界を例に、実際にコールセンターでオペレーターが話しそうな検証用のスクリプトを元データとして準備しました。
各業界のスクリプトは以下のとおりです。

通信販売業のトークスクリプト

お電話ありがとうございます、カスタマーサポートセンターです。
ご不便おかけしてしまい大変申し訳ございません。ご購入いただいた商品名をお伺いしてもよろしいでしょうか。
コードレスクリーナー、SS-21Cのお色がブラックですね。
詳しい購入時期や故障した際の状況をお聞きしてもよろしいでしょうか？
ご購入日が3か月前の2月4日で、赤いランプが点滅して動かなくなったんですね。その状況ですと、掃除機内部のモーターが故障している可能性がございます。
商品はどちらでご購入なさいましたか？お電話でのご購入ですね。
製品の保証書はお持ちでしょうか？
そうしましたら一年間の修理保証が付属していますので、修理工場への送料のみご負担頂けましたら無料で修理させていただきます。
送付先の住所をお伝えいたしますので、メモのご準備をしていただいてよろしいでしょうか？
お電話ありがとうございました。

金融・保険業界のトークスクリプト

お電話ありがとうございます、カスタマーサポートセンターです。
お電話ありがとうございます、キャッシュカードのご利用再開についてですね。
店舗とインターネット、どちらでお手続きなさいますか？
かしこまりました、店舗でのお手続きですね。
発見されたキャッシュカード、通帳、印鑑、本人確認書類をご用意の上、口座を開設されたお取り扱い店舗、またはお近くの店舗にてお手続きが可能です。
なお、お手続きをされる前にカードを利用されてしまいますとご利用の再開が出来なくなってしまいますので、その点ご注意ください。
別途委任状にご記入頂き、先ほどの書類と一緒にご持参いただけましたらご家族様でもお手続きが可能になります。
委任状は店舗、またはネット上からご入手いただけます。
ご利用はお手続き頂いたその日からご利用いただけるようになります。

医療業界のトークスクリプト

お電話ありがとうございます、夜間救急相談センターです。
お子さんの発熱ですね、今おいくつですか？
5歳の男の子ですね、熱が出たのはいつ頃からですか？
19時頃で現在は38.5℃ですね、発熱以外に他に何か症状はございますか？
頭痛と咳が少しですね。時期的にインフルエンザの可能性がありますが、発熱から半日ほどたってから検査を行わないと陽性反応が出ないため、明日の朝一番に受診していただくのが良いかと思います。水分はきちんと取れていますか？
そうしましたら解熱剤は使用せずに、水分をたくさん補給させてあげてください。
またインフルエンザの可能性がありますので、他のご家族が感染しないように加湿したお部屋に1人で寝かせてあげるようにしてください。症状が急変した場合にはまたすぐにお電話ください。お大事になさってください。

音声認識結果の音声サンプル

20代～60代の男女10名に今回は各業界のスクリプトを読み上げてもらいました。オペレーターを意識して少しゆっくり読み上げてもらっています。

※テーブル内の各リンクをクリックすると実際の音声が再生されます。

通販業界	金融業界	医療業界
01_通販20代女性	01_金融20代女性	01_医療20代女性
02_通販20代女性	02_金融20代女性	02_医療20代女性
03_通販20代男性	03_金融20代男性	03_医療20代男性
04_通販20代男性	04_金融20代男性	04_医療20代男性
05_通販30代女性	05_金融30代女性	05_医療30代女性
06_通販30代女性	06_金融30代女性	06_医療30代女性
07_通販30代女性	07_金融30代女性	07_医療30代女性
08_通販40代男性	08_金融40代男性	08_医療40代男性
09_通販50代女性	09_金融50代女性	09_医療50代女性
10_通販60代男性	10_金融60代男性	10_医療60代男性

音声認識精度の評価手法「BLEU」

今回、４つのシステムの音声認識精度を比較するにあたって、２つの文章の一致度を測る指標であるBLEU（Bilingual Evaluation Understudy）という手法を使いました。
・あらかじめ準備したトークスクリプトのテキスト
・トークスクリプトを読み上げた音声を認識した結果のテキスト
の一致度を、BLEUを用いて測る事で、各システムの音声認識精度を評価する事ができます。

（補足）音声認識精度の評価手法「BLEU」のロジック

BLEUを用いて文章の一致度を測る方法の考え方について具体的に説明します。
少し込み入った話になるので、興味がある方のみ読んでみてください。

例えば、「私は東京に住んでいる」と「私は東京が好き」という２つの文章があったとします。これらの文章を、それぞれ2文字ずつに区切っていきます。１つ目の文章は「’私は’、’は東’、’東京’、’京に’、’に住’、’住ん’、’んで’、’でい’、’いる’」、２つ目の文章は「’私は’、’は東’、’東京’、’京が’、’が好’、’好き’」になります。

この「私は」などの２文字の組み合わせを「bi-gram」と呼びます。例えば、２つの文章のbi-gramがどれくらい共通しているかで、２つの文章の一致度を測ることができます（今回の例の場合、「私は」と「は東」と「東京」が共通していますね！）。このような、文章をいくつかの文字に区切って２つの文章の一致度を測る考え方を応用した手法の１つがBLEUです。

「２つの文章を、単純に１文字ずつ比較したり、単語単位で比較するほうが簡単では？」と思う方もいるかもしれません。しかし、１文字ずつ比較する方法（Character Error Rate）は、同じ文字・単語がよく使われる文章の場合、人間の目から見て全く異なる文章でも、高い一致度が出てしまうリスクがあります。また、単語単位で比較する方法（Words Error Rate）は、文章をわざわざ単語単位に分割するという手間が生じます。
上記の理由から、今回は比較的精度が高く実装が簡単なBLEUという手法を使っています。
それでは、各システムの比較結果を見ていきましょう。

（補足）公正に結果を評価するための加工作業

実は正しく評価するために、トークスクリプトと認識結果のテキストデータに2つのルールで加工を多なっています。

「、。？」のような言葉で発音しない記号は消す
音声認識システムでも「？、。」などの記号は認識しますが、正答率を計算する上で重要ではないと考え、一律に削除しています。
連文になっているのを一行ずつにする。
同様に音声認識システムでは改行を認識したりしなかったりしますが、これも重要ではないと考え、1文ずつに分けた上で評価しています。

AI音声認識システムの精度比較結果

では、前提条件の説明が終わったところで、各システムの認識精度の結果を紹介していきます。

通信販売業の音声認識精度

全体的に80％の認識精度は超えていますが、「Watson Speech to Text」と「Google Speech to Text」は90%を超えていて、かなり精度が高いです。

※実際の認識結果は0.8641776316というように小数点以下10位まで算出されますが、見にくいのでわかりやすく小数点第1位のパーセント表示にしております。

金融・保険業界の音声認識精度

こちらも全体的に80％の認識精度は超えていますが、先ほどの通信販売業に比べてると「Watson Speech to Text」は少し精度が落ちた印象です。

医療業界の音声認識精度

「陽性反応」や「解熱剤」等の医療業界でしか使われないような用語もありましたが、こちらも全体的に精度が高いといえます。「Google Speech to Text」はすべて90％を超える結果となりました。

4つのサービスの音声認識精度の結果まとめ

結果として、各サービスとも85％程度以上とかなり高い認識精度があり、特にGoogle Speech to Textが3つの業界全てで認識精度が90％を超えていることが確認できました。

その他のAI音声認識システム

今回比較できなかった、その他の音声認識システムについても簡単に紹介していきます。

Hmcomm

運営企業：Hmcomm
利用料金：問い合わせ

Hmcommは、国立研究開発法人産業技術総合研究所の技術移転ベンチャー企業で、音声認識処理、自然言語解析処理において高い技術力があります

Hmcommの提供するVシリーズは、クライド型の音声認識サービス V Box やコールセンター向けの V Contact、業務日報や報告書を音声で対応できるV CRMといったプロダクトを展開しています。

https://hmcom.co.jp/product/

NTT SpeechRec

運営企業：NTTテクノクロス
利用料金：問い合わせ

SpeechRec は、NTT研究所が開発したVoiceRexという超高速・高精度の音声認識エンジンを搭載した音声認識サービスです。

オンプレミスで自社サーバーに設置する「SpeechRec Server」と短期間で導入でき、低コストで運用が開始できる「SpeechRec クラウドサービス」の２つのパターンで提供されています。

http://www.speechrec.jp/

Nuance

運営企業：Nuance
利用料金：問い合わせ

Nuance Recognizerは、人と話しているような感覚での会話を提供できるコンタクトセンター向けの音声認識ソリューションです。音声認識サービスによって、通話を自動化することで業務効率化を進めることができます。

Dragon NaturallySpeakingは、Nuanceの提供するコンピューター向けの音声認識のソフトウェアです。音声のテキスト化だけではなく、コンピュータを制御して、アプリケーションを操作することも可能です。

https://www.nuance.com/ja-jp/omni-channel-customer-engagement/voice-and-ivr/automatic-speech-recognition.html

AmiVoice

運営企業：アドバンスト・メディア
利用料金：音声認識APIは毎月60分無料で利用可能。汎用エンジンに加え、領域特化型エンジンもあり、分野ごとに料金体系が異なる

AmiVoiceは国内でもシェアが高い国産の音声認識サービスです。AmiVoiceはアドバンスト・メディアが展開する音声認識サービスのブランド名で、コールセンター向けであればAmiVoice® Communication Suiteといったように用途に特化して多数のプロダクトを展開しています。

国内ユーザーを意識した設計になっており、ソフトウェアとしての提供だけではなく、クラウド型でAPI提供を行うAmiVoice 音声認識APIといった製品もあります。

https://acp.amivoice.com/main/?products=top07

まとめ

本記事では、4つの音声認識システムの認識精度を実際に検証・比較しました。
実際の業務で利用する場合は「話すスピードが早い」「滑舌が悪い」「雑音が入る」など前提が異なるので、実際の認識精度はもう少し低めに想定しておくとよいでしょう。
また、今回比較できなかった他の音声認識システムについても同じ考え方で評価できるので、導入検討時には参考にしてみてください。

当社では、Google Speech to Textと自社のAIエンジンを組み合わせることで、認識ミスを補える音声認識システム「sAI Phone」を提供しています。
これにより、コールセンターのオペレーターがキーボードで検索することなく、迅速に適切な回答ができるようになります。

オペレーターがキーボードの入力無しで、FAQ検索と後処理ができる音声認識システム『sAI Phone』概要資料をダウンロードする