大手電機メーカーである東芝のデジタルソリューションズ部門は、2019年6月24日、同社が培ってきた音声合成サービスを法人向けにも本格的に展開すると発表いたしました。この技術を活用することで、あらかじめ作成した合成音声を使い、入力されたテキストデータを自然な声で再生することが可能になります。特に、スマートフォン用アプリケーションを通じた合成音声の利用も想定されており、人手不足が深刻化しているコールセンター業務をはじめ、SNS(ソーシャル・ネットワーキング・サービス)やスマートスピーカーといった様々な領域での新しい活用方法を積極的に開拓していく方針です。
今回、法人向けに提供されるのは、東芝が独自に開発した「音声収集・蓄積・合成技術プラットフォーム」です。このプラットフォームは、企業がオリジナルの音声ファイルを容易に作成できる「エディター」と、チャットボットのように顧客との対話を音声で実現する「ウェブAPI」の二つの主要な機能で構成されています。「ウェブAPI」とは、アプリケーション・プログラミング・インターフェースの略で、あるソフトウェアの機能やデータを外部から利用するための仕組みのことです。顧客企業はこのサービスを、月額料金や基本料などを支払うことで利用できるビジネスモデルとなっています。
この取り組みは、独自の音声コンテンツを作成・活用したい企業や、チャットやロボットを活用して顧客対応を行いたい企業からの大きな需要を見込んでいます。具体的には、コールセンターにかかってくる電話への自動応対や、実店舗での接客対応への活用が期待されています。すでに、人工知能(AI)スタートアップのモビルス社が手掛けるAIアシスタントに、東芝の音声合成技術が採用されるなど、その実用化は着実に進んでいる状況です。技術の進歩に伴い、インターネット上のSNSでは「まるで本物の声のようだ」「企業のイメージアップにつながりそう」といったポジティブな反響が寄せられています。
長年の研究が生んだ「声の分身」技術
東芝は、40年以上にわたり音声合成技術の研究を続けてきた実績があり、話すスピードや音量、さらには感情や抑揚といった細かい要素まで調整できる高いノウハウを蓄積しています。この高度な技術は、これまでにカーナビゲーションシステムや駅構内でのアナウンスといった分野で非常に高い市場占有率(シェア)を誇ってきました。その確かな技術力を背景に、一般消費者向けには、自分の声を合成できるスマートフォンアプリ「コエステーション」を展開しており、すでに4万人を超えるユーザーが利用しています。
「コエステーション」では、ユーザーが提示された10個の例文を読み上げるだけで、そのユーザーの音声の特徴を捉えた「分身」となる合成音声を作成できます。読み上げる文章の数が増えるほど、合成される声の自然さや精度が向上していく仕組みです。さらに、このアプリの特筆すべき点として、相手の許可を得ることができれば、家族や友人など自分以外の人の声でテキストを読み上げさせることも可能な点が挙げられるでしょう。今回法人向けにも、このユニークな「声の分身」を活用する仕組みを提供していく予定です。
具体的な活用方法としては、SNSでのメッセージのやり取りを合成音声が読み上げる機能や、スマートスピーカーからの応答に活用する場面が想定されています。すでにエンターテインメント、医療・介護、教育、流通といった幅広い業界から、200件以上の問い合わせ(引き合い)が寄せられており、企業からの関心の高さがうかがえます。音声認識・合成技術の市場規模は、2025年には2,000億ドル規模に達するとの予測もあり、今後さらなる成長が見込まれています。一方で、技術の進化は、合成音声の悪用や乱用を防ぐための仕組みづくりを必要とするという、新たな課題も生み出しています。
東芝は、独自の技術力と長年の実績を強みとして、企業から対価を得るという確固たるビジネスモデルの確立を目指しています。同様の技術を持つ競合他社は存在しますが、一般消費者向けにもサービスを展開している企業は稀であり、この点が競合他社との大きな差別化要因になると分析しています。また、日本語だけでなく、英語や中国語などの多言語にも対応できるという強力なアドバンテージを活かし、2~3年以内にはグローバルな事業展開も推進していく構えです。東芝の革新的な音声合成技術は、今後、私たちの生活やビジネスのあり方を大きく変えていく可能性を秘めていると言えるでしょう。
コメント