クラウドを用いた常にアップデート型のサービスが世に普及することで音声認識サービスの道が大きく開けた
SiriやAlexaをはじめとする音声認識の技術は、今やデバイスに搭載されている当たり前の機能となっています。
しかし、音声を用いたユーザーインターフェースがここまで高性能になり、かつ世間に受け入れられるようになったのは最近のことではないでしょうか。
近年の音声認識アプリケーションを観察すると、どれも共通している点があります。
それは「クラウドを用いて常にアップデートされている」という点です。
さらにそこにAI技術が搭載されると、自動的に情報が取捨選択されるようになり、より洗練されたサービスが提供できるようになります。
今回はAI技術が搭載された最新の音声認識サービスのマーケットをご紹介します。
玩具業界にも取り入れられた音声認識エンジン
クラウドに繋がった状態で起動する音声認識端末は、何もスマートフォンやスマートスピーカーなど実生活のツールだけに限りません。
その技術はなんと玩具界にも取り入れられ、音声認識エンジンをクラウド上に置き、自然会話を可能にする玩具は枚挙に暇がありません。
その先駆けといえるのが、2015年10月に発売開始されたロボット「OHaNAS(オハナス)」(株式会社トミー)です。

玩具に限った話をすると、近年の玩具業界を牽引するひとつの分野が知育玩具だそうですが、この知育玩具にも音声認識やAIを搭載しているケースが少なくありません。
例えば2018年3月に発売開始された英会話ロボット「Charpy(以下、チャーピー)」(CAI MEDIA CO.,LTD.)は可愛らしいぬいぐるみの見た目をしたロボットですが、英会話初心者からTOEIC800点以上の上級レベルまで対応しています。

このチャーピーはWi-Fi接続を通してクラウドモードに切り替えることができ、約40,000フレーズまで勉強できる仕様となっています。
肝心な音声認識はというと、英語の発音がネイティブのようにできなくても、英語圏で通じるレベルなら認識できるといういい度合いに設定されており、発音矯正の機能も担っていると考えられます。
これらクラウド型の音声認識サービスやそれを用いた端末は、今後も種類を増やし品質を向上させながら発展していくと考えます。
なぜなら、音声認識の技術向上にはできる限り多くの音声データが必要だが、そのデータを手っ取り早く集め、そして管理してくれるのがクラウドコンピューティングだからです。
言い換えれば、ハイクオリティの音声認識を追究するためにはクラウドとの連携が必須であり、ネットに繋がない端末完結型の音声認識には品質向上の限界が見えていると解釈することもできます。
5Gの台頭がもたらすもの

音声認識を推し進める要因のひとつに5Gの台頭が挙げられます。
5Gとは「高速大容量」「高信頼・低遅延通信」「多数同時接続」を可能にする最新の通信規格のことで、あらゆる業界で注目されています。
もちろん音声認識の技術向上にも一役買うと考えられ、例えば入力された音声データを今まで以上に速いスピードでクラウドに送り届けることができ、そしてクラウド上で選び出された応答を今まで以上に速いスピードで端末に送り返すことができます。
これは結果的にタイムラグのカットに繋がっていると考えられます。
さて、ここで5Gとクラウドサービスの密接な関係について述べておきます。
近年、クラウドを用いたソフトウェアを提供する企業(いわゆるSaaS企業)は増える一方であり、彼らのサービスが5Gの台頭によりさらに便利になることは容易に想像できます。
例えば、昨今の新型コロナウィルスの影響でテレワークをする人口が増え、Web会議を経験した人は多いと思います。
SkypeやZoom、Google Meetなど、SaaS企業が提供するWeb会議ツールの選択肢はたくさんありますが、そのどれを用いても多少の不便があったのではないでしょうか。
例えば画面に映る相手の動きがカクカクしたり、止まってしまったり、あるいは音声が少し遅れて聞こえたり、途切れ途切れになってしまったりするケースが頻繁に見受けられます。
そういった不便さを5Gは一掃してくれるポテンシャルを持っています。
また別のケースを挙げてみます。
当社では仕事の一環で翻訳支援ツール(CATツール)を利用していますが、現在は老舗企業が提供しているパッケージ版ソフトウェアに加え、別のSaaS企業が開発したクラウド版ソフトウェアを併用しています。
パッケージ版もクラウド版もそれそれメリット・デメリットがあるので一概にどちらがいいとは言えませんが、複数人が同時に同一のデータを編集でき、かつそれを自動的に反映することができるといった点で、クラウド版に心が惹かれているのが正直なところです。
しかし、このクラウド版も変更箇所を反映する時や、過去の翻訳メモリを引っ張り出す時に若干のタイムラグを感じるシーンがしばしばあり、こういった問題を5Gに解決してほしいと密かに願っています。
5Gをめぐる世界の対応
ここまで話してきた5Gの話や、それに付随するクラウドサービスの話は、実は日本に限った話ではなく、世界規模の話題となっています。
しかし驚いたことに、5Gの対応には国の違いがあるようです。
5G領域で後れを取るドイツ
ドイツは「インダストリー4.0(Industrie 4.0)」というスローガンのもと、2011年から製造業のオートメーション化およびデータ化・コンピュータ化を目指していますが、なんと今回の5G対応に関しては世界に遅れをとっています。
一般でのサービスは既に開始されているものの、いわゆる「5G基地局」はいまだドイツ国内に設置されておらず、利用可能なエリアはごく一部の都市に限られています。
加えて、5G通信を提供できる通信キャリアはドイツテレコム(Deutsche Telekom AG)またはボーダフォン(Vodafone GmbH)と選択肢が少ないのもネックです。
ヨーロッパ全体を見てもドイツが遅れをとっている要因としては、2019年に勃発したファーウェイ(Huawei)をめぐる政治的な疑惑が第一に挙げられます。
同社製のスマートフォンやその他通信端末がスパイ行為に利用されているとの懸念をうけ、この度の5G通信導入にあたり、ファーウェイを排除する議論が巻き起こったのです。
結論を先に述べると、ドイツ政府は結局ファーウェイを排除することはなく、ドイツテレコムもボーダフォンもファーウェイの提供する5Gの基地局を使用する運びとなりました。
そもそもドイツテレコムに関してはLTE通信の頃からファーウェイを使用していたため、今さら排除しても意味がないという声もあがっています。
今回の5G導入にあたっても、結局はファーウェイの存在なしではコストやスピードの面でやっていけないという事実が既に目に見えていました。
ちなみに、5G通信を可能にするにはそれに対応した端末が必要とされますが、この度のドイツとファーウェイの提携にあたって、同社が開発・販売している5G対応端末も市場に並ぶこととなりました。
一方で日本国内の5G事情はというと、これまた本格始動できていないというのが現状です。
日本の主要通信キャリアであるNTTドコモ、KDDI、そしてソフトバンクは2020年3月下旬に満を持してサービスを開始したが、新型コロナウィルスの感染拡大と時期が重なってしまった不幸もあり、なかなか思うようにサービスを展開できていないようです。
5G対応端末の調達困難はもちろん、基地局の建設が延期になるほか、新しく予定していた5Gコンテンツの準備にも支障をきたしています。
先のドイツのような政治的な影響が日本では少ない分、新型コロナウィルスに負けずに、5Gの充実にも力を入れてほしいと願うばかりです。
世界に誇るポケトーク

5Gの導入とともに期待を寄せているのが、音声認識機能を搭載した通訳機「POCKETALK(以下、ポケトーク)」(ソースネクスト株式会社)です。
ポケトークは2017年12月に発売開始された手のひらサイズのAI通訳機で、これ1台があれば通訳者を間に入れずに自然な会話が可能になります。
音声認識を使った通訳機器やアプリケーションはGoogle翻訳をはじめ、いくつか存在するが、ポケトークはそのクオリティが他とは一線を画しています。
発売開始から間もない2018年の段階で実際に使用した経験がありますが、音声認識の品質の良さは当時から驚くものでした。
音声入力はネイティブのスピードのままでも、またわざとハッキリ発音しようとしなくても、その小さな機械はしっかりと正しく聞き取ってくれるのです。
おまけに音声入力後に生成される自動翻訳も極めて自然で、たとえ複雑な文章だったとしても全く違和感のない出来でした。
それもそのはず、ポケトークは翻訳・通訳に特化した専用端末であり、スマートフォン以上の性能のマイクとスピーカーを搭載しています。
そしてユーザーの発話履歴をクラウドで管理し常にアップデートすることで、翻訳の質は向上する一方なのです。
ところでこの通訳機は現在74言語に対応しており、最新の機器ではカメラも搭載しています。
たしかに海外では文字の読み方すら分からないといったケースに何度も出くわすので、そんな時にカメラをかざし、自動的に自分が読める言語に翻訳されたらとても便利です。
この機能は先の例でも挙げたGoogle翻訳にも既に備わっているが、どちらの品質が勝っているかは筆者もまだ比較検証できていないので、現在不明です。
気になる起動の仕方だが、発売当初はポケトークを手持ちのポケットWi-Fi等に接続する必要がありましたが、現在ではなんとポケトーク単体のみで世界中130か国のネット環境に繋がることができる仕様になっています。
背景は日本のIoTに強みのあるSIMベンダーのSoracomの格安SIMがグローバル対応となったことがあげられます。
通信料は最初の2年間は無料で、それ以降は¥5000/年となっており、とても良心的な価格設定となっている点も特筆すべきです。
ちなみにポケトークは世界的に評価されており、特に本体そのものだけで通信できる(通訳を起動できる)点が功を奏しているらしいです。
このポケトークを5Gの高速通信で利用できたら、いよいよ鬼に金棒といったところでしょう。
ポケトークを使った、タイムラグのない自然な多言語対話が実現する日も、そう遠くはないのかもしれないと思います。
まとめ
今回の記事では音声認識をテーマに、それを支えるクラウドサービス、そしてその土壌を今後さらにパワーアップさせる5Gについて考察しました。
コンピュータによる音声認識技術の開発は1900年代後半からずっと続けられてきましたが、その成果がここまでしっかりとした形となって浸透したのは、ほんの数年前からです。
品質向上のために必要不可欠な膨大なデータ(音声サンプル)がクラウドでスマートに管理され、さらに本記事ではほとんど言及していないですが、AI技術の参入により、集約されたビッグデータを効率よく活用できるようになったことが、音声認識の快進撃を裏で支えるエレメントになっていると考えます