トップへ

『Google Pixel 4』最大の驚きは、優れた録音・文字起こし機能?

2019年10月24日 08:01  リアルサウンド

リアルサウンド

写真

 Googleは、米国ニューヨークで10月15日(日本時間10月16日)に、新製品の発表イベント「Made by Google ’19」を開催し、主力のスマートフォン新機種「Pixel 4・Pixel 4 XL」を発表したが、その新機能の一つである文字起こしアプリの開発秘話が明らかになった。


(参考:Pixel 4/4L、海外メディアの反応は? カメラ性能はiPhone 11 Proと互角も……


・録音や転写を端末内で完結させるのは利点あり、難易度の高い開発を間に合わせる
 『CNN』は「Google Pixel最大のサプライズは、転写アプリだ」と報じた(参考:https://edition.cnn.com/2019/10/16/tech/google-pixel-recorder-ai-transcribe-app/index.html)。


 ローンチイベントでGoogle Pixel4は主役の座を獲得したが、AIで強化された録音・転写アプリは、おそらく最大の驚きだった。


 レコーダーは、会議、音楽、講義などを記録するためのものだ。リアルタイムで認識して書き起こし、音楽や拍手などのノイズを識別できる。また録音から特定の単語を検索できる。


 レコーダーは、新しいPixelに内蔵されており、この最新のAndroidアプリの機能は、以前のPixelモデルにも展開される。


 かなりシンプルなアプリのように思えるかもしれないが、レコーダーのプロダクトマネージャーであるシェリー・リン氏は「携帯のバッテリーを消耗することなくスピーディな文字起こしを行うのは簡単ではない」と語っている。Googleは、通常リモートサーバーにある多くのAIをハンドセットに詰め込む方法を模索する必要があった。


 リン氏が「正直なところ、始めた時は、出荷できるか分からなかった」と語るように、録音アプリは数多あるが、通常、単に録音する以上のことは、インターネットに接続する必要がある。リン氏によると、レコーダーの全ての操作を端末内で完結させるメリットは2つあり、ハンドセットに音声や関連テキストが留まっている限り、ユーザーのプライバシーを保護できる。また、リモートサーバーと行き来せずに、スピーチをより迅速に書き起こすことも可能だという。


 このアプリはGoogleがユーザーの録音を聞くことはないという。リン氏によると、アプリはデフォルトで全ての録音と転写を携帯内に保存し、データは標準のAndroidデバイス暗号化の対象となる。Google DriveやGmail等のGoogleプロダクトにエクスポートしない限り、Googleはそのデータを見ることができないそうだ。


・「巨大なAI内蔵によるバッテリー消耗」「Google Playには重すぎる」という課題を克服
 しかしアプリを携帯電話で使用できるようにするのは困難を極めた。その理由は、メイン・プロセッサーをフル稼働させ、バッテリーを使い果たしてしまう複数のAIに依存していたからだ。これらには、転写用AIモデル、検索で機能するもの、句読点を挿入するもの、音声以外の音を分類するものが含まれる。


 リン氏は、チームが3月に本格的にアプリ開発を始めた時、最大のAIである転写モデルが携帯のバッテリーを30分もしないうちに使い果たしたことを明かした。


 初期は、このソフトウェアはスマホをフリーズさせ、オンライン・アプリストアであるGoogle Playで提供するには大き過ぎた。アプリのAIを小さくするために、転写モデルをどうにかスリム化し、長時間のスピーチをキャプチャできるようにトレーニングしたという。


 この試行錯誤の甲斐あり、Pixel 4に搭載されたGoogleのレコーダーアプリは、スマートフォン内のAIを使用して、音声録音から転写することができるようになった。


・今後の更なる進化目指す!「自動で話し手を区別」
 レコーダーチームが現在取り組んでいることの一つは、録音に複数の声がある場合に、誰が話しているかを把握することだ。現在アプリは、全ての音声を1人の人物が話しているかのように記録する。リン氏が「これ(声の区別)は、人間にとっては非常に簡単ですが、コンピュータシステムにとっては、至難の業です」と話すように、現在は転写されたスピーチを話し手によって区別する方法を検証中だ。


 Pixel 4は、89,980円で10月24日に発売される。iPhone 11モデルが74,800円のため、価格では少々上回る。しかし、音声・文字起こし機能が必要な人にとっては、Pixel 4を選ぶ一つの理由になるかもしれない。


(Nagata Tombo)