概要

おは朝パーク2025にて出展した「おはパスポート」。

その中で、私はAIアナウンサーの開発を担当しました！

この記事では、AIアナウンサーのシステムの仕組みや開発における工夫点、イベント当日の様子などをご紹介します。

AIアナウンサーとは

AIアナウンサーは「おはパスポート」を使った体験型コンテンツとなっています。

おは朝パークの会場に設置された特別なボックスにおはパスポートを置くと、「おはよう朝日です」の番組MCの誰かが、おはパスポートに書かれた名前と熱い一言メッセージを呼びかけてくれます。

file1

蓋がカード型に切り抜かれたボックスの中に、タブレットとライトが入っています。

ボックスの上に置かれたおはパスポートを、タブレットのカメラが下から読み取る仕組みです。

file2

具体的には以下の流れでシステムが動作します。

開発にあたり、いくつかの工夫を凝らしました。

パスポートには「ひらがな8文字まで」ならどんな名前でもプリントできます。

そのため、フルネームからニックネームまで、どんな名前でもきれいに読み上げられる必要がありました。

そこで、100通りの名前パターンを用意して実際にアナウンサーの方に読み上げてもらい、それを学習データとして音声モデルを作成しました。

これにより、どんな名前でも違和感なく読み上げるシステムを実現しています。

おはパスポートは決まった位置・向きで置いてもらう前提ですが、実際にはどうしても数ミリのズレや傾きが生じます。

この少しのズレによりOCRで読み取る場所もずれてしまい、名前が正しく読み取れないことがありました。

この問題を解決するため、物理的な工夫とプログラムによる修正の2つのアプローチをとりました。

物理的な工夫（ボックスの改善）

3Dプリンターを利用しました。

ボックスのカード設置箇所に専用の部品（左）を作成して取り付けることで、誰が置いても自然と正しい位置・角度に収まるようにしました。

また、タブレットを固定するタブレット台（右）を作成して取り付けることで、ある程度の衝撃が加わったとしてもタブレットの位置がずれることを防止できるようにしました。
プログラムの工夫（画像補正）

「射影変換」という技術を利用しました。

おはパスポートの4つの角を認識し、正しい長方形の座標に画像を変換する技術です。（※左の画像が射影変換前、右の画像が射影変換後になります）

これにより、カードが多少ズレて置かれても常に正しい角度に修正でき、常にカードの正しい場所をOCRで読み取ることができるため、読み取り精度が大幅に向上しました。

おはパスポートは主にお子様に喜んでもらえるよう、かわいらしい太字のフォントを採用しています。

しかしその影響で、「しゅんすけ」のように大文字と小文字（ゃゅょ等）が混ざった名前の判別が難しくなり、OCRの精度が落ちる問題がありました。

これを改善するため、名前部分の画像をさらに1文字ずつの単語の画像に切り分けて白黒に変換し、「文字の上の空白の割合」を計算する処理を追加しました。

文字うえの空白の広さで大文字か小文字かを判別することで、ほぼ100%の精度でどんな名前でも読み取れるようになりました。

他にも細かい工夫点はありますが、長くなってしまうのでこの辺にしておきます。

イベント当日は、岩本アナの音声で固定されたボックスを1台、その他のアナウンサー6名（古川アナ、鷲尾アナ、小櫃アナ、大石アナ、新貝アナ）がランダムで読み上げてくれるボックスを1台、計2台を設置しました。

どちらのボックスも1日に600回前後再生され、多くの方に体験していただきました。

中でも、ご家族連れのお客さまが、名前を呼ばれて喜ぶお子様の様子をカメラで撮影されていたのがとても印象的でした。

file5

先日行ったABCグループ社内向けのイベントでも展示を行いました。

今回の「AIアナウンサー」開発では、OCRや音声合成AIの活用に加え、3Dプリンターでのシステム改善やプログラムでの画像補正など、様々な工夫を凝らしました。

今回の知見とベースとなるシステムを活かし、今後も様々なイベントで、皆さまにワクワクしていただけるような新しい体験を届けていきたいと考えています！

最後まで読んでいただき、ありがとうございました。