|

おは朝パーク2025で出展!AIアナウンサー開発の裏側

おは朝パークイベントAI音声3Dプリンター

概要

おは朝パーク2025にて出展した「おはパスポート」。

その中で、私はAIアナウンサーの開発を担当しました!

この記事では、AIアナウンサーのシステムの仕組みや開発における工夫点、イベント当日の様子などをご紹介します。

全体概要はこちら 👉 おは朝パークで出展!「おはパスポート」の全容

AIアナウンサーとは

AIアナウンサーは「おはパスポート」を使った体験型コンテンツとなっています。

おは朝パークの会場に設置された特別なボックスにおはパスポートを置くと、「おはよう朝日です」の番組MCの誰かが、おはパスポートに書かれた名前熱い一言メッセージを呼びかけてくれます。 taikenyousu

システムの仕組み

蓋がカード型に切り抜かれたボックスの中に、タブレットとライトが入っています。

ボックスの上に置かれたおはパスポートを、タブレットのカメラが下から読み取る仕組みです。 imagebox

具体的には以下の流れでシステムが動作します。

  1. ボックスの上に置かれたパスポートの名前部分を、「OCR(光学文字認識)」という技術で読み取る。

  2. アナウンサーの声で事前に作成した音声合成AIが、読み取った名前をアナウンサーの声で音声化する。

  3. その名前の音声と、あらかじめ録音しておいたアナウンサーの一言メッセージをつなげて、スピーカーから流す。

システムの工夫点

開発にあたり、いくつかの工夫を凝らしました。

工夫①:あらゆる名前に対応できる音声モデルの作成

パスポートには「ひらがな8文字まで」ならどんな名前でもプリントできます。

そのため、フルネームからニックネームまで、どんな名前でもきれいに読み上げられる必要がありました。

そこで、100通りの名前パターンを用意して実際にアナウンサーの方に読み上げてもらい、それを学習データとして音声モデルを作成しました。

これにより、どんな名前でも違和感なく読み上げるシステムを実現しています。

工夫②:カードがまっすぐに見えるようにする

おはパスポートは決まった位置・向きで置いてもらう前提ですが、実際にはどうしても数ミリのズレや傾きが生じます。

この少しのズレによりOCRで読み取る場所もずれてしまい、名前が正しく読み取れないことがありました。

この問題を解決するため、物理的な工夫とプログラムによる修正の2つのアプローチをとりました。

  • 物理的な工夫(ボックスの改善)

    3Dプリンターを利用しました。

    ボックスのカード設置箇所に専用の部品(左)を作成して取り付けることで、誰が置いても自然と正しい位置・角度に収まるようにしました。

    また、タブレットを固定するタブレット台(右)を作成して取り付けることで、ある程度の衝撃が加わったとしてもタブレットの位置がずれることを防止できるようにしました。 imageprint

  • プログラムの工夫(画像補正)

    「射影変換」という技術を利用しました。

    おはパスポートの4つの角を認識し、正しい長方形の座標に画像を変換する技術です。(※左の画像が射影変換前、右の画像が射影変換後になります) imageshaei

    これにより、カードが多少ズレて置かれても常に正しい角度に修正でき、常にカードの正しい場所をOCRで読み取ることができるため、読み取り精度が大幅に向上しました。

 

工夫③:小文字の読み取り精度の向上

おはパスポートは主にお子様に喜んでもらえるよう、かわいらしい太字のフォントを採用しています。

しかしその影響で、「しゅんすけ」のように大文字と小文字(ゃゅょ等)が混ざった名前の判別が難しくなり、OCRの精度が落ちる問題がありました。

これを改善するため、名前部分の画像をさらに1文字ずつの単語の画像に切り分けて白黒に変換し、「文字の上の空白の割合」を計算する処理を追加しました。

文字うえの空白の広さで大文字か小文字かを判別することで、ほぼ100%の精度でどんな名前でも読み取れるようになりました。

 

他にも細かい工夫点はありますが、長くなってしまうのでこの辺にしておきます。

当日の様子について

イベント当日は、岩本アナの音声で固定されたボックスを1台、その他のアナウンサー6名(古川アナ、鷲尾アナ、小櫃アナ、大石アナ、新貝アナ)がランダムで読み上げてくれるボックスを1台、計2台を設置しました。

どちらのボックスも1日に600回前後再生され、多くの方に体験していただきました。

中でも、ご家族連れのお客さまが、名前を呼ばれて喜ぶお子様の様子をカメラで撮影されていたのがとても印象的でした。

 

社内イベントでも利用

imagedxfes2

先日行ったABCグループ社内向けのイベントでも展示を行いました。

まとめ

今回の「AIアナウンサー」開発では、OCRや音声合成AIの活用に加え、3Dプリンターでのシステム改善やプログラムでの画像補正など、様々な工夫を凝らしました。

今回の知見とベースとなるシステムを活かし、今後も様々なイベントで、皆さまにワクワクしていただけるような新しい体験を届けていきたいと考えています!

最後まで読んでいただき、ありがとうございました。

 


この記事の著者

プロフィール画像

上田 颯史郎

朝日放送グループホールディングス株式会社 DX・メディアデザイン局 ICTチーム

2024年入社。初期配属が現在の所属部署。社内の業務効率化支援、ネットワーク業務を担当。ネトスぺ目指して日々勉強中。WEBツール開発、GASを通してプログラミングスキルも習得中。夢は100キロのマグロを釣り上げること。