ABCABC Tech Catalog
データ

Snowflakeのウェビナーで初登壇した話

Snowflakeウェビナー登壇の記録

はじめに

すっかり年の瀬ですが、皆様今年はどのような年だったでしょうか?

私はコロナ禍が明けたこともあり、イベント・展示会などで外に出ていくことが多く、多くのインプット・アウトプットができた年だったのではないかと思っております。

その中で、かなり前にはなってしまうのですが6月に初めて外部のウェビナーに登壇する機会を頂いたので、その内容について今年の振り返りも兼ねて書いてみようかと思います!

発表した内容について

まず初めに過去の記事でも触れてますが、弊社ではテレビ視聴データ(視聴者非特定視聴データ)・動画配信ログ・ウェブアクセスログなどのデータ分析基盤としてSnowflakeを活用しています。

ここでは、そもそもなぜデータ分析基盤が必要だったのかなぜSnowflakeを採用したのか、そして最後に放送局ならではのデータ分析基盤構築にまつわる苦労について書いていこうと思います。

なぜ、データ分析基盤が必要だったのか?

データ分析基盤の導入前はデータに基づくビジネスに関する各所からの要望はあるものの、データの整備ができておらず、いわゆる「データのサイロ化」が起きておりました。

そのため、せっかく収集はしているものの、そのデータの価値の最大化ができておりませんでした。

そこでそういった問題を解決するために、テレビの視聴データを中心としたデータ分析基盤を構築することになりました。

file1

なぜ、Snowflakeなのか?

ここは多くの皆さんが気になるポイントかと思います。

現在、様々なデータウェアハウスと呼ばれるサービスが出ている中で、弊社がSnowflakeを採用した理由はTB級のデータ量を捌くことができるアーキテクチャ低い運用コストの実現が見込める点でした。

弊社で扱っているテレビ視聴データは何と言ってもデータ量が多いことが特徴として挙げられます。

file2

もちろん、データ量が多いことによるメリットもあるのですが、実際に手を動かす立場からすると、読み込みや集計に多くの時間がかかってしまうのは非常にストレスを感じてしまいます。

その中で、3つのレイヤーで構成される独自のアーキテクチャで大量のデータを高速に処理できる点は魅力的でした。

ちなみに詳細なアーキテクチャについては公式ドキュメントが参考になるかと思います。

また、弊社のような限られたエンジニアリソースの中で運用コストの低減が見込めるのも非常に魅力的でした。

具体的には以下の5つのポイントが挙げられます。

  • 様々なデータを扱う上で権限設定が簡単にできる
    • エンジニアリソースが少ない中で、一部の作業を外部ベンダに依頼することになったときに、細かな権限設定を素早く、簡単にできるのは非常に重要になってきます。
  • 検証環境を容易に構築できるゼロコピークローン機能
    • 検証用の環境を用意したくても、そこに多くの時間とコストはかけたくありません。そんな時にゼロコピークローン機能を利用すると、テーブルだけでなく、スキーマおよびデータベースの単位でも簡単に検証環境・バックアップを作成することができます。詳しくはこちらの公式ドキュメントが参考になるかと思います。
  • 膨大なデータを扱う上での自由なウェアハウスサイズの変更
    • Snowflakeのクエリ実行に伴う課金体系は「利用したコンピューティングリソースの大きさ(ウェアハウスサイズ)」×「利用した秒数(最小60秒)」となっているため、クエリに応じて最適なウェアハウスサイズを選択することで運用コストの最適化が見込めます。ちなみに、ウェアハウスサイズはクエリ実行ごとに10段階の中から自由に選択することができます。
  • 豊富な機能を用いて、Snowflake内で処理を完結可能
    • パイプラインの構築からデータマートの作成まで、他社サービスの場合ですと複数のサービスを組み合わせないと実現できない一連の処理を、Snowflake内で完結できるため、学習コストを低く抑えることができます。
  • Marketplaceを通じて、様々なデータの取得が可能
    • 外部のデータを利用したいときにMarketplaceに公開されていたら、パイプラインやテーブルのスキーマを新規に作成する必要が無く、SnowflakeのウェブインターフェースであるSnowsight上から1クリックで、簡単にデータを取得することができます。

file3

データ分析基盤構築時の苦労

ここでは、データ分析基盤構築時の苦労ということで、何点かあるのですが、その中でも放送局特有の内容について紹介させていただきます。

放送局ではしばしば24時以降の時刻を扱うことがあり、これは放送の日替わり時刻が弊社では大体朝の4時〜5時の間に設定されており、それまでは同一日として扱うという理由があります。

そのため、BIツール上での日替わり時刻を29時にしたいという要望があったのですが、タイムスタンプ型では持つことのできない24時以降の時刻情報をどうやって表現するか頭を悩ませました。

そこで半分苦肉の策ではあるのですが、24時以降の時刻表示のために数値型の連続値での時刻カラムを用意して、無事に24時以降も同一日としてグラフに反映させることができました😭

file4

アウトプットの重要性

今回の登壇を通じて感じたのはやはりアウトプットの重要性でした。

まずは、発表の準備を進めていく中で改めてサービスへの理解であったり、メリット・デメリットを自分の中で整理することができました。

さらに、それを発信することで、自社の活動を対外的にアピールできるとともに、アンケートなどを通じて客観的な評価も頂くことができ、今後の活動に活かせそうな学びが多くあったのではないかと思います。

まとめ

Snowflakeのウェビナーで弊社のテレビ視聴データを中心としたデータ分析基盤構築に関わる話をさせていただきました。

自分の考えや意見をアウトプットしていくことで、自身の理解の整理になるとともに、客観的なフィードバックも得ることができるため、アウトプットの重要性を改めて感じました。

来年はもっと登壇回数を増やして発表に慣れていきたいのと、オフラインでの発表もどんどんしていきたいですね!(このブログの更新頻度も上げていきたいところ…👼)

AUTHOR

中村 卓矢

朝日放送グループホールディングス株式会社 デジタル・アーキテック局 データ戦略チーム

グループ全体の統合的なデータ基盤の構築・データ分析の支援に従事している。 動画配信・テレビの視聴データ分析等で身につけた幅広い知識を活かして日々奮闘中!

WORK@ABC

技術力を培うための
環境と文化

ABCに昔から根付く「自分たちで開発する」文化を支える環境や取り組みをご紹介します
ABCについてもっと知る