noteがデータ基盤に採用したSnowflake、膨大なコンテンツを高速に分析してデータドリブンな意思決定を実現【PR】

あらゆるクリエイターがコンテンツを自由に投稿でき、ユーザーがそのコンテンツを応援できるメディアプラットフォームのnoteが、2022年にデータ基盤のアーキテクチャーを一新。新たに導入されたのが、データウェアハウス(DWH)のみならず、データレイクのワークロード…

テクノロジー その他
PR
noteがデータ基盤に採用したSnowflake、膨大なコンテンツを高速に分析してデータドリブンな意思決定を実現【PR】
  • noteがデータ基盤に採用したSnowflake、膨大なコンテンツを高速に分析してデータドリブンな意思決定を実現【PR】
  • noteがデータ基盤に採用したSnowflake、膨大なコンテンツを高速に分析してデータドリブンな意思決定を実現【PR】
  • noteがデータ基盤に採用したSnowflake、膨大なコンテンツを高速に分析してデータドリブンな意思決定を実現【PR】
  • noteがデータ基盤に採用したSnowflake、膨大なコンテンツを高速に分析してデータドリブンな意思決定を実現【PR】
  • noteがデータ基盤に採用したSnowflake、膨大なコンテンツを高速に分析してデータドリブンな意思決定を実現【PR】
  • noteがデータ基盤に採用したSnowflake、膨大なコンテンツを高速に分析してデータドリブンな意思決定を実現【PR】

あらゆるクリエイターがコンテンツを自由に投稿でき、ユーザーがそのコンテンツを応援できるメディアプラットフォームのnoteが、2022年にデータ基盤のアーキテクチャーを一新。新たに導入されたのが、データウェアハウス(DWH)のみならず、データレイクのワークロードを処理するのにも最適なデータプラットフォームのSnowflakeです。同サービス導入前にnoteが抱えていた課題、導入の決め手となったことやその後の変化について、noteのデータ基盤の開発・運営を率いる久保田勇喜氏がプレゼンテーションを行いました。

Snowflake導入以前の課題

会員登録数約550万人、公開コンテンツ数約2,700万件を誇る(いずれも2022年8月時点)noteのミッションは、「だれもが創作をはじめ、続けられるようにする」こと ――「その実現のためにはデータ活用およびデータドリブンな意思決定が不可欠であり、必要とするデータがいつでも・すぐに・直感的に手に入るデータ基盤の構築が必要です」と語る久保田氏。

Snowflake導入以前はクエリの結果の取得が遅く、ヘビーユーザーからは「分析業務の認知負荷が高まる」「タスクの消化ができない」という声が、ライトユーザーからは「SQLを書いたがレスポンスが遅くデータ活用のモチベーションが上がらない」「ほしいデータの所在がわからない」という声が上がっていたと言います。

データドリブンな意思決定を可能にするためには、ヘビーユーザーの業務消化スピードを上げ、ライトユーザーのデータ活用のモチベーションを向上させることが課題となっていましたが、当時のデータ基盤アーキテクチャーはDWHがなく、WebやサーバなどのデータソースからKinesisなどのストリーミングにデータを入れ、データマートの生成を行なった後にRe:dash経由でクエリするというものでした。

S3をデータレイクとして直接クエリしていたためAthenaの部分がボトルネックになり、継続的な運用でファイル数が多くなるとパフォーマンスにも影響が出ていたとのこと。現在はS3の後にDWHとしてSnowflakeを組み込み、データ検索の高速化が可能になったと同時にデータが集約されたことで信頼度、探索のしやすさも向上していると話します。

従来のデータ基盤アーキテクチャー

Snowflake導入でおきた3つの変化

続いて同氏は、導入後の大きな変化として以下の3点を挙げました。

①分析業務の効率大幅アップ
②今まで不可能だった規模の分析が可能に
③データ活用への興味・関心の向上

①の実例として、ユーザーの閲覧状況を可視化した多種のグラフをダッシュボードで提供している項目について、実行から完了まで10分かかっていたところが30秒に、1年分の記事PVの月ごとの集計に40分かかっていたところが15秒に短縮できたと言います。どちらもS、SXと使用サイズが小さいためさらなる短縮が見込め、より多くのデータを扱う企業にも対応可能とのこと。

そして②に関しては、ユーザーの回遊IDごとのファネル分析および、集計開始時から全期間を対象にした集計が可能になったことに言及し、あらたなインサイトの獲得にもつながったそうです。「見出しのダッシュボードの数が増加し、SQLを実行・活用する人が増えたことを日々肌で感じています」と話す同氏。

③についても同氏は、「現場からは『待機時間が減り効率化が進んだ』『長期間のSQLも回せるようになった』『億×億レコードのjoinが回せるようになった』『データを見ることに前向きになり、データに触れるモチベーションが上がった』という声が聞かれ、結果的に社内のデータの民主化、データドリブンの意思決定の推進につながりました」と語っています。

noteにおけるデータ基盤の変遷

次に同氏はnoteのデータ基盤の歴史を3つのフェーズに分けて紹介し、Snowflake導入の決め手を説明。フェーズ1の「RDSを使ったデータ分析」は、記事データなども保存しているMySQLに対しアプリと同じAPI経由でユーザーの行動ログも保存していました。主目的はアプリケーションでの利用であり、分析はGoogle Analyticsを利用していましたが、無料範囲を超えたため正しい分析ができない状況に。RDSは分析向きのデータではないうえ、ログの種類が増え特定の記事にアクセスが集中するとAPIに負荷がかかり、ログ取集の重さに影響が出ていたと言います。

フェーズ2は「データ基盤への分析へと移行」。収集・分析をAPIから切り離し、KinesisやAthenaを利用して分析用基盤をAWSに構築しました。安定性が増し規模の大きな分析も可能になったそうですが、データ増加によるAthenaのタイムアウト、インフラ制限による作業の限定、データマートの作成やETLが複雑化を招いて開発の難易度が上がり、要望を消化できないなどの課題が発生。フェーズ3の「DWH導入」でRedshift、BigQueryとの比較を経て、Snowflake導入に至ります。

Snowflake選定の理由として、「ほしいデータにすぐアクセスできる」「長期間のログデータの集計」「BIツール・その他システムとの連携」「安価で簡単に運用が可能」「DWH分離により、ワークロードごとにリソースの割り当てが可能」「機能がDWHにとどまらないためデータの一元管理が可能」などを挙げます。他サービスはSnowflakeと比較し運用・コスト共に負荷が大きく、パフォーマンスにも大きな差がなかったとのこと。Snowflakeは問い合わせのレスポンスも早く2週間でサービスインができ、UIの使用感が非常によく開発者のモチベーション向上にもつながっていると言います。

「導入後の課題はこれまでの過程で複雑化してしまったアーキテクチャーの簡素化と、圧倒的な業務効率化によってやりたいことが大幅に増えたため、開発人材を補充し体制を強化することです」と同氏。あらたなフェーズに向けSnowflakeと共に大きな一歩を踏み出しています。

SNOWFLAKEのデータクラウドの詳細はこちらから

こちらのフォームから情報を登録いただけますと、本記事で取り上げられているSnowflakeのデータクラウドについての資料をプレゼントいたします。ぜひチェックしてnoteのようなデータドリブンな意思決定を実現してください。


《Maho Nishida》

関連タグ

特集