Link Search Menu Expand Document (external link)

Google Cloud Storage

Table of contents

  1. TOC

データ取得方法

WebAPI 経由で取得

API reference

メリット

  • ツールの選択肢が幅広いので自社に適したアーキテクチャを選定できる。

デメリット

  • 特になし

データの流れ

  • Cloud Storage → WebAPI → 任意のIntegrationソリューション (→ Amazon S3) → Amazon Redshift。
  • Cloud Storage はデータレイクではなく、外部データソースという位置付けになる。

実現するテクノロジー

  • Embulkのplugiin にて上記エンドポイントにリクエストを送る。
  • AirflowのOperator にて上記エンドポイントにリクエストを送る。
  • AWS Lambda等で定期バッチを作成し、上記エンドポイントにリクエストを送る。
  • Amazon RedshiftからLambda UDF経由でAWS Lambdaを実行して、上記エンドポイントにリクエストを送る。
  • trocco等のETL SaaSにて転送元:Google Cloud Storage転送先:Redshift を設定する。

関連:Integration

AWS DataSync

AWS DataSync

メリット

  • 安定したパフォーマンスで大規模データを受け渡せる。

デメリット

  • 他にもデータソースがある場合、GCS→S3だけ独立した経路を作ることになる。CI/CD、SLO監視等もAWS DataSync用に構築することになる。

データの流れ

  • Cloud Storage → S3 → Redshift
  • Cloud Storage はデータレイクではなく、外部データソースという位置付けになる。

実現するテクノロジー

手順は AWS DataSync を使用して Google Cloud Storage から Amazon S3 にデータを移行する方法 - Amazon Web Services ブログ に記載。