Google Cloud Storage
Table of contents
- TOC
データ取得方法
WebAPI 経由で取得
メリット
- ツールの選択肢が幅広いので自社に適したアーキテクチャを選定できる。
デメリット
- 特になし
データの流れ
- Cloud Storage → WebAPI → 任意のIntegrationソリューション (→ Amazon S3) → Amazon Redshift。
- Cloud Storage はデータレイクではなく、外部データソースという位置付けになる。
実現するテクノロジー
- Embulkのplugiin にて上記エンドポイントにリクエストを送る。
- AirflowのOperator にて上記エンドポイントにリクエストを送る。
- AWS Lambda等で定期バッチを作成し、上記エンドポイントにリクエストを送る。
- Amazon RedshiftからLambda UDF経由でAWS Lambdaを実行して、上記エンドポイントにリクエストを送る。
- trocco等のETL SaaSにて転送元:Google Cloud Storage 、転送先:Redshift を設定する。
関連:Integration
AWS DataSync
メリット
- 安定したパフォーマンスで大規模データを受け渡せる。
デメリット
- 他にもデータソースがある場合、GCS→S3だけ独立した経路を作ることになる。CI/CD、SLO監視等もAWS DataSync用に構築することになる。
データの流れ
- Cloud Storage → S3 → Redshift
- Cloud Storage はデータレイクではなく、外部データソースという位置付けになる。
実現するテクノロジー
手順は AWS DataSync を使用して Google Cloud Storage から Amazon S3 にデータを移行する方法 - Amazon Web Services ブログ に記載。