Link Search Menu Expand Document (external link)

Amazon S3

Table of contents

  1. TOC

データ取得方法

Copyコマンド

RedshiftのコマンドでCopyを指示する。

メリット

  • Redshiftにデータをロードするので挙動が安定しやすい

デメリット

  • バッチスクリプトの環境構築が必要
  • バッチ取得時点のデータがロードされるので、最新データをリアルタイムで確認できない

データの流れ

S3 → COPYコマンド → Redshift

実現するテクノロジー

  • AWS Lambda等で定期バッチを作成し、コマンドを実行する。
  • Amazon RedshiftからLambda UDF経由でAWS Lambdaを実行する。

以下がハンズオン記事。

RedshiftでCOPYコマンドを試してみた - Qiita

直接コマンドを実行する方法と、Redshift Data APIを使う方法がある。 以下が、Redshift Data APIによるCOPYコマンドのハンズオン記事

Data API for Redshiftでデータのロード/アンロードを試してみた

Redshift Spectrum

S3に対してクエリを実行できる。

メリット

  • サーバーレスかつフルマネージドにETL処理を実現できる
  • クエリ時点のデータがロードされるので、最新データをリアルタイムで確認できる

デメリット

  • Redshiftにデータをロードしないので、外部テーブルの制約に引っかかることがある

データの流れ

S3 → Redshift Spectrum → Redshift

実現するテクノロジー

以下がハンズオン記事。

S3データを直接クエリ出来る新機能『Amazon Redshift Spectrum』を実際に試してみました

直接クエリ実行する方法と、Redshift Data APIを使う方法がある。 以下が、Redshift Data APIによるRedshift Spectrum実行のハンズオン記事。

Amazon Redshift Data APIを使ったETL