Hadoop with ETL
- ETL処理を行う際のHadoopのベストプラクティスを考える
処理の起点
S3にファイルが置かれたイベントを起点とするようなケースはLambdaを利用した方がよいと考えます。 そもそもHadoopは大規模なファイルをバッチ処理することを基本としているので。 もちろん、そのファイルがとても大きなファイルであればいいかもしれませんが、 S3にファイルが置かれるたびにHadoopクラスタを構築するというのはコスト的に合わないと考えます。
処理系の選択
データマートの配置
- EMRでHiveメタストアにRDSを利用する
- HadoopのバックエンドにあるRDBをRDS上に作成できる