FreeStyleWiki

Hadoop with ETL

このエントリーをはてなブックマークに追加

[Hadoop,ETL]

Hadoop with ETL

  • ETL処理を行う際のHadoopのベストプラクティスを考える

  処理の起点

 S3にファイルが置かれたイベントを起点とするようなケースはLambdaを利用した方がよいと考えます。
 そもそもHadoopは大規模なファイルをバッチ処理することを基本としているので。
 もちろん、そのファイルがとても大きなファイルであればいいかもしれませんが、
 S3にファイルが置かれるたびにHadoopクラスタを構築するというのはコスト的に合わないと考えます。

  処理系の選択

  データマートの配置