トップ 差分 一覧 ソース 検索 ヘルプ RSS ログイン

PySpark

[Python,Spark]

PySpark

  さっそく導入

  • 環境はDebian/sidです
まずは、Download Apache Spark™ からバイナリを落として使ってみる
Sparkのバージョンと、対応するHadoopのバージョンを選んでやる

とりま、最新のバージョンでやってみる、ミラーサイトが指示されるので、そっからwget

$ wget http://ftp.jaist.ac.jp/pub/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
$ tar zxvf spark-2.2.1-bin-hadoop2.7.tgz -C /opt
$ cd /opt/spark-2.2.1-bin-hadoop2.7/
$ bin/spark

...

>>> 1+1
2
>>> print("Hello")
Hello
>>> os.system('clear')
(クリアされる)

若干ワーニングは出ているが起動までできた。PythonのREPLだと考えればよさそうだ。

  やれることを考えてみる

  • PySpark+EMRで検索するといろいろ出てくる、S3起点でETL的処理をさせるのは簡単だろう

  サンプル

  • SparkContextというもののインスタンスを作る
>>> sc = SparkContext.getOrCreate()
>>> sc
<SparkContext master=local[*] appName=PySparkShell>
pyspark.png
お名前: コメント: