새소식

Bioinformatics

PASTASpark 설치 및 실행하기

  • -

1). pasta와 pastaspark 소스를 git으로 다운받는다.

 

명령어). 

git clone https://github.com/citiususc/pastaspark.git
git clone https://github.com/smirarab/pasta.git

 

2). pasta 폴더에 있는 run_pasta_gui.py 파일을 pastaspark 폴더에 복사한다.

3). 다음의 명령어로 pastaspark를 설치한다.

 

명령어). 

python setup.py develop --user

 

4). 설치 후 사용자 계정에 .local 이라는 폴더가 생성되며, pastaspark에 필요한 라이브러리와 실행파일들이 생성된다.

5). 샘플 예제 파일 실행하기

 

명령어). 

spark-submit --master local /home/kogun82/pastaspark/run_pasta.py \
-i /home/kogun82/pastaspark/data/small.fasta \
-t /home/kogun82/pastaspark/data/small.tree

 

6). 클러스터를 이용한 pastaspark 작업 실행 스크립트 예제

 

#!/bin/bash

SPARK_COMMAND="spark-submit --master yarn --deploy-mode cluster"
DRIVER_MEM="25G"
EXEC_MEM="5G"

CURRENT_DIR=`pwd`

HOME="/home/jmabuin"

NUM_EXECUTORS="8"
DRIVER_CORES="4"
EXECUTOR_CORES="1"
ARCHIVES="pasta.zip"
PY_FILES="pasta.zip,$HOME/.local/lib/python2.7/site-packages/DendroPy-3.12.3-py2.7.egg"

INPUT_DATA="$CURRENT_DIR/data/small.fasta"
INPUT_TREE="$CURRENT_DIR/data/small.tree"

$SPARK_COMMAND --name PastaSpark_Small_8Exec \
--driver-memory $DRIVER_MEM \
--executor-memory $EXEC_MEM \
--num-executors $NUM_EXECUTORS \
--driver-cores $DRIVER_CORES \
--executor-cores $EXECUTOR_CORES \
--archives $ARCHIVES \
--py-files $PY_FILES run_pasta.py \
--temporaries=./ -i $INPUT_DATA -t $INPUT_TREE \
--num-cpus=$DRIVER_CORES \
--num-cpus-spark=$EXECUTOR_CORES \
--num-partitions=$NUM_EXECUTORS
 

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.