Hive CLI 작업을 Crontab에 설정하는 경우 삽질

Hive의 CLI 명령을 Crontab에 등록하여 주기적으로 작업하는 경우가 가끔있습니다. 예를 들면 로그를 매일 새로운 파티션에 저장하는 경우 강제적으로 Hive에 파티션을 추가해야 하는 작업 등이 있습니다. 보통 Crontab의 shell 환경은 터미널로 접속했을 때와의 shell 환경과는 조금 차이가 있는데, 이번 글은 이런 차이로 인해 발생한 문제 및 삽질기에 대한 내용입니다.

문제 상황

  • Crontab에서 다음과 같은 Hive 파티션 생성 스크립트를 매일 새벽 00:05 분에 실행하도록 설정 5 0  * * * /usr/local/hive-2.1.1/bin/hive -e "MSCK REPAIR TABLE Orders"
  • 정상적으로 잘 동작하던 스크립트가 서버 메모리 증설 후 동작하지 않음
  • 터미널로 접속한 쉘에서는 정상적으로 잘 동작

문제 해결을 위한 작업

문제 해결을 위해 Crontab 스크립트에 로그를 남기도록 추가하여 에러 메시지를 확인하였는데 다음과 같은 에러 메시지가 나타났습니다.

1
2
3
Unable to determine Hadoop version information.
'hadoop version' returned:
Hadoop 2.7.3 Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r baa91f7c6bc9cb92be5982de4719c1c8af91ccff Compiled by root on 2016-08-18T01:41Z Compiled with protoc 2.5.0 From source with checksum 2e4ce5f957ea4db193bce3734ff29ff4 This command was run using /home/hadoop/apps/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar

이 에러메시지의 내용은 Hive는 "$HIVE_HOME/bin/hive" shell 명령을 실행할 때 Hadoop 버전 정보를 확인하여 사용 가능한 Hadoop 버전이 아니면 에러를 출력하고 Hive 명령을 실행하지 않는 기능이 있습니다. $HADOOP_HOME/bin/hadoop -version 명령을 수행해서  버전 정보를 가져온 후 Regexp를 이용하여 "2.7.3" 정보를 가져 옵니다. 위 에러 메시지에서 보듯이 Hadoop 버전 정보를 정확하게 가져 왔음에도 불구하고 이런 에러 메시지를 출력하고 있었습니다.

"$HIVE_HOME/bin/hive" 스크립트에 한줄씩 디버깅 코드를 넣어서 출력해본 결과 다음과 같은 코드에 문제가 있는 것을 발견하였습니다.

1
2
3
4
5
6
...
TMP_USER_DIR="/tmp/${USER}"
STDERR="${TMP_USER_DIR}/stderr"
...
HADOOP_VERSION=$($HADOOP version 2>> ${STDERR} | awk -F"\t" '/Hadoop/ {print $0}' | cut -d' ' -f 2);
...

위 코드를 보면 현재 Shell의 사용자 정보($USER)를 이용하여 Error 로그를 출력할 파일을 지정합니다. 예를 들어 사용자가 "prod"고 하면 /tmp/prod/stderr 이런식의 파일이 생성됩니다. 실제 Hadoop version을 가져오는 스크립트 부분을 보면 표준에러는 $STDERR 파일(/tmp/prod/stderr)로 보내고 표준 출력(Hadoop 버전 정보) 만을 이용하여 Hadoop 버전 정보를 가져오도록 되어 있습니다.

하지만 필자의 Ubuntu 환경에서는 Crontab에서는 $USER  환경 변수를 가져올 수 없습니다. 따라서 위의 경우에 표준 에러 메시지는 "/tmp/prod/stderr" 가 아닌 "/tmp/stderr" 로 저장이 됩니다.

여기까지 보면 아무런 문제 없이 동작합니다. 하지만 다른 사용자의 프로세스가 먼저 /tmp/stderr 파일을 먼저 생성하면 어떻게 될까요? /tmp 디렉토리는 모든 사용자가 쓰기 가능하기 때문에 다른 사용자로 실행된 프로세스가 동일한 파일명으로 파일을 생성할 수 있게 됩니다.

이런 상황이 실제로 발생하였는데 필자의 운영환경에서는 서로 다른 사용자가 Crontab에서 Hive Shell 명령을 실행하도록 되어 있었습니다. 따라서 먼저 실행된 사용자(예를 들어 dev_user)에 의해 Crontab hive 작업이 실행되면 다른 사용자로 실행된 Crontab hive 작업은 실행 중 permission deny 에러가 발생하며 제대로된 Hadoop 버전 정보를 가져올 수 없게 됩니다.

즉, 문제의 원인은

"Ubuntu의 Cron job에서는 $USER 환경 변수가 없다."

였습니다.

해결 방법

원인은 알았으니 해결 방법은 심플합니다. Crontab에서 $USER 환경 변수를 생성하면 되는데 Ubuntu는 Crontab에서도 $LOGNAME 이라는 변수로 현재 사용자 정보를 가져올 수 있습니다. 따라서 다음과 같이 Crontab 설정에 LOGNAME을 사용하도록 변경하였습니다.

5 0  * * * env USER=$LOGNAME /usr/local/hive-2.1.1/bin/hive -e "MSCK REPAIR TABLE Orders"

소감

Hive 스트립트에 왜 $LOGNAME을 사용하지 않고 $USER를 사용했는지 의문이 들어 Linux에서 $LOGNAME과 $USER의 차이점이 뭔가 찾아 보았는데 대략 이정도 차이라고 합니다.

1
2
3
4
5
6
7
8
9
10
# echo $LOGNAME
root
# echo $USER
root
# su myuser
%echo $LOGNAME
root
%echo $USER
myuser
%

su 상황에서도 정확하게 현재 사용자 정보를 가져오는 것이 $USER인 반면 상황에 따라 다른 값을 제공하는 것이 $LOGNAME 이라고 볼 수 있는데 Hive 스트립트를 만드는 측면에서 봤을때는 $USER를 사용하는 것이 더 맞지 않을까 합니다.


Popit은 페이스북 댓글만 사용하고 있습니다. 페이스북 로그인 후 글을 보시면 댓글이 나타납니다.