[TIP] 개발자는 막일 하는 사람이 아닙니다. 막일을 줄이기 위한 유용한 팁 1

매일매일 짜는 스크립트는 이제 그만

NO PAINS, NO GAINS

고급진 개발자가 갖춰야 할 덕목(?) 중 하나는 좋은 툴을 발견하여 반복적이고 시간을 까먹는 작업을 효율화 하거나 필요시에는 툴을 직접 개발 하는 일이다.  필자의 경우 구현한 실시간 처리 시스템의 성능 테스트(throughput) 측정을 위해 반복적으로 가짜 데이터를 생성 해야 했다. 나름 자동화 하겠다고 임의의 JSON 메시지를 생성 하고 메시지 큐에 전송하는 스크립트를 만들어서 사용했었는데 최근에서야.... 좋은 툴을 발견하고 그간 작업했던 스크립트와는 이별을 고했다. [themify_icon icon="fa-hand-stop-o" ]

출처 : https://conversation.which.co.uk/wp-content/uploads/2012/06/babyinasuit.jpg

아래의 코드는 예전에 쓰던 가짜 데이터 생성을 위한 자동 메시지 생성 스크립트의 일부이다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
class gen_log_thread(threading.Thread):
    def __init__(self, genid, total_time):
        threading.Thread.__init__(self)
        self.genid = genid
        self.total_time = float(total_time)
        cur_time = datetime.now()
    def run(self):
        random_ratio = 0.1
        run_time = 0.0
        while run_time <= self.total_time:
                duration = (random.random() * 2.0 * random_ratio + 1.0 - random_ratio) * avg_duration_bw_sleep
                time.sleep(duration)
                run_time += duration
                cur_time = datetime.now()
                producer = KafkaProducer(bootstrap_servers='ice:9092,cream:9092,summer:9092')
                producer.send('json_test', gen_logline(self.genid), cur_time)

데이터가 복잡한 경우라면 위와 같이 스크립트를 짜는 편이 나을수도 있지만, 데이터 생성 요건 자체가 복잡함이 덜하고 적절한 툴 이 존재한다면 이를 활용하여 효율성을 높이는 방법도 고려해 봄 직하다.

JSON-DATA-GENERATOR

오늘 소개할 유용한 툴은 일련의 규칙을 정의하고 JSON 포맷으로 데이터를 자동으로 생성하여 전송 채널로 전달하는 데이터 생성기 툴이다. java로 구현되어 있고 오픈소스이며 Apache 2.0 license이므로 필요한 기능이 있다면 아래 github에 이슈를 발행하거나 pull request ( 방법이 알고 싶다면 클릭 :-) )를 하면 된다.

https://github.com/acesinc/json-data-generator 를 참조한다.

현재까지 지원하는 type은 다음과 같다.

  • Logger  - logs디렉토리 아래 log file 생성
  • File - 특정 디렉토리에 특정 file 확장자로 생성
  • HTTP POST - 특정 url로 POST방식으로 메시지 전송
  • Kafka - kafka  broker로 특정 토픽으로 메시지 전송(비동기 전송 및 nested json 포맷도 지원한다. 참으로 마음에 드는부분)
  • NATS - NATS broker 특정 토픽으로 메시지 전송
  • Tranquility - Druid( 알고 싶다면 클릭 :lol: ) 에서 실시간 수집을 하는 경우, Tranquility 를 통해 Druid에 바로 적재 될 수 있도록 기본적인 기능을 제공

시뮬레이션 설정

생성된 JSON메시지를 전송하기 위한 설정 정보를 지정한다. 아래와 같이 JSON파일을 생성하고 exampleSimConfig.json를 저장한다. (해당 파일은 https://github.com/acesinc/json-data-generator/tree/master/src/dist/conf 아래 위치한다)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
{
    "workflows": [{
            "workflowName": "test",
            "workflowFilename": "exampleWorkflow.json"
        }],
    "producers": [{
            "type": "kafka",
            "broker.server": "192.168.59.103",
            "broker.port": 9092,
            "topic": "logevent",
            "sync": false
    },{
        "type":"logger"
    }]
}

시뮬레이션에 수행될 workflow 를 지정할 수 있다. 이때 Array타입으로 여러개의 workflow를 지정할 수 있다. producer는 JSON 메시지의 전송 대상이다. 본 예제에서는 kafka와 logger( 설치 디렉토리 내에 logs 폴더 아래)로 전송을 지정하였고 kafka의 경우 대상 broker와 topic, sync여부 등을 설정하였다.

워크 플로우(JSON스키마) 정의

필요로 하는 데이터의 포맷을 JSON타입으로 지정하는 것을 말하며 json-data-generator에서는 이를 workflow라고 한다.

먼저 다음과 같이 exampleWorkflow.json을 생성한다. (해당 파일은 https://github.com/acesinc/json-data-generator/tree/master/src/dist/conf 아래 위치한다)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
{
    "eventFrequency": 4000,
    "varyEventFrequency": true,
    "repeatWorkflow": true,
    "timeBetweenRepeat": 15000,
    "varyRepeatFrequency": true,
    "steps": [{
        "config": [{
            "timestamp": "nowTimestamp()",
            "system": "random('BADGE', 'AUDIT', 'WEB')",
            "actor": "bob",
            "action": "random('ENTER','LOGIN','EXIT', 'LOGOUT')",
            "objects": ["Building 1"],
            "location": {
                "lat": "double(-90.0, 90.0)",
                "lon": "double(-180.0, 180.0)"
            },
            "message": "Entered Building 1"
        }],
        "duration": 0
    },{
        "config": [{
            "timestamp": "nowTimestamp()",
            "system": "random('BADGE', 'AUDIT', 'WEB')",
            "actor": "jeff",
            "action": "random('ENTER','LOGIN','EXIT', 'LOGOUT')",
            "objects": ["Building 2"],
            "location": {
                "lat": "double(-90.0, 90.0)",
                "lon": "double(-180.0, 180.0)"
            },
            "message": "Entered Building 2"
        }],
        "duration": 0
    }]
}

각각의 config가 step을 말하며 메시지 전송 주기는 4초이고  다음 전송 전 15초간 기다리는 설정이다. step에 대한 옵션은 순차적으로 할 것인지 랜덤으로 할 것인지 등도 지정할 수 있다.

Generator실행

실행은 시뮬레이션 설정 파일을 파라미터로 하여 아래와 같이 java로 실행한다.

1
java -jar json-data-generator-1.0.0.jar exampleSimConfig.json

위와 같이 실행하면 콘솔에는 다음과 같은 메시지를 확인 할 수 있다.

1
2
3
4
5
6
2015-04-28 14:21:08,013 DEBUG n.a.d.j.g.t.TypeHandlerFactory [Thread-2] Discovered TypeHandler [ integer,net.acesinc.data.json.generator.types.IntegerType ]
2015-04-28 14:21:08,013 DEBUG n.a.d.j.g.t.TypeHandlerFactory [Thread-2] Discovered TypeHandler [ timestamp,net.acesinc.data.json.generator.types.TimestampType ]
2015-04-28 14:30:02,817 INFO data-logger [Thread-2] {"timestamp":1430253002793,"system":"BADGE","actor":"bob","action":"ENTER","objects":["Building 1"],"location":"45.5,44.3","message":"Entered Building 1"}
2015-04-28 14:30:05,369 INFO data-logger [Thread-2] {"timestamp":1430253005368,"system":"AD","actor":"bob","action":"LOGIN","objects":["workstation1"],"location":null,"message":"Logged in to workstation 1"}
2015-04-28 14:30:07,491 INFO data-logger [Thread-2] {"timestamp":1430253007481,"system":"AUDIT","actor":"bob","action":"COPY","objects":["/data/file1.txt","/share/mystuff/file2.txt"],"location":null,"message":"Printed /data/file1.txt"}
2015-04-28 14:30:09,768 INFO data-logger [Thread-2] {"timestamp":1430253009767,"system":"AUDIT","actor":"bob","action":"COPY","objects":["/data/file1.txt","/share/mystuff/file2.txt"],"location":null,"message":"Printed /data/file1.txt"}

설치 시뮬레이션 설정 단계에서 type에 logger를 추가했기 때문에 디렉토리 아래 logs폴더에 json-data.log 파일이 생성된 걸 확인 할 수 있고 위에 로그에서 찍힌 메시지가 파일로 저장되어 있음을 확인할 수 있다.

랜덤 데이터 Functions

JSON 데이터를 random 하게 생성하기 위해 지원되는 function들은 literals(문자열 그대로), String(임의의 문자열 값), Primitive(임의의 boolean, numeric 생성), Date(임의의 날짜 데이터 생성), random(주어진 값 중에서 임의의 값 추출) 등 다양하다. repeat와 random function은 Array로 지정이 가능하며 반복적이거나 random하게 JSON array value를 생성 할 수 있다.

1
2
3
4
5
6
7
8
{
    "values": [
        "repeat(7)",
        {
            "date": "date('2015/04/01T00:00:00', '2015/04/25T00:00:00')",
            "count": "integer(1, 10)"
        }]
}

위의 예제의 경우 date와 count값을 random 으로 생성하여 7번 반복하는 array를 생성한다.

1
2
3
4
5
6
7
8
9
10
{
    "values": [
        "random()",
        {
            "date": "date('2015/04/01T00:00:00', '2015/04/25T00:00:00')",
            "count": "integer(1, 10)"
        },{
            "thing1": "random('red', 'blue')"
        }]
}

random()으로 지정된 경우에는 임의의 값들을 random으로 생성한다.

막일 방지를 위한 팁은 TO BE CONTINUED ...


Popit은 페이스북 댓글만 사용하고 있습니다. 페이스북 로그인 후 글을 보시면 댓글이 나타납니다.