2014年4月29日火曜日

UbuntuにApache Mavenのインストール

UbuntuにApache Mavenをインストールしてみる。

前提としてJavaをインストールして下さい。

ダウンロード

$ cd /usr/local/apache-maven
$ sudo wget http://ftp.yz.yamagata-u.ac.jp/pub/network/apache/maven/maven-3/3.2.1/binaries/apache-maven-3.2.1-bin.tar.gz
$ sudo tar -zxvf apache-maven-3.2.1-bin.tar.gz
$ sudo rm apache-maven-3.2.1-bin.tar.gz
※保存場所とバージョンは適切に変更して下さい。

環境変数

$ vim /etc/profile
下記を追記
export M2_HOME=/usr/local/apache-maven/apache-maven-3.2.1
export PATH=$PATH:$M2_HOME/bin:
※再起動

確認コマンド

$ mvn -version

参考:
http://maven.apache.org/download.cgi

2014年4月24日木曜日

TestNGの優先度

TestNGを用いてテストを行う際、テストの実行順によって、結果が変わってしまうことがある。
そんな時は、テストアノテーションに優先度を指定し、実行順を固定すれば良い。

@Test(priority = -1)

デフォルトは0で、小さい順にテストが実行される。

2014年4月15日火曜日

HiveでJSONを解析(json_tuple)

HiveでJSONを解析する方法の1つjson_tupleの使い方を説明します。

テストデータ

-----------------------------------------------------------------
{
    "key1":"sample1",
    "key2":2,
    "key3":{
        "key4":[
            {
                "key5":"sample5"
            },
            {
                "key5":"sample6"
            }
        ]
    }
}
{"key1":"test1","key2":22,"key3":{"key4":[{"key5":"test5"},{"key5":"test6"}]}}
-----------------------------------------------------------------
※JSONが1行毎に複数存在する、ログデータのようなものを想定

テーブル定義

-----------------------------------------------------------------
CREATE EXTERNAL TABLE json_table (
raw_data string
)
ROW FORMAT DELIMITED
LINES TERMINATED BY '\n'
LOCATION '/data/sample';
-----------------------------------------------------------------
※ログ1行(改行区切り)をStringとして定義

get_json_objectでkey5を取得する場合

hive> SELECT get_json_object(json_table.raw_data, '$.key1'), get_json_object(json_table.raw_data, '$.key2') FROM json_table;

sample1 2
test1   22
⇒取得する項目が少なければ良いが、多いとHQLが見難くなる。

json_tupleを使うと

hive> SELECT keys.* FROM json_table AS json LATERAL VIEW json_tuple(json.raw_data, 'key1', 'key2') keys as k1, k2;

sample1 2
test1   22
⇒こっちの方が若干見やすい。。。
※LATERAL VIEWについては、別途説明します。


参考:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-json_tuple

HiveでJSONを解析(get_json_object)

HiveでJSONを解析する方法の1つget_json_objectの使い方を説明します。

テストデータ

-----------------------------------------------------------------
{
    "key1":"sample1",
    "key2":2,
    "key3":{
        "key4":[
            {
                "key5":"sample5"
            },
            {
                "key5":"sample6"
            }
        ]
    }
}
{"key1":"test1","key2":22,"key3":{"key4":[{"key5":"test5"},{"key5":"test6"}]}}
-----------------------------------------------------------------
※JSONが1行毎に複数存在する、ログデータのようなものを想定

テーブル定義

-----------------------------------------------------------------
CREATE EXTERNAL TABLE json_table (
raw_data string
)
ROW FORMAT DELIMITED
LINES TERMINATED BY '\n'
LOCATION '/data/sample';
-----------------------------------------------------------------
※ログ1行(改行区切り)をStringとして定義

HQL

hive> SELECT get_json_object(json_table.raw_data, '$.key1') FROM json_table;

sample1
test1

hive> SELECT get_json_object(json_table.raw_data, '$.key3.key4[0].key5') FROM json_table;

sample5
test5

参考:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-get_json_object