文字列操作

Hiveの文字列操作で使ったUDFメモ  

split  

split(string str, string pat)

文字列を指定パターンで分割する  

|datetime
+--------------------
|2014/07/17 13:30:00

split(datetime,' ')[0]

> 2014/07/17

split(datetime,' ')[1]

> 13:30:00

regexp_replace

regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)

文字列の正規表現で一致した部分を置換する

|date
+---------------------
|2014/07/17

regexp_replace(date,'\/','')

> 20140717

regexp_extract

regexp_extract(string subject, string pattern, int index)

文字列の正規表現で一致した部分を取得する

|date
+----------------------
|2014/07/17

regexp_extract(date,'^([0-9]*)\/',1)

> 2014

LanguageManual UDF - Apache Hive - Apache Software Foundation