Hadoop

文字列操作

Hiveの文字列操作で使ったUDFメモ split split(string str, string pat) 文字列を指定パターンで分割する |datetime +-------------------- |2014/07/17 13:30:00 split(datetime,' ')[0] > 2014/07/17 split(datetime,' ')[1] > 13:30:00 regexp_replace re…

ファイル分類

はじめてのpigメモ 複数のファイルから種別毎にファイルを分類する logfile1 type message LOG0001 MESSAGE1 LOG0001 MESSAGE2 ... ... LOG0004 MESSAGE15 logfile2 ... 4 pigコマンド pig -x local -x local でローカル実行(なしでhadoopモード) Pig Lati…

シーケンスファイルテーブルにテキストファイルをloadする方法

シーケンスファイルフォーマットで作ったテーブルにテキストファイルを入れたい時 CREATE TABLE table ( val1 string, val2 string ) STORED AS SEQUENCEFILE likeしてalter tableすればスキーマをハードコードせずに済む CREATE TABLE work_table LIKE tabl…

特殊文字のエスケープシーケンス

HIVEで文字列を|区切りにしたい時 SPLIT('a|bb|ccc','¥¥|') でHIVEコマンドは動くんだけど hive -e " SPLIT('a|bb|ccc','¥¥|') " の時うまく動かない 結局 hive -e " SPLIT('a|bb|ccc','¥¥¥|') " で¥3つつけるとうまいこといけました 詳しいことはわからんけ…

HIVEのテーブル定義の確認

LanguageManual DDL - Apache Hive - Apache Software Foundation テーブル定義の確認方法 HIVEで作成したテーブルのファイルフォーマットや構成を確認したい場合 hive > desc [ extended / formatted ] テーブル名 extendedで詳細説明表示 formattedで見や…

Hiveいろいろ

hiveめも Hive SQL テーブル作成 CREATE TABLE [テーブル名] (名前 型,名前 型...) パーティション PARTITIONED BY (名前 型) ファイルフォーマット ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY ' ' tsv形式 ファイル形式 STORED A…