Hadoop
Hiveの文字列操作で使ったUDFメモ split split(string str, string pat) 文字列を指定パターンで分割する |datetime +-------------------- |2014/07/17 13:30:00 split(datetime,' ')[0] > 2014/07/17 split(datetime,' ')[1] > 13:30:00 regexp_replace re…
はじめてのpigメモ 複数のファイルから種別毎にファイルを分類する logfile1 type message LOG0001 MESSAGE1 LOG0001 MESSAGE2 ... ... LOG0004 MESSAGE15 logfile2 ... 4 pigコマンド pig -x local -x local でローカル実行(なしでhadoopモード) Pig Lati…
シーケンスファイルフォーマットで作ったテーブルにテキストファイルを入れたい時 CREATE TABLE table ( val1 string, val2 string ) STORED AS SEQUENCEFILE likeしてalter tableすればスキーマをハードコードせずに済む CREATE TABLE work_table LIKE tabl…
HIVEで文字列を|区切りにしたい時 SPLIT('a|bb|ccc','¥¥|') でHIVEコマンドは動くんだけど hive -e " SPLIT('a|bb|ccc','¥¥|') " の時うまく動かない 結局 hive -e " SPLIT('a|bb|ccc','¥¥¥|') " で¥3つつけるとうまいこといけました 詳しいことはわからんけ…
LanguageManual DDL - Apache Hive - Apache Software Foundation テーブル定義の確認方法 HIVEで作成したテーブルのファイルフォーマットや構成を確認したい場合 hive > desc [ extended / formatted ] テーブル名 extendedで詳細説明表示 formattedで見や…
hiveめも Hive SQL テーブル作成 CREATE TABLE [テーブル名] (名前 型,名前 型...) パーティション PARTITIONED BY (名前 型) ファイルフォーマット ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY ' ' tsv形式 ファイル形式 STORED A…