注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
HIVEでビッグデータを処理する場合、 ログデータの中から区切り文字(例えば、","コンマ区切り)のデー... HIVEでビッグデータを処理する場合、 ログデータの中から区切り文字(例えば、","コンマ区切り)のデータを1レコードずつに分配したい場合があると思います。 その場合、まずは区切り文字の列を配列に変換し、 それを一レコードずつに落としこんでいきます。 配列に落としこむのは、HIVEで提供されているsplitを使用します。 splitは指定したカラム内の文字列を区切り文字で自動的に分離して配列に格納してくれます。 例えば、hogeカラム内がコンマ区切りの文字列の場合… そして、これを一レコードずつに表示するには、 HIVEのUDFとして提供されているexplodeを使用します。 explodeは配列のデータを一レコードずつに出力するメソッドです。 bar_listというカラムに配列でデータが格納されている、 barsテーブルがあったとします。 すると以下のようにかけます。 この2つの書き方を
2014/09/02 リンク