Bye Bye Moore

PoCソルジャーな零細事業主が作業メモを残すブログ

Python用データ分析ライブラリPandaをつかう その3:CSVデータの読み込み方を変える

shuzo-kino.hateblo.jp
の続きです。
オプションを設定してやることで、使うカラムを絞ったり、
特定のカラムをindexとして転用できてりします。
lambdaを使えるのが地味にポイント高いですね。

実際のところ

import pandas as pd
import numpy as np

csv = pd.read_csv('sample.csv', usecols=lambda x: x.upper() in ['COUNTY', 'VOTES'])
print(csv)
#  county  votes
#0  Clark      5
#1  Clark      0
#2  Clark      7

csv2 = pd.read_csv('sample.csv', 
		usecols=lambda x: x.upper() in ['PRECINCT','COUNTY', 'VOTES'], 
		index_col=2)
print(csv2)
#      county  precinct
#votes                 
#5      Clark         1
#0      Clark         2
#7      Clark         3

csv3 = csv2.sort_index()
print(csv3.values)
#[['Clark' 2]
# ['Clark' 1]
# ['Clark' 3]]

他にも、不正な行にエラーを出す等々いろんなオプションがあり楽はできそうです。