csvのheaderを気にしてOrderedDictで読む方法
問題
例えば以下のようなcsvがあるときに、読み込んだ後にcsvのheaderの順序を保持してほしいという場合がある。
"age" "name" "20" "foo"
カジュアルに以下の様なコードで読んだ場合に順序は不定。
import csv import sys r = csv.DictReader(sys.stdin, delimiter="\t") print(list(r))
順序は不定。
[{'name': 'foo', 'age': '20'}] [{'name': 'foo', 'age': '20'}] [{'age': '20', 'name': 'foo'}]
対応方法
csv.DictReaderを継承するしか無いの?
例えば以下の様な感じにする。dict_factoryみたいな形で引数になっているとありがたいのだけれど。
import csv import sys from collections import OrderedDict class OrderedDictReader(csv.DictReader): def __next__(self): if self.line_num == 0: # Used only for its side effect. self.fieldnames row = next(self.reader) self.line_num = self.reader.line_num # unlike the basic reader, we prefer not to return blanks, # because we will typically wind up with a dict full of None # values while row == []: row = next(self.reader) d = OrderedDict(zip(self.fieldnames, row)) lf = len(self.fieldnames) lr = len(row) if lf < lr: d[self.restkey] = row[lf:] elif lf > lr: for key in self.fieldnames[lr:]: d[key] = self.restval return d r = OrderedDictReader(sys.stdin, delimiter="\t") print(list(r))
今度は大丈夫。
[OrderedDict([('age', '20'), ('name', 'foo')])] [OrderedDict([('age', '20'), ('name', 'foo')])] [OrderedDict([('age', '20'), ('name', 'foo')])]