csvのheaderを気にしてOrderedDictで読む方法

問題

例えば以下のようなcsvがあるときに、読み込んだ後にcsvのheaderの順序を保持してほしいという場合がある。

"age"    "name"
"20"    "foo"

カジュアルに以下の様なコードで読んだ場合に順序は不定。

import csv
import sys


r = csv.DictReader(sys.stdin, delimiter="\t")
print(list(r))

順序は不定。

[{'name': 'foo', 'age': '20'}]
[{'name': 'foo', 'age': '20'}]
[{'age': '20', 'name': 'foo'}]

対応方法

csv.DictReaderを継承するしか無いの?

例えば以下の様な感じにする。dict_factoryみたいな形で引数になっているとありがたいのだけれど。

import csv
import sys
from collections import OrderedDict


class OrderedDictReader(csv.DictReader):
    def __next__(self):
        if self.line_num == 0:
            # Used only for its side effect.
            self.fieldnames
        row = next(self.reader)
        self.line_num = self.reader.line_num

        # unlike the basic reader, we prefer not to return blanks,
        # because we will typically wind up with a dict full of None
        # values
        while row == []:
            row = next(self.reader)
        d = OrderedDict(zip(self.fieldnames, row))
        lf = len(self.fieldnames)
        lr = len(row)
        if lf < lr:
            d[self.restkey] = row[lf:]
        elif lf > lr:
            for key in self.fieldnames[lr:]:
                d[key] = self.restval
        return d


r = OrderedDictReader(sys.stdin, delimiter="\t")
print(list(r))

今度は大丈夫。

[OrderedDict([('age', '20'), ('name', 'foo')])]
[OrderedDict([('age', '20'), ('name', 'foo')])]
[OrderedDict([('age', '20'), ('name', 'foo')])]