Python: TSVファイルを読み込む

TSVファイルを読み込む

Pythonでタブ(\t)区切りのTSVファイルを読み込む場合、 csvモジュールを使用します。

読み込み時のreader()のオプションとして「delimiter="\t"」を指定するのが ポイントです。 delimiterを指定することで、 カンマやタブ以外の区切り文字でも認識することができます。

次のtsvファイル「sample2.tsv」を読み込んでみます。

愛知	4
広島	5
岡山	6
import csv

file_name = "sample2.tsv"

with open(file_name, "r", encoding="utf-8", newline='') as f:
	# 読み込み(リーダーを取得)
	rs = csv.reader(f, delimiter="\t")
	# 1行ずつループ
	for r in rs:
		print(r)

「rs = csv.reader(f)」でリーダーを取得します。
リーダーはTSVファイルの各行が入っているイテレーター(繰り返し処理のしくみ)なので、 ループで回して各行を取得します。

  • 「encoding="utf-8"」: 文字コード「UTF-8」を指定
  • 「newline=""」: 改行コードの変換なしを指定
  • 「delimiter="\t"」: 区切り文字にタブを指定

実行結果

['愛知', '4']
['広島', '5']
['岡山', '6']