在用python读取csv文件时,出现了问题,报错如下:
类型比较失败。
下面是我对于csv文件读取的源代码:
off_train = pd.read_csv('data/ccf_offline_stage1_train.csv',header=None)
off_train.columns = ['user_id','merchant_id','coupon_id','discount_rate','distance','date_received','date']
第一行是读取csv文件,第二行是我要设置的列名。
我导入了pandas,对于数据进行处理,下面是进行处理的代码:
feature3 = off_train[(off_train.date>='20160315')]
后来我把单引号删掉,发现可以。我猜想读出的数据是Number,而不是字符串形式。
但是后面的程序需要对于字符串进行处理,所以这一个方法不行。之后我查找了resd_csv函数的各种参数设置,其中有一条:
在read_csv函数中加入此参数,就可以了。如下所示:
off_train = pd.read_csv('data/ccf_offline_stage1_train.csv',header=None,keep_default_na=False)
off_train.columns = ['user_id','merchant_id','coupon_id','discount_rate','distance','date_received','date']
read_csv函数各种参数设置可以参照以下网址