pandas的read_csv函数中的index_col=None参数在每行末尾有分隔符时无法正常工作。

10 浏览
0 Comments

pandas的read_csv函数中的index_col=None参数在每行末尾有分隔符时无法正常工作。

我正在阅读《Python数据分析》一书,并在“示例:2012年联邦选举委员会数据库”部分遇到了读取数据到DataFrame的问题。问题在于,即使将index_col参数设置为None,数据中的一列始终被设置为索引列。

这是数据的链接:http://www.fec.gov/disclosurep/PDownload.do

这是加载代码(为了节省时间,我将nrows设置为10):

import pandas as pd
fec = pd.read_csv('P00000001-ALL.csv',nrows=10,index_col=None)

为了简洁起见,我省略了数据列的输出,但这是我的输出(请注意索引值):

In [20]: fec
Out[20]:

Index: 10 entries, C00410118 to C00410118
Data columns:
...
dtypes: float64(4), int64(3), object(11)

这是该书的输出(再次省略了数据列):

In [13]: fec = read_csv('P00000001-ALL.csv')
In [14]: fec
Out[14]:

Int64Index: 1001731 entries, 0 to 1001730
...
dtypes: float64(1), int64(1), object(14)

我的输出中的索引值实际上是文件中的第一列数据,然后将所有其他数据向左移动一列。有人知道如何防止此列数据被列为索引吗?我希望索引只是递增的整数。

我对python和pandas还相对新手,对任何不便我深感抱歉。谢谢。

0