在pandas中检查重复数据
在pandas中检查重复数据
我有以下代码:
import pandas as pd import datetime import pandas as pd from pandas_datareader import data as web import matplotlib.pyplot as plt from alpha_vantage.foreignexchange import ForeignExchange import os from os import path from alpha_vantage.timeseries import TimeSeries import matplotlib.pyplot as plt import sys while True: if path.exists('stockdata.csv') == True: data1 = pd.read_csv('stockdata.csv') ts = TimeSeries(key='1ORS1XLM1YK1GK9Y', output_format='pandas') data, meta_data = ts.get_intraday(symbol='spy', interval='1min', outputsize='full') data = data.rename(columns={'1. open':'Open','2. high':'High','3. low':'Low','4. close':'Close','5. volume':'Volume'}) data1 = data1.append(data) data1.to_csv('stockdata.csv', sep=' ') break else: data1 = pd.DataFrame(columns=['Open','High','Low','Close','Volume']) data1.to_csv('stockdata.csv', sep=' ')
我想做的是检查当前目录中是否存在名为`stockdata.csv`的文件。如果没有找到,则创建该文件。
如果找到了该文件,则下载`spy`股票数据到`data`中,并将该数据附加到`data1`中并保存为csv文件。
`data1`的输出如下所示:
[![enter image description here](https://i.stack.imgur.com/PdVlC.png)](https://i.stack.imgur.com/PdVlC.png)
问题:
- 如何去掉`Unnamed:0`列以及为什么会有这一列?
- 如何检查并删除`data`中的重复数据,并将其附加到`data1`中?
在使用pandas读取CSV文件时,可能会遇到添加了未命名列的问题。解决这个问题的方法是使用index=False
或index_col=0
参数。根据这个关于相同主题的问题的回答,这样可以强制pandas将第一列作为索引,从而避免添加额外的列。