将pandas数据帧以HDF5格式写入S3

Question

11 浏览2023年7月14日

匿名的 2023年7月14日

0 Comments

如果你将一个S3路径（以s3://开头的任何内容）传递给pandas的to_csv方法，它将直接将数据框保存到S3。但是to_hdf不能实现这一点。

我是否需要使用boto3来将文件保存在S3上，还是可以直接使用Pandas来实现？

0

1 答案

匿名的 · Answer 1 · 2023-08-23T14:04:18+00:00

Pandas的文档在这方面是不对称的，因为`read_hdf`允许指定S3 URL，而`to_hdf5`不允许。我个人的印象是，这是因为`to_hdf5`有一个`append`模式，而[S3不支持追加操作](https://stackoverflow.com/questions/41783903)。所以，更具体地回答你的问题，是的，你需要使用`boto3`将文件导出到你的存储桶中。可以参考[这里](https://stackoverflow.com/questions/53788762/58544864#58544864)获取一些策略。

根据Pandas文档的不对称性，`read_hdf`函数允许指定S3 URL，但`to_hdf5`函数却不支持。个人认为这是因为`to_hdf5`函数具有`append`模式，而S3不支持追加操作。因此，如果我们想要将Pandas DataFrame以HDF5格式写入S3，我们需要使用`boto3`库将文件导出到存储桶中。

下面是一个解决方法的示例代码：

import pandas as pd
import boto3
# 创建一个示例DataFrame
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df = pd.DataFrame(data)
# 将DataFrame写入HDF5文件
df.to_hdf('data.h5', key='data', mode='w')
# 创建S3客户端
s3 = boto3.client('s3')
# 将HDF5文件上传到S3
bucket_name = 'your_bucket_name'
s3.upload_file('data.h5', bucket_name, 'data.h5')

以上代码首先创建了一个示例DataFrame，然后使用`to_hdf`函数将DataFrame写入HDF5文件中。接下来，我们使用`boto3`库创建了一个S3客户端。最后，我们使用`upload_file`方法将HDF5文件上传到指定的S3存储桶中。

这样，我们就成功地将Pandas DataFrame以HDF5格式写入了S3存储桶中。通过使用`boto3`库，我们可以方便地实现这一操作。