使用NiFi从S3存储桶中读取parquet数据
使用NiFi从S3存储桶中读取parquet数据
大家好!
我刚开始学习NiFi,希望大家不要扔石头,而是给予帮助或指导。我需要从S3存储桶中读取Parquet数据,但我不知道如何设置lists3和fetchs3object处理器来读取数据。
完整路径如下:
s3://inbox/prod/export/date=2022-01-07/user=100/
2022-01-09 06:51:23 23322557 cro.parquet
我将把数据写入SQL数据库,这方面我没有问题。
我已尝试自己配置lists3处理器,但我觉得不太好。
存储桶:inbox
aws_access_key_id
aws_secret_access_key
区域:美东
终端重写URL:http://s3.wi-fi.ru:8080
问题的出现原因是Access Key ID和Secret Key可能存在问题,有可能无法正常工作。解决方法是先在NiFi之外测试Access Key ID和Secret Key是否能正常工作。如果它们能正常工作,则问题可能出在NiFi配置上。如果Access Key ID和Secret Key无法正常工作,可以尝试获取新的有效值,并将其提供给NiFi。
此外,用户还提到了在fetchs3object之后如何正确配置处理器以及将数据写入SQL数据库的问题。提供的链接中包含了一些有关这方面的信息。
文章内容如下:
问题:从S3存储桶中读取parquet数据,使用NiFi
最近,我尝试使用NiFi从S3存储桶中读取parquet数据。但是,我遇到了一些问题,我不确定如何解决。
首先,我尝试测试Access Key ID和Secret Key是否有效。我在NiFi之外进行了测试,并确认它们是有效的。因此,问题可能出在NiFi配置上。
接下来,我需要了解如何正确配置处理器,并在fetchs3object之后将数据写入SQL数据库。我找到了一些有用的链接,希望它们能为我提供一些指导。
首先,我发现了一个很好的教程,介绍了如何从S3中获取对象。这个链接是:medium.com//…。这个教程对我有很大帮助。
此外,我还找到了一些有关如何将NiFi连接到SQL数据库的信息。以下链接可能对我有用:stackoverflow.com/questions/41489816 nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/…。
我希望通过查阅这些链接,能够找到解决问题的方法。如果我能正确配置处理器,并将数据写入SQL数据库,我相信我将能够成功地从S3存储桶中读取parquet数据。