在PySpark SQL中的datetime范围过滤器

11 浏览2023年2月10日

匿名的 2023年2月11日

0 Comments

如何正确使用时间戳字段对数据帧进行过滤？

我尝试了不同的日期格式和过滤形式，但没有帮助：要么pyspark返回0个对象，要么抛出错误，表示它不理解日期时间格式。

目前我做到了这一点：

from pyspark import SparkContext
from pyspark.sql import SQLContext
from django.utils import timezone
from django.conf import settings
from myapp.models import Collection
sc = SparkContext("local", "DjangoApp")
sqlc = SQLContext(sc)
url = "jdbc:postgresql://%(HOST)s/%(NAME)s?user=%(USER)s&password=%(PASSWORD)s" % settings.DATABASES['default']
sf = sqlc.load(source="jdbc", url=url, dbtable='myapp_collection')

时间戳字段的范围：

system_tz = timezone.pytz.timezone(settings.TIME_ZONE)
date_from = datetime.datetime(2014, 4, 16, 18, 30, 0, 0, tzinfo=system_tz)
date_to = datetime.datetime(2015, 6, 15, 18, 11, 59, 999999, tzinfo=system_tz)

尝试1：

date_filter = "my_col >= '%s' AND my_col <= '%s'" % (
    date_from.isoformat(), date_to.isoformat()
)
sf = sf.filter(date_filter)
sf.count()  # 输出：0

尝试2：

sf = sf.filter(sf.my_col >= date_from).filter(sf.my_col <= date_to)
sf.count()  # 报错：org.postgresql.util.PSQLException: ERROR: syntax error at or near "18"

尝试3：

sf = sf.filter("my_col BETWEEN '%s' AND '%s'" % (date_from.isoformat(), date_to.isoformat()))
sf.count()  # 报错：org.postgresql.util.PSQLException: ERROR: syntax error at or near "18"

然而，数据表中确实存在数据：

django_filters = {
    'my_col__gte': date_from,
    'my_col__lte': date_to
}
Collection.objects.filter(**django_filters).count()  # 输出：1093436

或者可以这样：

django_range_filter = {'my_col__range': (date_from, date_to)}
Collection.objects.filter(**django_range_filter).count()  # 输出：1093436

如何将PySpark dataframe列从字符串格式转换为日期格式

Spark DataSet 日期时间解析

使用类似SQL中的IN子句对Pyspark DataFrame进行过滤

Django按月份和年份筛选

Django模型时间范围过滤方法

Pandas read_sql with parameters

使用Pyspark数据帧过滤具有None值的列。

Django - 过去一小时的所有对象

从SQL数据库导入表并按日期筛选行时，将Pandas列解析为日期时间。

将Pandas数据帧转换为Spark数据帧出现错误。

在pyspark中，当值与字符串的一部分匹配时，过滤df。

在Pandas中基于时间戳条件选择数据框的子集。

在Filter SQLAlchemy中进行DateTime比较

在Pyspark中将列类型从字符串更改为日期

如何过滤一个查询集，使其匹配给定日期？

SQLAlchemy：如何过滤日期字段？

我怎么在Django中通过日期范围过滤查询对象？

将日期字符串作为变量传递给Spark SQL。

Django的str(queryset.query)在比较日期时间时返回无效的SQL。

在PySpark SQL中的datetime范围过滤器

0 答案