使用类似SQL中的IN子句对Pyspark DataFrame进行过滤

20 浏览2023年5月4日

匿名的 2023年5月4日

0 Comments

我想用类似SQL的IN子句来过滤Pyspark DataFrame，如下所示：

sc = SparkContext()
sqlc = SQLContext(sc)
df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')

其中a是元组(1, 2, 3)。但我遇到了如下错误：

java.lang.RuntimeException: [1.67] failure: ``('' expected but identifier a found

这个错误基本上是说它期望的是像'(1, 2, 3)'这样的内容，而不是a。

问题在于我不能手动写入a中的值，因为它是从另一个作业中提取的。

在这种情况下，我该如何进行过滤呢？

使用排除的方式通过isin筛选pyspark dataframe

SQLAlchemy IN clause

如何在Java中使用Column.isin？

如何使用数组在Django中过滤一个查询集，类似于SQL中的"IN"操作？

使用多列的参数化IN子句

将数组传递给Spark的Lit函数。

在一个列中使用IN进行搜索

参数化SQL的IN子句

使用MySQLdb执行“SELECT ... WHERE ... IN ...”

在PySpark SQL中的datetime范围过滤器

用Python过滤匹配列值与列表值的数据框。

SQLite的"IN"子句的参数替换

将列表传递给HQL或SQL中的IN子句？

在pyspark中，当值与字符串的一部分匹配时，过滤df。

将列表插入到SQL查询中（IN子句）

Java中的in运算符

按照IN值列表排序

将整数的csv传递给存储过程，并在IN()中使用。

Java的SQL删除语句使用=可以正常工作，但是使用in()却无法正常工作。

在Pyspark SQL中，你需要在哪些地方使用lit()函数？