pyspark dataframe 去重

两种去重,一种是整行每一项完全相同去除重复行,另一种是某一列相同去除重复行。

整行去重

dataframe1 = dataframe1.distinct()

某一列或者多列相同的去除重复

df = df.select("course_id", "user_id", "course_name")
# 单列为标准
df1 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id"]])
# 多列为标准
df2 = df.distinct.dropDuplicates(subset=[c for c in df.columns if c in ["course_id", "course_name"]])