graphframes · james-willis · Sep 20, 2024 · Mar 23, 2025
diff --git a/src/main/scala/org/graphframes/lib/ConnectedComponents.scala b/src/main/scala/org/graphframes/lib/ConnectedComponents.scala
@@ -17,17 +17,16 @@
 
 package org.graphframes.lib
 
-import java.io.IOException
-import java.math.BigDecimal
-import java.util.UUID
-
-import org.graphframes.{GraphFrame, Logging}
-
-import org.apache.hadoop.fs.{FileSystem, Path}
-import org.apache.spark.sql.{Column, DataFrame}
+import org.apache.hadoop.fs.Path
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.types.DecimalType
+import org.apache.spark.sql.{Column, DataFrame}
 import org.apache.spark.storage.StorageLevel
+import org.graphframes.{GraphFrame, Logging}
+
+import java.io.IOException
+import java.math.BigDecimal
+import java.util.UUID
 
 /**
  * Connected components algorithm.
@@ -441,9 +440,21 @@ object ConnectedComponents extends Logging {
       logInfo(s"$logPrefix Connected components converged in ${iteration - 1} iterations.")
 
       logInfo(s"$logPrefix Join and return component assignments with original vertex IDs.")
-      vv.join(ee, vv(ID) === ee(DST), "left_outer")
+      val output = vv
+        .join(ee, vv(ID) === ee(DST), "left_outer")
         .select(vv(ATTR), when(ee(SRC).isNull, vv(ID)).otherwise(ee(SRC)).as(COMPONENT))
         .select(col(s"$ATTR.*"), col(COMPONENT))
+        .persist(intermediateStorageLevel)
+
+      // materialize the output DataFrame
+      output.count()
+
+      // clean up persisted DFs
+      for (persisted_df <- lastRoundPersistedDFs) {
+        persisted_df.unpersist()
+      }
+
+      output
     } finally {
       // Restore original AQE setting
       spark.conf.set("spark.sql.adaptive.enabled", originalAQE)

diff --git a/src/test/scala/org/graphframes/lib/ConnectedComponentsSuite.scala b/src/test/scala/org/graphframes/lib/ConnectedComponentsSuite.scala
@@ -17,20 +17,20 @@
 
 package org.graphframes.lib
 
-import java.io.IOException
-
-import scala.reflect.ClassTag
-import scala.reflect.runtime.universe.TypeTag
-
-import org.apache.spark.sql.{DataFrame, Row}
+import org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec
+import org.apache.spark.sql.execution.columnar.InMemoryTableScanExec
 import org.apache.spark.sql.functions.{col, lit}
 import org.apache.spark.sql.types.DataTypes
+import org.apache.spark.sql.{DataFrame, Row}
 import org.apache.spark.storage.StorageLevel
-
-import org.graphframes._
 import org.graphframes.GraphFrame._
+import org.graphframes._
 import org.graphframes.examples.Graphs
 
+import java.io.IOException
+import scala.reflect.ClassTag
+import scala.reflect.runtime.universe.TypeTag
+
 class ConnectedComponentsSuite extends SparkFunSuite with GraphFrameTestSparkContext {
 
   test("default params") {
@@ -253,6 +253,30 @@ class ConnectedComponentsSuite extends SparkFunSuite with GraphFrameTestSparkCon
     }
   }
 
+  test("uses intermediate caches") {
+    val cc = Graphs.friends.connectedComponents
+    val components = cc.run()
+
+    val count = components.queryExecution.executedPlan
+      .toString()
+      .sliding("InMemoryRelation".length)
+      .count(window => window == "InMemoryRelation")
+
+    // 17 number derived from when output.count() call is present in the run method
+    assert(count == 17)
+    components.unpersist(blocking = true)
+  }
+
+  test("not leaking cached data") {
+    val priorCachedDFsSize = spark.sparkContext.getPersistentRDDs.size
+
+    val cc = Graphs.friends.connectedComponents
+    val components = cc.run()
+
+    components.unpersist(blocking = true)
+    assert(spark.sparkContext.getPersistentRDDs.size === priorCachedDFsSize)
+  }
+
   private def assertComponents[T: ClassTag: TypeTag](
       actual: DataFrame,
       expected: Set[Set[T]]): Unit = {