sort: Add support for combining cases with identical sort criteria.
[pspp] / src / math / merge.c
index b84122982e04f19fedaf1c2a0e542e58214546d0..0fc73ce857513b4b07cc1ec82043e747ff0dcbf0 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 2007 Free Software Foundation, Inc.
+   Copyright (C) 2007, 2009, 2010 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
@@ -36,7 +36,7 @@
 struct merge_input
   {
     struct casereader *reader;
-    struct ccase c;
+    struct ccase *c;
   };
 
 struct merge
@@ -44,18 +44,24 @@ struct merge
     struct subcase ordering;
     struct merge_input inputs[MAX_MERGE_ORDER];
     size_t input_cnt;
-    size_t value_cnt;
+    struct caseproto *proto;
+
+    merge_distinct_combine_func *combine;
+    void *aux;
   };
 
 static void do_merge (struct merge *m);
 
 struct merge *
-merge_create (const struct subcase *ordering, size_t value_cnt)
+merge_create (const struct subcase *ordering, const struct caseproto *proto,
+              merge_distinct_combine_func *combine, void *aux)
 {
   struct merge *m = xmalloc (sizeof *m);
   subcase_clone (&m->ordering, ordering);
   m->input_cnt = 0;
-  m->value_cnt = value_cnt;
+  m->proto = caseproto_ref (proto);
+  m->combine = combine;
+  m->aux = aux;
   return m;
 }
 
@@ -69,6 +75,7 @@ merge_destroy (struct merge *m)
       subcase_destroy (&m->ordering);
       for (i = 0; i < m->input_cnt; i++)
         casereader_destroy (m->inputs[i].reader);
+      caseproto_unref (m->proto);
       free (m);
     }
 }
@@ -97,7 +104,7 @@ merge_make_reader (struct merge *m)
     }
   else if (m->input_cnt == 0)
     {
-      struct casewriter *writer = mem_writer_create (m->value_cnt);
+      struct casewriter *writer = mem_writer_create (m->proto);
       r = casewriter_make_reader (writer);
     }
   else
@@ -111,7 +118,8 @@ read_input_case (struct merge *m, size_t idx)
 {
   struct merge_input *i = &m->inputs[idx];
 
-  if (casereader_read (i->reader, &i->c))
+  i->c = casereader_read (i->reader);
+  if (i->c)
     return true;
   else
     {
@@ -126,11 +134,12 @@ static void
 do_merge (struct merge *m)
 {
   struct casewriter *w;
+  struct ccase *prev_case;
   size_t i;
 
   assert (m->input_cnt > 1);
 
-  w = tmpfile_writer_create (m->value_cnt);
+  w = tmpfile_writer_create (m->proto);
   for (i = 0; i < m->input_cnt; i++)
     taint_propagate (casereader_get_taint (m->inputs[i].reader),
                      casewriter_get_taint (w));
@@ -138,21 +147,41 @@ do_merge (struct merge *m)
   for (i = 0; i < m->input_cnt; )
     if (read_input_case (m, i))
       i++;
+
+  prev_case = NULL;
   while (m->input_cnt > 0)
     {
+      struct ccase *min_case;
       size_t min;
 
       min = 0;
       for (i = 1; i < m->input_cnt; i++)
-        if (subcase_compare_3way (&m->ordering, &m->inputs[i].c,
-                                  &m->ordering, &m->inputs[min].c) < 0)
+        if (subcase_compare_3way (&m->ordering, m->inputs[i].c,
+                                  &m->ordering, m->inputs[min].c) < 0)
           min = i;
 
-      casewriter_write (w, &m->inputs[min].c);
+      min_case = m->inputs[min].c;
+      if (m->combine != NULL)
+        {
+          if (prev_case == NULL)
+            prev_case = min_case;
+          else if (subcase_equal (&m->ordering, min_case,
+                                  &m->ordering, prev_case))
+            prev_case = m->combine (prev_case, min_case, m->aux);
+          else
+            {
+              casewriter_write (w, prev_case);
+              prev_case = min_case;
+            }
+        }
+      else
+        casewriter_write (w, min_case);
+
       read_input_case (m, min);
     }
+  if (prev_case != NULL)
+    casewriter_write (w, prev_case);
 
   m->input_cnt = 1;
   m->inputs[0].reader = casewriter_make_reader (w);
 }
-