more debug prints
[pspp] / src / language / stats / ctables.c
index 510efcd5cd224df0ed4eb4f9a279f68fcf0fe88f..08f7a74180a67bab097d1fad9b51d7f9cd76339a 100644 (file)
@@ -171,6 +171,13 @@ struct ctables_domain
     double missing;
   };
 
+enum ctables_summary_variant
+  {
+    CSV_CELL,
+    CSV_TOTAL
+#define N_CSVS 2
+  };
+
 struct ctables_cell
   {
     /* In struct ctables's 'cells' hmap.  Indexed by all the values in all the
@@ -181,7 +188,7 @@ struct ctables_cell
     struct ctables_domain *domains[N_CTDTS];
 
     bool hide;
-    bool total;
+    enum ctables_summary_variant sv;
 
     struct
       {
@@ -286,6 +293,8 @@ struct ctables_summary_spec_set
     struct variable *var;
   };
 
+static void ctables_summary_spec_set_clone (struct ctables_summary_spec_set *,
+                                            const struct ctables_summary_spec_set *);
 static void ctables_summary_spec_set_uninit (struct ctables_summary_spec_set *);
 
 /* A nested sequence of variables, e.g. a > b > c. */
@@ -297,8 +306,7 @@ struct ctables_nest
     size_t *domains[N_CTDTS];
     size_t n_domains[N_CTDTS];
 
-    struct ctables_summary_spec_set cell_sss;
-    struct ctables_summary_spec_set total_sss;
+    struct ctables_summary_spec_set specs[N_CSVS];
   };
 
 /* A stack of nestings, e.g. nest1 + nest2 + ... + nestN. */
@@ -500,8 +508,7 @@ struct ctables_axis
           {
             struct ctables_var var;
             bool scale;
-            struct ctables_summary_spec_set cell_sss;
-            struct ctables_summary_spec_set total_sss;
+            struct ctables_summary_spec_set specs[N_CSVS];
           };
 
         /* Nonterminals. */
@@ -533,8 +540,17 @@ struct ctables_summary_spec
     double percentile;          /* CTSF_PTILE only. */
     char *label;
     struct fmt_spec format;     /* XXX extra CTABLES formats */
+    size_t axis_idx;
   };
 
+static void
+ctables_summary_spec_clone (struct ctables_summary_spec *dst,
+                            const struct ctables_summary_spec *src)
+{
+  *dst = *src;
+  dst->label = xstrdup (src->label);
+}
+
 static void
 ctables_summary_spec_uninit (struct ctables_summary_spec *s)
 {
@@ -542,6 +558,22 @@ ctables_summary_spec_uninit (struct ctables_summary_spec *s)
     free (s->label);
 }
 
+static void
+ctables_summary_spec_set_clone (struct ctables_summary_spec_set *dst,
+                                const struct ctables_summary_spec_set *src)
+{
+  struct ctables_summary_spec *specs = xnmalloc (src->n, sizeof *specs);
+  for (size_t i = 0; i < src->n; i++)
+    ctables_summary_spec_clone (&specs[i], &src->specs[i]);
+
+  *dst = (struct ctables_summary_spec_set) {
+    .specs = specs,
+    .n = src->n,
+    .allocated = src->n,
+    .var = src->var
+  };
+}
+
 static void
 ctables_summary_spec_set_uninit (struct ctables_summary_spec_set *set)
 {
@@ -643,8 +675,8 @@ ctables_axis_destroy (struct ctables_axis *axis)
   switch (axis->op)
     {
     case CTAO_VAR:
-      ctables_summary_spec_set_uninit (&axis->cell_sss);
-      ctables_summary_spec_set_uninit (&axis->total_sss);
+      for (size_t i = 0; i < N_CSVS; i++)
+        ctables_summary_spec_set_uninit (&axis->specs[i]);
       break;
 
     case CTAO_STACK:
@@ -735,7 +767,7 @@ static bool
 add_summary_spec (struct ctables_axis *axis,
                   enum ctables_summary_function function, double percentile,
                   const char *label, const struct fmt_spec *format,
-                  const struct msg_location *loc, bool totals)
+                  const struct msg_location *loc, enum ctables_summary_variant sv)
 {
   if (axis->op == CTAO_VAR)
     {
@@ -770,8 +802,7 @@ add_summary_spec (struct ctables_axis *axis,
           break;
         }
 
-      struct ctables_summary_spec_set *set = (totals ? &axis->total_sss
-                                              : &axis->cell_sss);
+      struct ctables_summary_spec_set *set = &axis->specs[sv];
       if (set->n >= set->allocated)
         set->specs = x2nrealloc (set->specs, &set->allocated,
                                  sizeof *set->specs);
@@ -790,7 +821,7 @@ add_summary_spec (struct ctables_axis *axis,
     {
       for (size_t i = 0; i < 2; i++)
         if (!add_summary_spec (axis->subs[i], function, percentile, label,
-                               format, loc, totals))
+                               format, loc, sv))
           return false;
       return true;
     }
@@ -864,6 +895,12 @@ ctables_axis_parse_primary (struct ctables_axis_parse_ctx *ctx)
   return axis;
 }
 
+static bool
+has_digit (const char *s)
+{
+  return s[strcspn (s, "0123456789")] != '\0';
+}
+
 static struct ctables_axis *
 ctables_axis_parse_postfix (struct ctables_axis_parse_ctx *ctx)
 {
@@ -871,7 +908,7 @@ ctables_axis_parse_postfix (struct ctables_axis_parse_ctx *ctx)
   if (!sub || !lex_match (ctx->lexer, T_LBRACK))
     return sub;
 
-  bool totals = false;
+  enum ctables_summary_variant sv = CSV_CELL;
   for (;;)
     {
       int start_ofs = lex_ofs (ctx->lexer);
@@ -904,7 +941,8 @@ ctables_axis_parse_postfix (struct ctables_axis_parse_ctx *ctx)
       /* Parse format. */
       struct fmt_spec format;
       const struct fmt_spec *formatp;
-      if (lex_token (ctx->lexer) == T_ID)
+      if (lex_token (ctx->lexer) == T_ID
+          && has_digit (lex_tokcstr (ctx->lexer)))
         {
           if (!parse_format_specifier (ctx->lexer, &format)
               || !fmt_check_output (&format)
@@ -920,28 +958,24 @@ ctables_axis_parse_postfix (struct ctables_axis_parse_ctx *ctx)
 
       struct msg_location *loc = lex_ofs_location (ctx->lexer, start_ofs,
                                                    lex_ofs (ctx->lexer) - 1);
-      add_summary_spec (sub, function, percentile, label, formatp, loc,
-                        totals);
+      printf ("add %s\n", ctables_summary_function_name (function));
+      add_summary_spec (sub, function, percentile, label, formatp, loc, sv);
       free (label);
       msg_location_destroy (loc);
 
-      if (lex_match (ctx->lexer, T_COMMA))
+      lex_match (ctx->lexer, T_COMMA);
+      if (sv == CSV_CELL && lex_match_id (ctx->lexer, "TOTALS"))
         {
-          if (!totals && lex_match_id (ctx->lexer, "TOTALS"))
-            {
-              if (!lex_force_match (ctx->lexer, T_LBRACK))
-                goto error;
-              totals = true;
-            }
+          if (!lex_force_match (ctx->lexer, T_LBRACK))
+            goto error;
+          sv = CSV_TOTAL;
         }
-      else if (lex_force_match (ctx->lexer, T_RBRACK))
+      else if (lex_match (ctx->lexer, T_RBRACK))
         {
-          if (totals && !lex_force_match (ctx->lexer, T_RBRACK))
+          if (sv == CSV_TOTAL && !lex_force_match (ctx->lexer, T_RBRACK))
             goto error;
           return sub;
         }
-      else
-        goto error;
     }
 
 error:
@@ -982,7 +1016,7 @@ find_categorical_summary_spec (const struct ctables_axis *axis)
   if (!axis)
     return NULL;
   else if (axis->op == CTAO_VAR)
-    return !axis->scale && axis->cell_sss.n ? axis : NULL;
+    return !axis->scale && axis->specs[CSV_CELL].n ? axis : NULL;
   else
     {
       for (size_t i = 0; i < 2; i++)
@@ -1481,21 +1515,23 @@ nest_fts (struct ctables_stack s0, struct ctables_stack s1)
         assert (n == allocate);
 
         const struct ctables_nest *summary_src;
-        if (!a->cell_sss.var)
+        if (!a->specs[CSV_CELL].var)
           summary_src = b;
-        else if (!b->cell_sss.var)
+        else if (!b->specs[CSV_CELL].var)
           summary_src = a;
         else
           NOT_REACHED ();
-        stack.nests[stack.n++] = (struct ctables_nest) {
+
+        struct ctables_nest *new = &stack.nests[stack.n++];
+        *new = (struct ctables_nest) {
           .vars = vars,
           .scale_idx = (a->scale_idx != SIZE_MAX ? a->scale_idx
                         : b->scale_idx != SIZE_MAX ? a->n + b->scale_idx
                         : SIZE_MAX),
           .n = n,
-          .cell_sss = summary_src->cell_sss,
-          .total_sss = summary_src->total_sss,
         };
+        for (enum ctables_summary_variant sv = 0; sv < N_CSVS; sv++)
+          ctables_summary_spec_set_clone (&new->specs[sv], &summary_src->specs[sv]);
       }
   ctables_stack_uninit (&s0);
   ctables_stack_uninit (&s1);
@@ -1536,13 +1572,12 @@ enumerate_fts (enum pivot_axis_type axis_type, const struct ctables_axis *a)
         .n = 1,
         .scale_idx = a->scale ? 0 : SIZE_MAX,
       };
-      if (a->cell_sss.n || a->scale)
-        {
-          nest->cell_sss = a->cell_sss;
-          nest->total_sss = a->total_sss;
-          nest->cell_sss.var = a->var.var;
-          nest->total_sss.var = a->var.var;
-        }
+      if (a->specs[CSV_CELL].n || a->scale)
+        for (enum ctables_summary_variant sv = 0; sv < N_CSVS; sv++)
+          {
+            ctables_summary_spec_set_clone (&nest->specs[sv], &a->specs[sv]);
+            nest->specs[sv].var = a->var.var;
+          }
       return (struct ctables_stack) { .nests = nest, .n = 1 };
 
     case CTAO_STACK:
@@ -2214,7 +2249,7 @@ ctables_cell_insert__ (struct ctables_table *t, const struct ccase *c,
   const struct ctables_nest *ss = &t->stacks[t->summary_axis].nests[ix[t->summary_axis]];
 
   size_t hash = 0;
-  bool total = false;
+  enum ctables_summary_variant sv = CSV_CELL;
   for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
     {
       const struct ctables_nest *nest = &t->stacks[a].nests[ix[a]];
@@ -2229,7 +2264,7 @@ ctables_cell_insert__ (struct ctables_table *t, const struct ccase *c,
               hash = value_hash (case_data (c, nest->vars[i]),
                                  var_get_width (nest->vars[i]), hash);
             else
-              total = true;
+              sv = CSV_TOTAL;
           }
     }
 
@@ -2260,7 +2295,7 @@ ctables_cell_insert__ (struct ctables_table *t, const struct ccase *c,
 
   cell = xmalloc (sizeof *cell);
   cell->hide = false;
-  cell->total = total;
+  cell->sv = sv;
   for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
     {
       const struct ctables_nest *nest = &t->stacks[a].nests[ix[a]];
@@ -2283,13 +2318,10 @@ ctables_cell_insert__ (struct ctables_table *t, const struct ccase *c,
         }
     }
 
-  {
-    const struct ctables_summary_spec_set *sss
-      = (cell->total ? &ss->total_sss : &ss->cell_sss);
-    cell->summaries = xmalloc (sss->n * sizeof *cell->summaries);
-    for (size_t i = 0; i < sss->n; i++)
-      ctables_summary_init (&cell->summaries[i], &sss->specs[i]);
-  }
+  const struct ctables_summary_spec_set *specs = &ss->specs[cell->sv];
+  cell->summaries = xmalloc (specs->n * sizeof *cell->summaries);
+  for (size_t i = 0; i < specs->n; i++)
+    ctables_summary_init (&cell->summaries[i], &specs->specs[i]);
   for (enum ctables_domain_type dt = 0; dt < N_CTDTS; dt++)
     cell->domains[dt] = ctables_domain_insert (t, cell, dt);
   hmap_insert (&t->cells, &cell->node, hash);
@@ -2305,11 +2337,10 @@ ctables_cell_add__ (struct ctables_table *t, const struct ccase *c,
   struct ctables_cell *cell = ctables_cell_insert__ (t, c, ix, cats);
   const struct ctables_nest *ss = &t->stacks[t->summary_axis].nests[ix[t->summary_axis]];
 
-  const struct ctables_summary_spec_set *sss
-    = (cell->total ? &ss->total_sss : &ss->cell_sss);
-  for (size_t i = 0; i < sss->n; i++)
-    ctables_summary_add (&cell->summaries[i], &sss->specs[i], sss->var,
-                         case_data (c, sss->var), weight);
+  const struct ctables_summary_spec_set *specs = &ss->specs[cell->sv];
+  for (size_t i = 0; i < specs->n; i++)
+    ctables_summary_add (&cell->summaries[i], &specs->specs[i], specs->var,
+                         case_data (c, specs->var), weight);
   for (enum ctables_domain_type dt = 0; dt < N_CTDTS; dt++)
     cell->domains[dt]->valid += weight;
 }
@@ -2403,6 +2434,25 @@ ctables_cell_insert (struct ctables_table *t,
     }
 }
 
+struct merge_item
+  {
+    size_t tiebreaker;
+    const struct ctables_summary_spec_set *set;
+    size_t ofs;
+  };
+
+static int
+merge_item_compare_3way (const struct merge_item *a, const struct merge_item *b)
+{
+  const struct ctables_summary_spec *as = &a->set->specs[a->ofs];
+  const struct ctables_summary_spec *bs = &b->set->specs[b->ofs];
+  if (as->function != bs->function)
+    return as->function > bs->function ? 1 : -1;
+  else if (as->percentile != bs->percentile)
+    return as->percentile < bs->percentile ? 1 : -1;
+  return strcmp (as->label, bs->label);
+}
+
 static bool
 ctables_execute (struct dataset *ds, struct ctables *ct)
 {
@@ -2474,31 +2524,98 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
             t->stacks[a] = (struct ctables_stack) { .nests = nest, .n = 1 };
           }
 
-      for (size_t i = 0; i < t->stacks[t->summary_axis].n; i++)
+      struct ctables_stack *stack = &t->stacks[t->summary_axis];
+      for (size_t i = 0; i < stack->n; i++)
         {
-          struct ctables_nest *nest = &t->stacks[t->summary_axis].nests[i];
-          if (!nest->cell_sss.n)
+          struct ctables_nest *nest = &stack->nests[i];
+          if (!nest->specs[CSV_CELL].n)
             {
-              struct ctables_summary_spec_set *sss = &nest->cell_sss;
-              sss->specs = xmalloc (sizeof *sss->specs);
-              sss->n = 1;
+              struct ctables_summary_spec_set *specs = &nest->specs[CSV_CELL];
+              specs->specs = xmalloc (sizeof *specs->specs);
+              specs->n = 1;
 
               enum ctables_summary_function function
-                = sss->var ? CTSF_MEAN : CTSF_COUNT;
-              struct ctables_var var = { .is_mrset = false, .var = sss->var };
+                = specs->var ? CTSF_MEAN : CTSF_COUNT;
+              struct ctables_var var = { .is_mrset = false, .var = specs->var };
 
-              *sss->specs = (struct ctables_summary_spec) {
+              *specs->specs = (struct ctables_summary_spec) {
                 .function = function,
                 .format = ctables_summary_default_format (function, &var),
                 .label = ctables_summary_default_label (function, 0),
               };
-              if (!sss->var)
-                sss->var = nest->vars[0];
+              if (!specs->var)
+                specs->var = nest->vars[0];
 
-              nest->total_sss = nest->cell_sss;
+              ctables_summary_spec_set_clone (&nest->specs[CSV_TOTAL],
+                                              &nest->specs[CSV_CELL]);
+            }
+          else if (!nest->specs[CSV_TOTAL].n)
+            ctables_summary_spec_set_clone (&nest->specs[CSV_TOTAL],
+                                            &nest->specs[CSV_CELL]);
+        }
+
+      struct ctables_summary_spec_set merged = { .n = 0 };
+      struct merge_item *items = xnmalloc (2 * stack->n, sizeof *items);
+      size_t n_left = 0;
+      for (size_t j = 0; j < stack->n; j++)
+        {
+          const struct ctables_nest *nest = &stack->nests[j];
+          if (!nest->n)
+            continue;
+
+          for (enum ctables_summary_variant sv = 0; sv < N_CSVS; sv++)
+            {
+              items[n_left] = (struct merge_item) {
+                .tiebreaker = n_left,
+                .set = &nest->specs[sv]
+              };
+              n_left++;
+            }
+        }
+
+      while (n_left > 0)
+        {
+          struct merge_item min = items[0];
+          for (size_t j = 1; j < n_left; j++)
+            if (merge_item_compare_3way (&items[j], &min) < 0)
+              min = items[j];
+
+          /* XXX Add to 'merged' */
+          if (merged.n >= merged.allocated)
+            merged.specs = x2nrealloc (merged.specs, &merged.allocated,
+                                       sizeof *merged.specs);
+          merged.specs[merged.n++] = min.set->specs[min.ofs];
+
+          for (size_t j = 0; j < n_left; )
+            {
+              if (merge_item_compare_3way (&items[j], &min) == 0)
+                {
+                  struct merge_item *item = &items[j];
+                  item->set->specs[item->ofs].axis_idx = merged.n - 1;
+                  if (++item->ofs >= item->set->n)
+                    {
+                      items[j] = items[--n_left];
+                      continue;
+                    }
+                }
+              j++;
+            }
+        }
+
+      for (size_t j = 0; j < merged.n; j++)
+        printf ("%s\n", ctables_summary_function_name (merged.specs[j].function));
+
+      for (size_t j = 0; j < stack->n; j++)
+        {
+          const struct ctables_nest *nest = &stack->nests[j];
+          for (enum ctables_summary_variant sv = 0; sv < N_CSVS; sv++)
+            {
+              const struct ctables_summary_spec_set *specs = &nest->specs[sv];
+              for (size_t k = 0; k < specs->n; k++)
+                printf ("(%s, %zu) ", ctables_summary_function_name (specs->specs[k].function),
+                        specs->specs[k].axis_idx);
+              printf ("\n");
             }
-          else if (!nest->total_sss.n)
-            nest->total_sss = nest->cell_sss;
         }
     }
 
@@ -2639,12 +2756,11 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
                         {
                           if (label)
                             parent = pivot_category_create_group__ (parent, label);
-                          const struct ctables_summary_spec_set *sss
-                            = cell->total ? &nest->total_sss : &nest->cell_sss;
-                          for (size_t m = 0; m < sss->n; m++)
+                          const struct ctables_summary_spec_set *specs = &nest->specs[cell->sv];
+                          for (size_t m = 0; m < specs->n; m++)
                             {
                               int leaf = pivot_category_create_leaf (
-                                parent, pivot_value_new_text (sss->specs[m].label));
+                                parent, pivot_value_new_text (specs->specs[m].label));
                               if (m == 0)
                                 prev_leaf = leaf;
                             }
@@ -2682,8 +2798,8 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
             continue;
 
           const struct ctables_nest *nest = &t->stacks[t->summary_axis].nests[cell->axes[t->summary_axis].stack_idx];
-          const struct ctables_summary_spec_set *sss = cell->total ? &nest->total_sss : &nest->cell_sss;
-          for (size_t j = 0; j < sss->n; j++)
+          const struct ctables_summary_spec_set *specs = &nest->specs[cell->sv];
+          for (size_t j = 0; j < specs->n; j++)
             {
               size_t dindexes[3];
               size_t n_dindexes = 0;
@@ -2697,9 +2813,9 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
                     dindexes[n_dindexes++] = leaf;
                   }
 
-              double d = ctables_summary_value (cell, &cell->summaries[j], &sss->specs[j]);
+              double d = ctables_summary_value (cell, &cell->summaries[j], &specs->specs[j]);
               struct pivot_value *value = pivot_value_new_number (d);
-              value->numeric.format = sss->specs[j].format;
+              value->numeric.format = specs->specs[j].format;
               pivot_table_put (pt, dindexes, n_dindexes, value);
             }
         }