better comment
[pspp] / src / language / stats / ctables.c
index 8ced195ee30efec3233531da82eb0220ff71949b..2eed4be1bf39071e2208df9587771bee5c8a4f32 100644 (file)
@@ -22,6 +22,7 @@
 #include "data/dataset.h"
 #include "data/dictionary.h"
 #include "data/mrset.h"
+#include "data/value-labels.h"
 #include "language/command.h"
 #include "language/lexer/format-parser.h"
 #include "language/lexer/lexer.h"
@@ -277,13 +278,6 @@ struct ctables_postcompute_expr
       };
   };
 
-enum ctables_label_position
-  {
-    CTLP_NORMAL,
-    CTLP_OPPOSITE,
-    CTLP_LAYER,
-  };
-
 struct ctables_summary_spec_set
   {
     struct ctables_summary_spec *specs;
@@ -316,6 +310,12 @@ struct ctables_stack
     size_t n;
   };
 
+struct ctables_value
+  {
+    struct hmap_node node;
+    union value value;
+  };
+
 struct ctables_table
   {
     struct ctables_axis *axes[PIVOT_N_AXES];
@@ -325,11 +325,23 @@ struct ctables_table
     struct hmap cells;
     struct hmap domains[N_CTDTS];
 
+    const struct variable *clabels_example;
+    struct hmap clabels_values_map;
+    union value *clabels_values;
+
     enum pivot_axis_type slabels_axis;
     bool slabels_visible;
 
-    enum ctables_label_position row_labels;
-    enum ctables_label_position col_labels;
+    /* The innermost category labels for axis 'a' appear on axis label_axis[a].
+
+       Most commonly, label_axis[a] == a, and in particular we always have
+       label_axis{PIVOT_AXIS_LAYER] == PIVOT_AXIS_LAYER.
+
+       If ROWLABELS or COLLABELS is specified, then one of
+       label_axis[PIVOT_AXIS_ROW] or label_axis[PIVOT_AXIS_COLUMN] can be the
+       opposite axis or PIVOT_AXIS_LAYER.  Only one of them will differ.
+    */
+    enum pivot_axis_type label_axis[PIVOT_N_AXES];
 
     /* Indexed by variable dictionary index. */
     struct ctables_categories **categories;
@@ -451,6 +463,46 @@ ctables_category_uninit (struct ctables_category *cat)
     }
 }
 
+static bool
+ctables_category_equal (const struct ctables_category *a,
+                        const struct ctables_category *b)
+{
+  if (a->type != b->type)
+    return false;
+
+  switch (a->type)
+    {
+    case CCT_NUMBER:
+      return a->number == b->number;
+
+    case CCT_STRING:
+      return strcmp (a->string, b->string);
+
+    case CCT_RANGE:
+      return a->range[0] == b->range[0] && a->range[1] == b->range[1];
+
+    case CCT_MISSING:
+    case CCT_OTHERNM:
+      return true;
+
+    case CCT_SUBTOTAL:
+    case CCT_HSUBTOTAL:
+    case CCT_TOTAL:
+      return !strcmp (a->total_label, b->total_label);
+
+    case CCT_VALUE:
+    case CCT_LABEL:
+    case CCT_FUNCTION:
+      return (a->include_missing == b->include_missing
+              && a->sort_ascending == b->sort_ascending
+              && a->sort_function == b->sort_function
+              && a->sort_var == b->sort_var
+              && a->percentile == b->percentile);
+    }
+
+  NOT_REACHED ();
+}
+
 static void
 ctables_categories_unref (struct ctables_categories *c)
 {
@@ -467,6 +519,20 @@ ctables_categories_unref (struct ctables_categories *c)
   free (c);
 }
 
+static bool
+ctables_categories_equal (const struct ctables_categories *a,
+                          const struct ctables_categories *b)
+{
+  if (a->n_cats != b->n_cats || a->show_empty != b->show_empty)
+    return false;
+
+  for (size_t i = 0; i < a->n_cats; i++)
+    if (!ctables_category_equal (&a->cats[i], &b->cats[i]))
+      return false;
+
+  return true;
+}
+
 /* Chi-square test (SIGTEST). */
 struct ctables_chisq
   {
@@ -2631,7 +2697,6 @@ ctables_table_output_same_axis (struct ctables *ct, struct ctables_table *t)
   pivot_table_submit (pt);
 }
 
-
 static void
 ctables_table_output_different_axis (struct ctables *ct, struct ctables_table *t)
 {
@@ -2689,6 +2754,26 @@ ctables_table_output_different_axis (struct ctables *ct, struct ctables_table *t
           struct ctables_cell *cell = sorted[j];
           const struct ctables_nest *nest = &t->stacks[a].nests[cell->axes[a].stack_idx];
 
+          /* Pivot categories:
+
+             - variable label for nest->vars[0], if vlabel != CTVL_NONE
+             - category for nest->vars[0]
+             - variable label for nest->vars[1], if vlabel != CTVL_NONE
+             - category for nest->vars[1]
+             ...
+             - variable label for nest->vars[nest->n - 1], if vlabel != CTVL_NONE
+             - category for nest->vars[nest->n - 1], unless t->label_axis[a] != a.
+             - summary function, if 'a == t->slabels_axis && a ==
+               t->summary_axis'.
+
+             Additional dimensions:
+
+             - If 'a == t->slabels_axis && a != t->summary_axis', add a summary
+               dimension.
+             - If 't->label_axis[b] == a' for some 'b != a', add a category
+               dimension to 'a'.
+           */
+
           size_t n_common = 0;
           bool new_subtable = false;
           if (j > 0)
@@ -2935,6 +3020,60 @@ ctables_prepare_table (struct ctables_table *t)
 #endif
 }
 
+static void
+ctables_insert_clabels_values (struct ctables_table *t, const struct ccase *c,
+                               enum pivot_axis_type a)
+{
+  struct ctables_stack *stack = &t->stacks[a];
+  for (size_t i = 0; i < stack->n; i++)
+    {
+      const struct ctables_nest *nest = &stack->nests[i];
+      const struct variable *v = nest->vars[nest->n - 1];
+      int width = var_get_width (v);
+      const union value *value = case_data (c, v);
+      unsigned int hash = value_hash (value, width, 0);
+
+      struct ctables_value *clv;
+      HMAP_FOR_EACH_WITH_HASH (clv, struct ctables_value, node, hash,
+                               &t->clabels_values_map)
+        if (value_equal (value, &clv->value, width))
+          goto next_stack;
+
+      clv = xmalloc (sizeof *clv);
+      value_clone (&clv->value, value, width);
+      hmap_insert (&t->clabels_values_map, &clv->node, hash);
+
+    next_stack: ;
+    }
+}
+
+static int
+compare_clabels_values_3way (const void *a_, const void *b_, const void *width_)
+{
+  const union value *a = a_;
+  const union value *b = b_;
+  const int *width = width_;
+  return value_compare_3way (a, b, *width);
+}
+
+static void
+ctables_sort_clabels_values (struct ctables_table *t)
+{
+  int width = var_get_width (t->clabels_example);
+
+  size_t n = hmap_count (&t->clabels_values_map);
+  t->clabels_values = xnmalloc (n, sizeof *t->clabels_values);
+
+  const struct ctables_value *clv;
+  size_t i = 0;
+  HMAP_FOR_EACH (clv, struct ctables_value, node, &t->clabels_values_map)
+    t->clabels_values[i++] = clv->value;
+  assert (i == n);
+
+  sort (t->clabels_values, n, sizeof *t->clabels_values,
+        compare_clabels_values_3way, &width);
+}
+
 static bool
 ctables_execute (struct dataset *ds, struct ctables *ct)
 {
@@ -2958,6 +3097,10 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
             for (size_t ic = 0; ic < t->stacks[PIVOT_AXIS_COLUMN].n; ic++)
               for (size_t il = 0; il < t->stacks[PIVOT_AXIS_LAYER].n; il++)
                 ctables_cell_insert (t, c, ir, ic, il, weight);
+
+          for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+            if (t->label_axis[a] != a)
+              ctables_insert_clabels_values (t, c, a);
         }
     }
   casereader_destroy (input);
@@ -2965,6 +3108,10 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
   for (size_t i = 0; i < ct->n_tables; i++)
     {
       struct ctables_table *t = ct->tables[i];
+
+      if (t->clabels_example)
+        ctables_sort_clabels_values (t);
+
       if (t->summary_axis == t->slabels_axis)
         ctables_table_output_same_axis (ct, ct->tables[i]);
       else
@@ -2973,6 +3120,77 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
   return proc_commit (ds);
 }
 
+static bool
+ctables_check_label_position (struct ctables_table *t, enum pivot_axis_type a)
+{
+  enum pivot_axis_type label_pos = t->label_axis[a];
+  if (label_pos == a)
+    return true;
+
+  const char *subcommand_name = a == PIVOT_AXIS_ROW ? "ROWLABELS" : "COLLABELS";
+  const char *pos_name = label_pos == PIVOT_AXIS_LAYER ? "LAYER" : "OPPOSITE";
+
+  const struct ctables_stack *stack = &t->stacks[a];
+  if (!stack->n)
+    return true;
+
+  const struct ctables_nest *n0 = &stack->nests[0];
+  assert (n0->n > 0);
+  const struct variable *v0 = n0->vars[n0->n - 1];
+  struct ctables_categories *c0 = t->categories[var_get_dict_index (v0)];
+  t->clabels_example = v0;
+
+  for (size_t i = 0; i < c0->n_cats; i++)
+    if (c0->cats[i].type == CCT_FUNCTION)
+      {
+        msg (SE, _("%s=%s is not allowed with sorting based "
+                   "on a summary function."),
+             subcommand_name, pos_name);
+        return false;
+      }
+
+  for (size_t i = 1; i < stack->n; i++)
+    {
+      const struct ctables_nest *ni = &stack->nests[i];
+      assert (ni->n > 0);
+      const struct variable *vi = ni->vars[ni->n - 1];
+      struct ctables_categories *ci = t->categories[var_get_dict_index (vi)];
+
+      if (var_get_width (v0) != var_get_width (vi))
+        {
+          msg (SE, _("%s=%s requires the variables to be "
+                     "moved to have the same width, but %s has "
+                     "width %d and %s has width %d."),
+               subcommand_name, pos_name,
+               var_get_name (v0), var_get_width (v0),
+               var_get_name (vi), var_get_width (vi));
+          return false;
+        }
+      if (!val_labs_equal (var_get_value_labels (v0),
+                           var_get_value_labels (vi)))
+        {
+          msg (SE, _("%s=%s requires the variables to be "
+                     "moved to have the same value labels, but %s "
+                     "and %s have different value labels."),
+               subcommand_name, pos_name,
+               var_get_name (v0), var_get_name (vi));
+          return false;
+        }
+      if (!ctables_categories_equal (c0, ci))
+        {
+          msg (SE, _("%s=%s requires the variables to be "
+                     "moved to have the same category "
+                     "specifications, but %s and %s have different "
+                     "category specifications."),
+               subcommand_name, pos_name,
+               var_get_name (v0), var_get_name (vi));
+          return false;
+        }
+    }
+
+  return true;
+}
+
 int
 cmd_ctables (struct lexer *lexer, struct dataset *ds)
 {
@@ -3210,8 +3428,12 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
         .cells = HMAP_INITIALIZER (t->cells),
         .slabels_axis = PIVOT_AXIS_COLUMN,
         .slabels_visible = true,
-        .row_labels = CTLP_NORMAL,
-        .col_labels = CTLP_NORMAL,
+        .clabels_values_map = HMAP_INITIALIZER (t->clabels_values_map),
+        .label_axis = {
+          [PIVOT_AXIS_ROW] = PIVOT_AXIS_ROW,
+          [PIVOT_AXIS_COLUMN] = PIVOT_AXIS_COLUMN,
+          [PIVOT_AXIS_LAYER] = PIVOT_AXIS_LAYER,
+        },
         .categories = categories,
         .n_categories = n_vars,
         .cilevel = 95,
@@ -3342,14 +3564,17 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
               while (lex_token (lexer) != T_SLASH && lex_token (lexer) != T_ENDCMD)
                 {
                   if (lex_match_id (lexer, "AUTO"))
-                    t->row_labels = t->col_labels = CTLP_NORMAL;
+                    {
+                      t->label_axis[PIVOT_AXIS_ROW] = PIVOT_AXIS_ROW;
+                      t->label_axis[PIVOT_AXIS_COLUMN] = PIVOT_AXIS_COLUMN;
+                    }
                   else if (lex_match_id (lexer, "ROWLABELS"))
                     {
                       lex_match (lexer, T_EQUALS);
                       if (lex_match_id (lexer, "OPPOSITE"))
-                        t->row_labels = CTLP_OPPOSITE;
+                        t->label_axis[PIVOT_AXIS_ROW] = PIVOT_AXIS_COLUMN;
                       else if (lex_match_id (lexer, "LAYER"))
-                        t->row_labels = CTLP_LAYER;
+                        t->label_axis[PIVOT_AXIS_ROW] = PIVOT_AXIS_LAYER;
                       else
                         {
                           lex_error_expecting (lexer, "OPPOSITE", "LAYER");
@@ -3360,9 +3585,9 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
                     {
                       lex_match (lexer, T_EQUALS);
                       if (lex_match_id (lexer, "OPPOSITE"))
-                        t->col_labels = CTLP_OPPOSITE;
+                        t->label_axis[PIVOT_AXIS_COLUMN] = PIVOT_AXIS_ROW;
                       else if (lex_match_id (lexer, "LAYER"))
-                        t->col_labels = CTLP_LAYER;
+                        t->label_axis[PIVOT_AXIS_COLUMN] = PIVOT_AXIS_LAYER;
                       else
                         {
                           lex_error_expecting (lexer, "OPPOSITE", "LAYER");
@@ -3637,7 +3862,8 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
             break;
         }
 
-      if (t->row_labels != CTLP_NORMAL && t->col_labels != CTLP_NORMAL)
+      if (t->label_axis[PIVOT_AXIS_ROW] != PIVOT_AXIS_ROW
+          && t->label_axis[PIVOT_AXIS_COLUMN] != PIVOT_AXIS_COLUMN)
         {
           msg (SE, _("ROWLABELS and COLLABELS may not both be specified."));
           goto error;
@@ -3645,7 +3871,8 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
 
       ctables_prepare_table (t);
 
-      
+      ctables_check_label_position (t, PIVOT_AXIS_ROW);
+      ctables_check_label_position (t, PIVOT_AXIS_COLUMN);
     }
   while (lex_token (lexer) != T_ENDCMD);