category filtering works
[pspp] / src / language / stats / ctables.c
index 7023c05adbedaf01e8ae62c8ad13041edebd3340..07de68d919361ecb73cd7c8b269b1698b21295f7 100644 (file)
@@ -28,6 +28,7 @@
 #include "language/lexer/variable-parser.h"
 #include "libpspp/array.h"
 #include "libpspp/assertion.h"
+#include "libpspp/hash-functions.h"
 #include "libpspp/hmap.h"
 #include "libpspp/message.h"
 #include "libpspp/string-array.h"
@@ -143,6 +144,53 @@ enum {
 #undef S
 };
 
+enum ctables_domain_type
+  {
+    /* Within a section, where stacked variables divide one section from
+       another. */
+    CTDT_TABLE,                  /* All layers of a whole section. */
+    CTDT_LAYER,                  /* One layer within a section. */
+    CTDT_LAYERROW,               /* Row in one layer within a section. */
+    CTDT_LAYERCOL,               /* Column in one layer within a section. */
+
+    /* Within a subtable, where a subtable pairs an innermost row variable with
+       an innermost column variable within a single layer.  */
+    CTDT_SUBTABLE,               /* Whole subtable. */
+    CTDT_ROW,                    /* Row within a subtable. */
+    CTDT_COL,                    /* Column within a subtable. */
+#define N_CTDTS 7
+  };
+
+struct ctables_domain
+  {
+    struct hmap_node node;
+
+    const struct ctables_freq *example;
+
+    double valid;
+    double missing;
+  };
+
+struct ctables_freq
+  {
+    /* In struct ctables's 'ft' hmap.  Indexed by all the values in all the
+       axes (except the scalar variable, if any). */
+    struct hmap_node node;
+
+    /* The domains that contains this cell. */
+    struct ctables_domain *domains[N_CTDTS];
+
+    struct
+      {
+        size_t vaa_idx;
+        union value *values;
+        int leaf;
+      }
+    axes[PIVOT_N_AXES];
+
+    union ctables_summary *summaries;
+  };
+
 struct ctables
   {
     struct pivot_table_look *look;
@@ -163,7 +211,7 @@ struct ctables
     struct variable *base_weight; /* WEIGHT. */
     int hide_threshold;           /* HIDESMALLCOUNTS. */
 
-    struct ctables_table *tables;
+    struct ctables_table **tables;
     size_t n_tables;
   };
 
@@ -221,9 +269,32 @@ enum ctables_label_position
     CTLP_LAYER,
   };
 
+struct var_array
+  {
+    struct variable **vars;
+    size_t n;
+    size_t scale_idx;
+    size_t *domains[N_CTDTS];
+    size_t n_domains[N_CTDTS];
+
+    struct ctables_summary_spec *summaries;
+    size_t n_summaries;
+    struct variable *summary_var;
+  };
+
+struct var_array2
+  {
+    struct var_array *vas;
+    size_t n;
+  };
+
 struct ctables_table
   {
     struct ctables_axis *axes[PIVOT_N_AXES];
+    struct var_array2 vaas[PIVOT_N_AXES];
+    enum pivot_axis_type summary_axis;
+    struct hmap ft;
+    struct hmap domains[N_CTDTS];
 
     enum pivot_axis_type slabels_position;
     bool slabels_visible;
@@ -243,9 +314,6 @@ struct ctables_table
 
     struct ctables_chisq *chisq;
     struct ctables_pairwise *pairwise;
-
-    struct ctables_freqtab **fts;
-    size_t n_fts;
   };
 
 struct ctables_var
@@ -602,6 +670,21 @@ ctables_summary_default_format (enum ctables_summary_function function,
     }
 }
 
+static char *
+ctables_summary_default_label (enum ctables_summary_function function,
+                               double percentile)
+{
+  static const char *default_labels[] = {
+#define S(ENUM, NAME, LABEL, FORMAT, AVAILABILITY) [ENUM] = LABEL,
+    SUMMARIES
+#undef S
+  };
+
+  return (function == CTSF_PTILE
+          ? xasprintf (_("Percentile %.2f"), percentile)
+          : xstrdup (gettext (default_labels[function])));
+}
+
 static const char *
 ctables_summary_function_name (enum ctables_summary_function function)
 {
@@ -778,17 +861,8 @@ ctables_axis_parse_postfix (struct ctables_axis_parse_ctx *ctx)
           label = ss_xstrdup (lex_tokss (ctx->lexer));
           lex_get (ctx->lexer);
         }
-      else if (function == CTSF_PTILE)
-        label = xasprintf (_("Percentile %.2f"), percentile);
       else
-        {
-          static const char *default_labels[] = {
-#define S(ENUM, NAME, LABEL, FORMAT, AVAILABILITY) [ENUM] = LABEL,
-            SUMMARIES
-#undef S
-          };
-          label = xstrdup (gettext (default_labels[function]));
-        }
+        label = ctables_summary_default_label (function, percentile);
 
       /* Parse format. */
       struct fmt_spec format;
@@ -971,7 +1045,7 @@ ctables_pairwise_destroy (struct ctables_pairwise *pairwise)
 }
 
 static void
-ctables_table_uninit (struct ctables_table *t)
+ctables_table_destroy (struct ctables_table *t)
 {
   if (!t)
     return;
@@ -988,6 +1062,7 @@ ctables_table_uninit (struct ctables_table *t)
   free (t->title);
   ctables_chisq_destroy (t->chisq);
   ctables_pairwise_destroy (t->pairwise);
+  free (t);
 }
 
 static void
@@ -1001,7 +1076,7 @@ ctables_destroy (struct ctables *ct)
   free (ct->missing);
   free (ct->vlabels);
   for (size_t i = 0; i < ct->n_tables; i++)
-    ctables_table_uninit (&ct->tables[i]);
+    ctables_table_destroy (ct->tables[i]);
   free (ct->tables);
   free (ct);
 }
@@ -1241,13 +1316,6 @@ ctables_table_parse_categories (struct lexer *lexer, struct dictionary *dict,
   return true;
 }
 
-struct var_array
-  {
-    const struct ctables_axis *summary;
-    struct variable **vars;
-    size_t n;
-  };
-
 static void
 var_array_uninit (struct var_array *va)
 {
@@ -1255,12 +1323,6 @@ var_array_uninit (struct var_array *va)
     free (va->vars);
 }
 
-struct var_array2
-  {
-    struct var_array *vas;
-    size_t n;
-  };
-
 static void
 var_array2_uninit (struct var_array2 *vaa)
 {
@@ -1289,6 +1351,7 @@ nest_fts (struct var_array2 va0, struct var_array2 va1)
 
         size_t allocate = a->n + b->n;
         struct variable **vars = xnmalloc (allocate, sizeof *vars);
+        enum pivot_axis_type *axes = xnmalloc (allocate, sizeof *axes);
         size_t n = 0;
         for (size_t k = 0; k < a->n; k++)
           vars[n++] = a->vars[k];
@@ -1296,11 +1359,22 @@ nest_fts (struct var_array2 va0, struct var_array2 va1)
           vars[n++] = b->vars[k];
         assert (n == allocate);
 
-        assert (!(a->summary && b->summary));
+        const struct var_array *summary_src;
+        if (!a->summary_var)
+          summary_src = b;
+        else if (!b->summary_var)
+          summary_src = a;
+        else
+          NOT_REACHED ();
         vaa.vas[vaa.n++] = (struct var_array) {
-          .summary = a->summary ? a->summary : b->summary,
           .vars = vars,
-          .n = n
+          .scale_idx = (a->scale_idx != SIZE_MAX ? a->scale_idx
+                        : b->scale_idx != SIZE_MAX ? a->n + b->scale_idx
+                        : SIZE_MAX),
+          .n = n,
+          .summaries = summary_src->summaries,
+          .n_summaries = summary_src->n_summaries,
+          .summary_var = summary_src->summary_var,
         };
       }
   var_array2_uninit (&va0);
@@ -1323,7 +1397,7 @@ stack_fts (struct var_array2 va0, struct var_array2 va1)
 }
 
 static struct var_array2
-enumerate_fts (const struct ctables_axis *a)
+enumerate_fts (enum pivot_axis_type axis_type, const struct ctables_axis *a)
 {
   if (!a)
     return (struct var_array2) { .n = 0 };
@@ -1332,25 +1406,31 @@ enumerate_fts (const struct ctables_axis *a)
     {
     case CTAO_VAR:
       assert (!a->var.is_mrset);
+
+      struct variable **vars = xmalloc (sizeof *vars);
+      *vars = a->var.var;
+
       struct var_array *va = xmalloc (sizeof *va);
-      if (a->scale)
-        *va = (struct var_array) { .n = 0 };
-      else
+      *va = (struct var_array) {
+        .vars = vars,
+        .n = 1,
+        .scale_idx = a->scale ? 0 : SIZE_MAX,
+      };
+      if (a->n_summaries || a->scale)
         {
-          struct variable **v = xmalloc (sizeof *v);
-          *v = a->var.var;
-          *va = (struct var_array) { .vars = v, .n = 1 };
+          va->summaries = a->summaries;
+          va->n_summaries = a->n_summaries;
+          va->summary_var = a->var.var;
         }
-      va->summary = a->scale || a->n_summaries ? a : NULL;
       return (struct var_array2) { .vas = va, .n = 1 };
 
     case CTAO_STACK:
-      return stack_fts (enumerate_fts (a->subs[0]),
-                        enumerate_fts (a->subs[1]));
+      return stack_fts (enumerate_fts (axis_type, a->subs[0]),
+                        enumerate_fts (axis_type, a->subs[1]));
 
     case CTAO_NEST:
-      return nest_fts (enumerate_fts (a->subs[0]),
-                       enumerate_fts (a->subs[1]));
+      return nest_fts (enumerate_fts (axis_type, a->subs[0]),
+                       enumerate_fts (axis_type, a->subs[1]));
     }
 
   NOT_REACHED ();
@@ -1467,7 +1547,7 @@ ctables_summary_init (union ctables_summary *s,
     }
 }
 
-static void
+static void UNUSED
 ctables_summary_uninit (union ctables_summary *s,
                         const struct ctables_summary_spec *ss)
 {
@@ -1655,9 +1735,9 @@ ctables_summary_add (union ctables_summary *s,
     }
 }
 
-
 static double
-ctables_summary_value (union ctables_summary *s,
+ctables_summary_value (const struct ctables_freq *f,
+                       union ctables_summary *s,
                        const struct ctables_summary_spec *ss)
 {
   switch (ss->function)
@@ -1666,13 +1746,27 @@ ctables_summary_value (union ctables_summary *s,
     case CTSF_ECOUNT:
       return s->valid;
 
+    case CTSF_SUBTABLEPCT_COUNT:
+      return f->domains[CTDT_SUBTABLE]->valid ? s->valid / f->domains[CTDT_SUBTABLE]->valid * 100 : SYSMIS;
+
     case CTSF_ROWPCT_COUNT:
+      return f->domains[CTDT_ROW]->valid ? s->valid / f->domains[CTDT_ROW]->valid * 100 : SYSMIS;
+
     case CTSF_COLPCT_COUNT:
+      return f->domains[CTDT_COL]->valid ? s->valid / f->domains[CTDT_COL]->valid * 100 : SYSMIS;
+
     case CTSF_TABLEPCT_COUNT:
-    case CTSF_SUBTABLEPCT_COUNT:
+      return f->domains[CTDT_TABLE]->valid ? s->valid / f->domains[CTDT_TABLE]->valid * 100 : SYSMIS;
+
     case CTSF_LAYERPCT_COUNT:
+      return f->domains[CTDT_LAYER]->valid ? s->valid / f->domains[CTDT_LAYER]->valid * 100 : SYSMIS;
+
     case CTSF_LAYERROWPCT_COUNT:
+      return f->domains[CTDT_LAYERROW]->valid ? s->valid / f->domains[CTDT_LAYERROW]->valid * 100 : SYSMIS;
+
     case CTSF_LAYERCOLPCT_COUNT:
+      return f->domains[CTDT_LAYERCOL]->valid ? s->valid / f->domains[CTDT_LAYERCOL]->valid * 100 : SYSMIS;
+
     case CTSF_ROWPCT_VALIDN:
     case CTSF_COLPCT_VALIDN:
     case CTSF_TABLEPCT_VALIDN:
@@ -1784,58 +1878,236 @@ ctables_summary_value (union ctables_summary *s,
   NOT_REACHED ();
 }
 
-struct ctables_freq
+struct ctables_freq_sort_aux
   {
-    struct hmap_node node;      /* Element in hash table. */
-    union ctables_summary *summaries;
-    union value values[];      /* The value. */
+    const struct ctables_table *t;
+    enum pivot_axis_type a;
   };
 
-struct ctables_freqtab
-  {
-    struct var_array vars;
-    struct hmap data;           /* Contains "struct ctables_freq"s. */
-    const struct ctables_summary_spec *summaries;
-    size_t n_summaries;
-    const struct variable *summary_var;
-    struct ctables_freq **sorted;
-  };
+static int
+ctables_freq_compare_3way (const void *a_, const void *b_, const void *aux_)
+{
+  const struct ctables_freq_sort_aux *aux = aux_;
+  struct ctables_freq *const *ap = a_;
+  struct ctables_freq *const *bp = b_;
+  const struct ctables_freq *a = *ap;
+  const struct ctables_freq *b = *bp;
+
+  size_t a_idx = a->axes[aux->a].vaa_idx;
+  size_t b_idx = b->axes[aux->a].vaa_idx;
+  if (a_idx != b_idx)
+    return a_idx < b_idx ? -1 : 1;
+
+  const struct var_array *va = &aux->t->vaas[aux->a].vas[a_idx];
+  for (size_t i = 0; i < va->n; i++)
+    if (i != va->scale_idx)
+      {
+        int cmp = value_compare_3way (&a->axes[aux->a].values[i],
+                                      &b->axes[aux->a].values[i],
+                                      var_get_width (va->vars[i]));
+        if (cmp)
+          return cmp;
+      }
+  return 0;
+}
 
-static struct ctables_freq *
-ctables_freq_create (struct ctables_freqtab *ft)
+/* Algorithm:
+
+   For each row:
+       For each ctables_table:
+           For each combination of row vars:
+               For each combination of column vars:
+                   For each combination of layer vars:
+                       Add entry
+   Make a table of row values:
+       Sort entries by row values
+       Assign a 0-based index to each actual value
+       Construct a dimension
+   Make a table of column values
+   Make a table of layer values
+   For each entry:
+       Fill the table entry using the indexes from before.
+ */
+
+static struct ctables_domain *
+ctables_domain_insert (struct ctables_table *t, struct ctables_freq *f,
+                       enum ctables_domain_type domain)
 {
-  struct ctables_freq *f = xmalloc (sizeof *f + ft->vars.n * sizeof *f->values);
-  f->summaries = xmalloc (ft->n_summaries * sizeof *f->summaries);
-  for (size_t i = 0; i < ft->n_summaries; i++)
-    ctables_summary_init (&f->summaries[i], &ft->summaries[i]);
-  return f;
+  size_t hash = 0;
+  for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+    {
+      size_t idx = f->axes[a].vaa_idx;
+      const struct var_array *va = &t->vaas[a].vas[idx];
+      hash = hash_int (idx, hash);
+      for (size_t i = 0; i < va->n_domains[domain]; i++)
+        {
+          size_t v_idx = va->domains[domain][i];
+          hash = value_hash (&f->axes[a].values[v_idx],
+                             var_get_width (va->vars[v_idx]), hash);
+        }
+    }
+
+  struct ctables_domain *d;
+  HMAP_FOR_EACH_WITH_HASH (d, struct ctables_domain, node, hash, &t->domains[domain])
+    {
+      const struct ctables_freq *df = d->example;
+      for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+        {
+          size_t idx = f->axes[a].vaa_idx;
+          if (idx != df->axes[a].vaa_idx)
+            goto not_equal;
+
+          const struct var_array *va = &t->vaas[a].vas[idx];
+          for (size_t i = 0; i < va->n_domains[domain]; i++)
+            {
+              size_t v_idx = va->domains[domain][i];
+              if (!value_equal (&df->axes[a].values[v_idx],
+                                &f->axes[a].values[v_idx],
+                                var_get_width (va->vars[v_idx])))
+                goto not_equal;
+            }
+        }
+      return d;
+
+    not_equal: ;
+    }
+
+  d = xmalloc (sizeof *d);
+  *d = (struct ctables_domain) { .example = f };
+  hmap_insert (&t->domains[domain], &d->node, hash);
+  return d;
 }
 
-static void
-ctables_freq_add (struct ctables_freqtab *ft, struct ctables_freq *f,
-                  const struct variable *var, const union value *value,
-                  double weight)
+static const struct ctables_cat_value *
+ctables_categories_match (const struct ctables_categories *cats,
+                          const union value *v, const struct variable *var)
 {
-  for (size_t i = 0; i < ft->n_summaries; i++)
-    ctables_summary_add (&f->summaries[i], &ft->summaries[i],
-                         var, value, weight);
+  const struct ctables_cat_value *othernm = NULL;
+  for (size_t i = cats->n_values; i-- > 0; )
+    {
+      const struct ctables_cat_value *cv = &cats->values[i];
+      switch (cv->type)
+        {
+        case CCVT_NUMBER:
+          if (cv->number == v->f)
+            return cv;
+          break;
+
+        case CCVT_STRING:
+          NOT_REACHED ();
+
+        case CCVT_RANGE:
+          if ((cv->range[0] == -DBL_MAX || v->f >= cv->range[0])
+              && (cv->range[1] == DBL_MAX || v->f <= cv->range[1]))
+            return cv;
+          break;
+
+        case CCVT_MISSING:
+          if (var_is_value_missing (var, v))
+            return cv;
+          break;
+
+        case CCVT_OTHERNM:
+          if (!othernm)
+            othernm = cv;
+          break;
+
+        case CCVT_SUBTOTAL:
+        case CCVT_HSUBTOTAL:
+          break;
+        }
+    }
+
+  return var_is_value_missing (var, v) ? NULL : othernm;
 }
 
-static int
-ctables_freq_compare_3way (const void *a_, const void *b_, const void *vars_)
+static void
+ctables_freqtab_insert (struct ctables_table *t,
+                        const struct ccase *c,
+                        size_t ir, size_t ic, size_t il,
+                        double weight)
 {
-  const struct var_array *vars = vars_;
-  struct ctables_freq *const *a = a_;
-  struct ctables_freq *const *b = b_;
+  size_t ix[PIVOT_N_AXES] = {
+    [PIVOT_AXIS_ROW] = ir,
+    [PIVOT_AXIS_COLUMN] = ic,
+    [PIVOT_AXIS_LAYER] = il,
+  };
+  const struct var_array *ss = &t->vaas[t->summary_axis].vas[ix[t->summary_axis]];
 
-  for (size_t i = 0; i < vars->n; i++)
+  for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
     {
-      int cmp = value_compare_3way (&(*a)->values[i], &(*b)->values[i],
-                                    var_get_width (vars->vars[i]));
-      if (cmp)
-        return cmp;
+      const struct var_array *va = &t->vaas[a].vas[ix[a]];
+      for (size_t i = 0; i < va->n; i++)
+        {
+          if (i == va->scale_idx)
+            continue;
+
+          const struct ctables_categories *cats = t->categories[var_get_dict_index (va->vars[i])];
+          if (!cats || !cats->n_values)
+            continue;
+
+          if (!ctables_categories_match (cats, case_data (c, va->vars[i]), va->vars[i]))
+            return;
+        }
     }
-  return 0;
+
+  size_t hash = 0;
+  for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+    {
+      const struct var_array *va = &t->vaas[a].vas[ix[a]];
+      hash = hash_int (ix[a], hash);
+      for (size_t i = 0; i < va->n; i++)
+        if (i != va->scale_idx)
+          hash = value_hash (case_data (c, va->vars[i]),
+                             var_get_width (va->vars[i]), hash);
+    }
+
+  struct ctables_freq *f;
+  HMAP_FOR_EACH_WITH_HASH (f, struct ctables_freq, node, hash, &t->ft)
+    {
+      for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+        {
+          const struct var_array *va = &t->vaas[a].vas[ix[a]];
+          if (f->axes[a].vaa_idx != ix[a])
+            goto not_equal;
+          for (size_t i = 0; i < va->n; i++)
+            if (i != va->scale_idx
+                && !value_equal (case_data (c, va->vars[i]),
+                                 &f->axes[a].values[i],
+                                 var_get_width (va->vars[i])))
+                goto not_equal;
+        }
+
+      goto summarize;
+
+    not_equal: ;
+    }
+
+  f = xmalloc (sizeof *f);
+  for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+    {
+      const struct var_array *va = &t->vaas[a].vas[ix[a]];
+      f->axes[a].vaa_idx = ix[a];
+      f->axes[a].values = (va->n
+                           ? xnmalloc (va->n, sizeof *f->axes[a].values)
+                           : NULL);
+      for (size_t i = 0; i < va->n; i++)
+        value_clone (&f->axes[a].values[i], case_data (c, va->vars[i]),
+                     var_get_width (va->vars[i]));
+    }
+  f->summaries = xmalloc (ss->n_summaries * sizeof *f->summaries);
+  for (size_t i = 0; i < ss->n_summaries; i++)
+    ctables_summary_init (&f->summaries[i], &ss->summaries[i]);
+  for (enum ctables_domain_type dt = 0; dt < N_CTDTS; dt++)
+    f->domains[dt] = ctables_domain_insert (t, f, dt);
+  hmap_insert (&t->ft, &f->node, hash);
+
+summarize:
+  for (size_t i = 0; i < ss->n_summaries; i++)
+    ctables_summary_add (&f->summaries[i], &ss->summaries[i], ss->summary_var,
+                         case_data (c, ss->summary_var), weight);
+  for (enum ctables_domain_type dt = 0; dt < N_CTDTS; dt++)
+    f->domains[dt]->valid += weight;
 }
 
 static bool
@@ -1843,225 +2115,291 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
 {
   for (size_t i = 0; i < ct->n_tables; i++)
     {
-      size_t allocated_fts = 0;
+      struct ctables_table *t = ct->tables[i];
+      for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+        if (t->axes[a])
+          {
+            t->vaas[a] = enumerate_fts (a, t->axes[a]);
 
-      struct ctables_table *t = &ct->tables[i];
-      struct var_array2 vaa = enumerate_fts (t->axes[PIVOT_AXIS_ROW]);
-      vaa = nest_fts (vaa, enumerate_fts (t->axes[PIVOT_AXIS_COLUMN]));
-      vaa = nest_fts (vaa, enumerate_fts (t->axes[PIVOT_AXIS_LAYER]));
-      for (size_t i = 0; i < vaa.n; i++)
-        {
-          for (size_t j = 0; j < vaa.vas[i].n; j++)
-            {
-              if (j)
-                fputs (", ", stdout);
-              fputs (var_get_name (vaa.vas[i].vars[j]), stdout);
-            }
-          putchar ('\n');
-        }
+            for (size_t j = 0; j < t->vaas[a].n; j++)
+              {
+                struct var_array *va = &t->vaas[a].vas[j];
+                for (enum ctables_domain_type dt = 0; dt < N_CTDTS; dt++)
+                  {
+                    va->domains[dt] = xmalloc (va->n * sizeof *va->domains[dt]);
+                    va->n_domains[dt] = 0;
+
+                    for (size_t k = 0; k < va->n; k++)
+                      {
+                        if (k == va->scale_idx)
+                          continue;
+
+                        switch (dt)
+                          {
+                          case CTDT_TABLE:
+                            continue;
+
+                          case CTDT_LAYER:
+                            if (a != PIVOT_AXIS_LAYER)
+                              continue;
+                            break;
+
+                          case CTDT_SUBTABLE:
+                          case CTDT_ROW:
+                          case CTDT_COL:
+                            if (dt == CTDT_SUBTABLE ? a != PIVOT_AXIS_LAYER
+                                : dt == CTDT_ROW ? a == PIVOT_AXIS_COLUMN
+                                : a == PIVOT_AXIS_ROW)
+                              {
+                                if (k == va->n - 1
+                                    || (va->scale_idx == va->n - 1
+                                        && k == va->n - 2))
+                                  continue;
+                              }
+                            break;
+
+                          case CTDT_LAYERROW:
+                            if (a == PIVOT_AXIS_COLUMN)
+                              continue;
+                            break;
+
+                          case CTDT_LAYERCOL:
+                            if (a == PIVOT_AXIS_ROW)
+                              continue;
+                            break;
+                          }
+
+                        va->domains[dt][va->n_domains[dt]++] = k;
+                      }
+                  }
+              }
+          }
+        else
+          {
+            struct var_array *va = xmalloc (sizeof *va);
+            *va = (struct var_array) { .n = 0 };
+            t->vaas[a] = (struct var_array2) { .vas = va, .n = 1 };
+          }
 
-      for (size_t j = 0; j < vaa.n; j++)
+      for (size_t i = 0; i < t->vaas[t->summary_axis].n; i++)
         {
-          const struct var_array *va = &vaa.vas[j];
-          const struct ctables_summary_spec *summaries;
-          size_t n_summaries;
-          const struct variable *summary_var;
-          if (!va->summary)
+          struct var_array *va = &t->vaas[t->summary_axis].vas[i];
+          if (!va->n_summaries)
             {
-              static const struct ctables_summary_spec count = {
-                .function = CTSF_COUNT,
-                .label = (char *) N_("Count"),
-                .format = { .type = FMT_F, .w = 40 },
+              va->summaries = xmalloc (sizeof *va->summaries);
+              va->n_summaries = 1;
+
+              enum ctables_summary_function function
+                = va->summary_var ? CTSF_MEAN : CTSF_COUNT;
+              struct ctables_var var = { .is_mrset = false, .var = va->summary_var };
+
+              *va->summaries = (struct ctables_summary_spec) {
+                .function = function,
+                .format = ctables_summary_default_format (function, &var),
+                .label = ctables_summary_default_label (function, 0),
               };
-              summaries = &count;
-              n_summaries = 1;
-              summary_var = va->vars[0];
-            }
-          else if (va->summary->n_summaries)
-            {
-              summaries = va->summary->summaries;
-              n_summaries = va->summary->n_summaries;
-              summary_var = va->summary->var.var;
+              if (!va->summary_var)
+                va->summary_var = va->vars[0];
             }
-          else
-            {
-              static const struct ctables_summary_spec mean = {
-                .function = CTSF_MEAN,
-                .label = (char *) N_("Mean"),
-                .format = { .type = FMT_F, .w = 40, .d = 2}, /* XXX */
-              };
-              summaries = &mean;
-              n_summaries = 1;
-              summary_var = va->summary->var.var;
-            };
-
-          struct ctables_freqtab *ft = xmalloc (sizeof *ft);
-          *ft = (struct ctables_freqtab) {
-            .vars = *va,
-            .summaries = summaries,
-            .n_summaries = n_summaries,
-            .summary_var = summary_var,
-            .data = HMAP_INITIALIZER (ft->data),
-          };
-
-          if (t->n_fts >= allocated_fts)
-            t->fts = x2nrealloc (t->fts, &allocated_fts, sizeof *t->fts);
-          t->fts[t->n_fts++] = ft;
         }
-
-      free (vaa.vas);
     }
 
   struct casereader *input = casereader_create_filter_weight (proc_open (ds),
                                                               dataset_dict (ds),
                                                               NULL, NULL);
   bool warn_on_invalid = true;
+  double total_weight = 0;
   for (struct ccase *c = casereader_read (input); c;
        case_unref (c), c = casereader_read (input))
     {
       double weight = dict_get_case_weight (dataset_dict (ds), c,
                                             &warn_on_invalid);
+      total_weight += weight;
 
       for (size_t i = 0; i < ct->n_tables; i++)
         {
-          struct ctables_table *t = &ct->tables[i];
+          struct ctables_table *t = ct->tables[i];
 
-          for (size_t j = 0; j < t->n_fts; j++)
-            {
-              struct ctables_freqtab *ft = t->fts[j];
-
-              for (size_t k = 0; k < ft->vars.n; k++)
-                {
-                  const struct variable *var = ft->vars.vars[k];
-                  switch (var_is_value_missing (var, case_data (c, var)))
-                    {
-                    case MV_SYSTEM:
-                      goto next_ft;
-
-                    case MV_USER:
-                      if (!t->categories[var_get_dict_index (var)]
-                          || !t->categories[var_get_dict_index (var)]->include_missing)
-                        goto next_ft;
-                      break;
-                    }
-                }
-              size_t hash = 0;
-              for (size_t k = 0; k < ft->vars.n; k++)
-                {
-                  const struct variable *var = ft->vars.vars[k];
-                  hash = value_hash (case_data (c, var), var_get_width (var), hash);
-                }
-
-              struct ctables_freq *f;
-              HMAP_FOR_EACH_WITH_HASH (f, struct ctables_freq, node, hash, &ft->data)
-                {
-                  for (size_t k = 0; k < ft->vars.n; k++)
-                    {
-                      const struct variable *var = ft->vars.vars[k];
-                      if (!value_equal (case_data (c, var), &f->values[k],
-                                        var_get_width (var)))
-                        goto next_hash_node;
-                    }
-                  goto found;
-
-                next_hash_node: ;
-                }
-
-              f = ctables_freq_create (ft);
-              for (size_t k = 0; k < ft->vars.n; k++)
-                {
-                  const struct variable *var = ft->vars.vars[k];
-                  value_clone (&f->values[k], case_data (c, var),
-                               var_get_width (var));
-                }
-              hmap_insert (&ft->data, &f->node, hash);
-
-            found:
-              ctables_freq_add (ft, f, ft->summary_var,
-                                case_data (c, ft->summary_var), weight);
-
-            next_ft: ;
-            }
+          for (size_t ir = 0; ir < t->vaas[PIVOT_AXIS_ROW].n; ir++)
+            for (size_t ic = 0; ic < t->vaas[PIVOT_AXIS_COLUMN].n; ic++)
+              for (size_t il = 0; il < t->vaas[PIVOT_AXIS_LAYER].n; il++)
+                ctables_freqtab_insert (t, c, ir, ic, il, weight);
         }
     }
   casereader_destroy (input);
 
   for (size_t i = 0; i < ct->n_tables; i++)
     {
-      struct ctables_table *t = &ct->tables[i];
-
-      struct pivot_table *pt = pivot_table_create (N_("Custom Tables"));
-      struct pivot_dimension *d = pivot_dimension_create (
-        pt, PIVOT_AXIS_ROW, N_("Rows"));
-      for (size_t j = 0; j < t->n_fts; j++)
+      struct ctables_table *t = ct->tables[i];
+
+      struct pivot_table *pt = pivot_table_create__ (
+        (t->title
+         ? pivot_value_new_user_text (t->title, SIZE_MAX)
+         : pivot_value_new_text (N_("Custom Tables"))),
+        NULL);
+      if (t->caption)
+        pivot_table_set_caption (
+          pt, pivot_value_new_user_text (t->caption, SIZE_MAX));
+      if (t->corner)
+        pivot_table_set_caption (
+          pt, pivot_value_new_user_text (t->corner, SIZE_MAX));
+
+      pivot_table_set_look (pt, ct->look);
+      struct pivot_dimension *d[PIVOT_N_AXES];
+      for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
         {
-          struct ctables_freqtab *ft = t->fts[j];
-          ft->sorted = xnmalloc (ft->data.count, sizeof *ft->sorted);
+          static const char *names[] = {
+            [PIVOT_AXIS_ROW] = N_("Rows"),
+            [PIVOT_AXIS_COLUMN] = N_("Columns"),
+            [PIVOT_AXIS_LAYER] = N_("Layers"),
+          };
+          d[a] = (t->axes[a] || a == t->summary_axis
+                  ? pivot_dimension_create (pt, a, names[a])
+                  : NULL);
+          if (!d[a])
+            continue;
+
+          assert (t->axes[a]);
+
+          struct ctables_freq **sorted = xnmalloc (t->ft.count, sizeof *sorted);
 
           struct ctables_freq *f;
           size_t n = 0;
-          HMAP_FOR_EACH (f, struct ctables_freq, node, &ft->data)
-            ft->sorted[n++] = f;
-          assert (n == ft->data.count);
-          sort (ft->sorted, n, sizeof *ft->sorted,
-                ctables_freq_compare_3way, &ft->vars);
-
-          struct pivot_category **groups = xnmalloc (ft->vars.n,
-                                                     sizeof *groups);
-          for (size_t k = 0; k < n; k++)
+          HMAP_FOR_EACH (f, struct ctables_freq, node, &t->ft)
+            sorted[n++] = f;
+          assert (n == t->ft.count);
+
+          struct ctables_freq_sort_aux aux = { .t = t, .a = a };
+          sort (sorted, n, sizeof *sorted, ctables_freq_compare_3way, &aux);
+
+          size_t max_depth = 0;
+          for (size_t j = 0; j < t->vaas[a].n; j++)
+            if (t->vaas[a].vas[j].n > max_depth)
+              max_depth = t->vaas[a].vas[j].n;
+
+          struct pivot_category **groups = xnmalloc (max_depth, sizeof *groups);
+          struct pivot_category *top = NULL;
+          int prev_leaf = 0;
+          for (size_t j = 0; j < n; j++)
             {
-              struct ctables_freq *prev = k > 0 ? ft->sorted[k - 1] : NULL;
-              struct ctables_freq *f = ft->sorted[k];
+              struct ctables_freq *f = sorted[j];
+              const struct var_array *va = &t->vaas[a].vas[f->axes[a].vaa_idx];
 
               size_t n_common = 0;
-              if (prev)
-                for (; n_common + 1 < ft->vars.n; n_common++)
-                  if (!value_equal (&prev->values[n_common],
-                                    &f->values[n_common],
-                                    var_get_type (ft->vars.vars[n_common])))
-                    break;
-
-              for (size_t m = n_common; m < ft->vars.n; m++)
+              bool new_subtable = false;
+              if (j > 0)
                 {
-                  struct pivot_category *parent = m > 0 ? groups[m - 1] : d->root;
-                  const struct variable *var = ft->vars.vars[m];
-                  enum ctables_vlabel vlabel = ct->vlabels[var_get_dict_index (var)];
+                  struct ctables_freq *prev = sorted[j - 1];
+                  if (prev->axes[a].vaa_idx == f->axes[a].vaa_idx)
+                    {
+                      for (; n_common < va->n; n_common++)
+                        if (n_common != va->scale_idx
+                            && !value_equal (&prev->axes[a].values[n_common],
+                                             &f->axes[a].values[n_common],
+                                             var_get_type (va->vars[n_common])))
+                          break;
+                    }
+                  else
+                    new_subtable = true;
+                }
+              else
+                new_subtable = true;
 
+              if (new_subtable)
+                {
+                  enum ctables_vlabel vlabel = ct->vlabels[var_get_dict_index (va->vars[0])];
+                  top = d[a]->root;
                   if (vlabel != CTVL_NONE)
-                    parent = pivot_category_create_group__ (
-                      parent, pivot_value_new_variable (ft->vars.vars[m]));
-
-                  if (m + 1 < ft->vars.n)
-                    parent = pivot_category_create_group__ (
-                      parent,
-                      pivot_value_new_var_value (ft->vars.vars[m], &f->values[m]));
-                  groups[m] = parent;
+                    top = pivot_category_create_group__ (
+                      top, pivot_value_new_variable (va->vars[0]));
+                }
+              if (n_common == va->n)
+                {
+                  f->axes[a].leaf = prev_leaf;
+                  continue;
+                }
 
-                  if (m == ft->vars.n - 1)
+              for (size_t k = n_common; k < va->n; k++)
+                {
+                  struct pivot_category *parent = k > 0 ? groups[k - 1] : top;
+
+                  struct pivot_value *label
+                    = (k != va->scale_idx
+                       ? pivot_value_new_var_value (va->vars[k],
+                                                    &f->axes[a].values[k])
+                       : NULL);
+                  if (k == va->n - 1)
                     {
-                      struct pivot_category *c = pivot_category_create_group__ (
-                        parent,
-                        pivot_value_new_var_value (ft->vars.vars[ft->vars.n - 1],
-                                                   &f->values[ft->vars.n - 1]));
-                      for (size_t p = 0; p < ft->n_summaries; p++)
+                      if (a == t->summary_axis)
+                        {
+                          if (label)
+                            parent = pivot_category_create_group__ (parent, label);
+                          for (size_t m = 0; m < va->n_summaries; m++)
+                            {
+                              int leaf = pivot_category_create_leaf (
+                                parent, pivot_value_new_text (va->summaries[m].label));
+                              if (m == 0)
+                                prev_leaf = leaf;
+                            }
+                        }
+                      else
                         {
-                          double value = ctables_summary_value (
-                            &f->summaries[p], &ft->summaries[p]);
-                          int leaf = pivot_category_create_leaf (
-                            c, pivot_value_new_text (ft->summaries[p].label));
-                          pivot_table_put1 (pt, leaf, pivot_value_new_number (value));
+                          /* This assertion is true as long as the summary axis
+                             is the axis where the summaries are displayed. */
+                          assert (label);
+
+                          prev_leaf = pivot_category_create_leaf (parent, label);
                         }
+                      break;
                     }
+
+                  if (label)
+                    parent = pivot_category_create_group__ (parent, label);
+
+                  enum ctables_vlabel vlabel = ct->vlabels[var_get_dict_index (va->vars[k + 1])];
+                  if (vlabel != CTVL_NONE)
+                    parent = pivot_category_create_group__ (
+                      parent, pivot_value_new_variable (va->vars[k + 1]));
+                  groups[k] = parent;
                 }
+
+              f->axes[a].leaf = prev_leaf;
             }
+          free (sorted);
           free (groups);
         }
+      struct ctables_freq *f;
+      HMAP_FOR_EACH (f, struct ctables_freq, node, &t->ft)
+        {
+          const struct var_array *ss = &t->vaas[t->summary_axis].vas[f->axes[t->summary_axis].vaa_idx];
+          for (size_t j = 0; j < ss->n_summaries; j++)
+            {
+              size_t dindexes[3];
+              size_t n_dindexes = 0;
+
+              for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+                if (d[a])
+                  {
+                    int leaf = f->axes[a].leaf;
+                    if (a == t->summary_axis)
+                      leaf += j;
+                    dindexes[n_dindexes++] = leaf;
+                  }
+
+              double d = ctables_summary_value (f, &f->summaries[j], &ss->summaries[j]);
+              struct pivot_value *value = pivot_value_new_number (d);
+              value->numeric.format = ss->summaries[j].format;
+              pivot_table_put (pt, dindexes, n_dindexes, value);
+            }
+        }
+
       pivot_table_submit (pt);
     }
 
+#if 0
   for (size_t i = 0; i < ct->n_tables; i++)
     {
-      struct ctables_table *t = &ct->tables[i];
+      struct ctables_table *t = ct->tables[i];
 
       for (size_t j = 0; j < t->n_fts; j++)
         {
@@ -2081,13 +2419,13 @@ ctables_execute (struct dataset *ds, struct ctables *ct)
               free (f);
             }
           hmap_destroy (&ft->data);
-          free (ft->sorted);
           var_array_uninit (&ft->vars);
           free (ft);
         }
       free (t->fts);
     }
-
+#endif
+  
   return proc_commit (ds);
 }
 
@@ -2107,6 +2445,7 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
     .vlabels = vlabels,
     .hide_threshold = 5,
   };
+  ct->look->omit_empty = false;
 
   if (!lex_force_match (lexer, T_SLASH))
     goto error;
@@ -2302,8 +2641,9 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
         ct->tables = x2nrealloc (ct->tables, &allocated_tables,
                                  sizeof *ct->tables);
 
-      struct ctables_table *t = &ct->tables[ct->n_tables++];
+      struct ctables_table *t = xmalloc (sizeof *t);
       *t = (struct ctables_table) {
+        .ft = HMAP_INITIALIZER (t->ft),
         .slabels_position = PIVOT_AXIS_COLUMN,
         .slabels_visible = true,
         .row_labels = CTLP_NORMAL,
@@ -2313,6 +2653,9 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
         .n_categories = dict_get_n_vars (dataset_dict (ds)),
         .cilevel = 95,
       };
+      for (enum ctables_domain_type dt = 0; dt < N_CTDTS; dt++)
+        hmap_init (&t->domains[dt]);
+      ct->tables[ct->n_tables++] = t;
 
       lex_match (lexer, T_EQUALS);
       if (!ctables_axis_parse (lexer, dataset_dict (ds), ct, t, PIVOT_AXIS_ROW))
@@ -2340,27 +2683,58 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
 
       const struct ctables_axis *scales[PIVOT_N_AXES];
       size_t n_scales = 0;
-      for (size_t i = 0; i < 3; i++)
+      for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
         {
-          scales[i] = find_scale (t->axes[i]);
-          if (scales[i])
+          scales[a] = find_scale (t->axes[a]);
+          if (scales[a])
             n_scales++;
         }
       if (n_scales > 1)
         {
-          msg (SE, _("Scale variables may appear only on one dimension."));
+          msg (SE, _("Scale variables may appear only on one axis."));
           if (scales[PIVOT_AXIS_ROW])
             msg_at (SN, scales[PIVOT_AXIS_ROW]->loc,
-                    _("This scale variable appears in the rows dimension."));
+                    _("This scale variable appears on the rows axis."));
           if (scales[PIVOT_AXIS_COLUMN])
             msg_at (SN, scales[PIVOT_AXIS_COLUMN]->loc,
-                    _("This scale variable appears in the columns dimension."));
+                    _("This scale variable appears on the columns axis."));
           if (scales[PIVOT_AXIS_LAYER])
             msg_at (SN, scales[PIVOT_AXIS_LAYER]->loc,
-                    _("This scale variable appears in the layer dimension."));
+                    _("This scale variable appears on the layer axis."));
           goto error;
         }
 
+      const struct ctables_axis *summaries[PIVOT_N_AXES];
+      size_t n_summaries = 0;
+      for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+        {
+          summaries[a] = (scales[a]
+                          ? scales[a]
+                          : find_categorical_summary_spec (t->axes[a]));
+          if (summaries[a])
+            n_summaries++;
+        }
+      if (n_summaries > 1)
+        {
+          msg (SE, _("Summaries may appear only on one axis."));
+          if (summaries[PIVOT_AXIS_ROW])
+            msg_at (SN, summaries[PIVOT_AXIS_ROW]->loc,
+                    _("This variable on the rows axis has a summary."));
+          if (summaries[PIVOT_AXIS_COLUMN])
+            msg_at (SN, summaries[PIVOT_AXIS_COLUMN]->loc,
+                    _("This variable on the columns axis has a summary."));
+          if (summaries[PIVOT_AXIS_LAYER])
+            msg_at (SN, summaries[PIVOT_AXIS_LAYER]->loc,
+                    _("This variable on the layers axis has a summary."));
+          goto error;
+        }
+      for (enum pivot_axis_type a = 0; a < PIVOT_N_AXES; a++)
+        if (n_summaries ? summaries[a] : t->axes[a])
+          {
+            t->summary_axis = a;
+            break;
+          }
+
       if (lex_token (lexer) == T_ENDCMD)
         break;
       if (!lex_force_match (lexer, T_SLASH))