CTABLES weird special formats
[pspp] / src / language / stats / ctables.c
index e34621e2fa4ad270ede00e0d80d39059e35edf58..418496df928711a23b063690ff2c0cf876fffaf5 100644 (file)
@@ -21,6 +21,7 @@
 
 #include "data/casereader.h"
 #include "data/casewriter.h"
+#include "data/data-out.h"
 #include "data/dataset.h"
 #include "data/dictionary.h"
 #include "data/mrset.h"
@@ -152,6 +153,8 @@ enum {
 #undef S
 };
 
+static bool ctables_summary_function_is_count (enum ctables_summary_function);
+
 enum ctables_domain_type
   {
     /* Within a section, where stacked variables divide one section from
@@ -222,6 +225,14 @@ struct ctables
     const struct dictionary *dict;
     struct pivot_table_look *look;
 
+    /* CTABLES has a number of extra formats that we implement via custom
+       currency specifications on an alternate fmt_settings. */
+#define CTEF_NEGPAREN FMT_CCA
+#define CTEF_NEQUAL   FMT_CCB
+#define CTEF_PAREN    FMT_CCC
+#define CTEF_PCTPAREN FMT_CCD
+    struct fmt_settings ctables_formats;
+
     /* If this is NULL, zeros are displayed using the normal print format.
        Otherwise, this string is displayed. */
     char *zero;
@@ -684,7 +695,10 @@ struct ctables_summary_spec
     enum ctables_summary_function function;
     double percentile;          /* CTSF_PTILE only. */
     char *label;
-    struct fmt_spec format;     /* XXX extra CTABLES formats */
+
+    struct fmt_spec format;
+    bool is_ctables_format;       /* Is 'format' one of CTEF_*? */
+
     size_t axis_idx;
   };
 
@@ -771,6 +785,38 @@ ctables_function_availability (enum ctables_summary_function f)
   return availability[f];
 }
 
+static bool
+ctables_summary_function_is_count (enum ctables_summary_function f)
+{
+  static const bool is_count[N_CTSF_FUNCTIONS] = {
+    [CTSF_COUNT] = true,
+    [CTSF_ECOUNT] = true,
+    [CTSF_ROWPCT_COUNT] = true,
+    [CTSF_COLPCT_COUNT] = true,
+    [CTSF_TABLEPCT_COUNT] = true,
+    [CTSF_SUBTABLEPCT_COUNT] = true,
+    [CTSF_LAYERPCT_COUNT] = true,
+    [CTSF_LAYERROWPCT_COUNT] = true,
+    [CTSF_LAYERCOLPCT_COUNT] = true,
+    [CTSF_ROWPCT_RESPONSES_COUNT] = true,
+    [CTSF_COLPCT_RESPONSES_COUNT] = true,
+    [CTSF_TABLEPCT_RESPONSES_COUNT] = true,
+    [CTSF_SUBTABLEPCT_RESPONSES_COUNT] = true,
+    [CTSF_LAYERPCT_RESPONSES_COUNT] = true,
+    [CTSF_LAYERROWPCT_RESPONSES_COUNT] = true,
+    [CTSF_LAYERCOLPCT_RESPONSES_COUNT] = true,
+    [CTSF_ROWPCT_COUNT_RESPONSES] = true,
+    [CTSF_COLPCT_COUNT_RESPONSES] = true,
+    [CTSF_TABLEPCT_COUNT_RESPONSES] = true,
+    [CTSF_SUBTABLEPCT_COUNT_RESPONSES] = true,
+    [CTSF_LAYERPCT_COUNT_RESPONSES] = true,
+    [CTSF_LAYERROWPCT_COUNT_RESPONSES] = true,
+    [CTSF_LAYERCOLPCT_COUNT_RESPONSES] = true,
+  };
+  return is_count[f];
+}
+
+
 static bool
 parse_ctables_summary_function (struct lexer *lexer,
                                 enum ctables_summary_function *f)
@@ -912,7 +958,8 @@ static bool
 add_summary_spec (struct ctables_axis *axis,
                   enum ctables_summary_function function, double percentile,
                   const char *label, const struct fmt_spec *format,
-                  const struct msg_location *loc, enum ctables_summary_variant sv)
+                  bool is_ctables_format, const struct msg_location *loc,
+                  enum ctables_summary_variant sv)
 {
   if (axis->op == CTAO_VAR)
     {
@@ -959,6 +1006,7 @@ add_summary_spec (struct ctables_axis *axis,
         .label = xstrdup (label),
         .format = (format ? *format
                    : ctables_summary_default_format (function, &axis->var)),
+        .is_ctables_format = is_ctables_format,
       };
       return true;
     }
@@ -966,7 +1014,7 @@ add_summary_spec (struct ctables_axis *axis,
     {
       for (size_t i = 0; i < 2; i++)
         if (!add_summary_spec (axis->subs[i], function, percentile, label,
-                               format, loc, sv))
+                               format, is_ctables_format, loc, sv))
           return false;
       return true;
     }
@@ -1046,6 +1094,48 @@ has_digit (const char *s)
   return s[strcspn (s, "0123456789")] != '\0';
 }
 
+static bool
+parse_ctables_format_specifier (struct lexer *lexer, struct fmt_spec *format,
+                                bool *is_ctables_format)
+{
+  char type[FMT_TYPE_LEN_MAX + 1];
+  if (!parse_abstract_format_specifier__ (lexer, type, &format->w, &format->d))
+    return false;
+
+  if (!strcasecmp (type, "NEGPAREN"))
+    format->type = CTEF_NEGPAREN;
+  else if (!strcasecmp (type, "NEQUAL"))
+    format->type = CTEF_NEQUAL;
+  else if (!strcasecmp (type, "PAREN"))
+    format->type = CTEF_PAREN;
+  else if (!strcasecmp (type, "PCTPAREN"))
+    format->type = CTEF_PCTPAREN;
+  else
+    {
+      *is_ctables_format = false;
+      return (parse_format_specifier (lexer, format)
+              && fmt_check_output (format)
+              && fmt_check_type_compat (format, VAL_NUMERIC));
+    }
+
+  if (format->w < 2)
+    {
+      msg (SE, _("Output format %s requires width 2 or greater."), type);
+      return false;
+    }
+  else if (format->d > format->w - 1)
+    {
+      msg (SE, _("Output format %s requires width greater than decimals."),
+           type);
+      return false;
+    }
+  else
+    {
+      *is_ctables_format = true;
+      return true;
+    }
+}
+
 static struct ctables_axis *
 ctables_axis_parse_postfix (struct ctables_axis_parse_ctx *ctx)
 {
@@ -1086,12 +1176,12 @@ ctables_axis_parse_postfix (struct ctables_axis_parse_ctx *ctx)
       /* Parse format. */
       struct fmt_spec format;
       const struct fmt_spec *formatp;
+      bool is_ctables_format = false;
       if (lex_token (ctx->lexer) == T_ID
           && has_digit (lex_tokcstr (ctx->lexer)))
         {
-          if (!parse_format_specifier (ctx->lexer, &format)
-              || !fmt_check_output (&format)
-              || !fmt_check_type_compat (&format, VAL_NUMERIC))
+          if (!parse_ctables_format_specifier (ctx->lexer, &format,
+                                               &is_ctables_format))
             {
               free (label);
               goto error;
@@ -1103,7 +1193,8 @@ ctables_axis_parse_postfix (struct ctables_axis_parse_ctx *ctx)
 
       struct msg_location *loc = lex_ofs_location (ctx->lexer, start_ofs,
                                                    lex_ofs (ctx->lexer) - 1);
-      add_summary_spec (sub, function, percentile, label, formatp, loc, sv);
+      add_summary_spec (sub, function, percentile, label, formatp,
+                        is_ctables_format, loc, sv);
       free (label);
       msg_location_destroy (loc);
 
@@ -3405,6 +3496,7 @@ ctables_table_output (struct ctables *ct, struct ctables_table *t)
                 }
                 type;
 
+              enum settings_value_show vlabel; /* CTL_VAR only. */
               size_t var_idx;
             };
           struct ctables_level *levels = xnmalloc (1 + 2 * max_depth, sizeof *levels);
@@ -3416,6 +3508,7 @@ ctables_table_output (struct ctables *ct, struct ctables_table *t)
                 {
                   levels[n_levels++] = (struct ctables_level) {
                     .type = CTL_VAR,
+                    .vlabel = (enum settings_value_show) vlabel,
                     .var_idx = k,
                   };
                 }
@@ -3511,7 +3604,10 @@ ctables_table_output (struct ctables *ct, struct ctables_table *t)
                       const struct variable *var = nest->vars[level->var_idx];
                       struct pivot_value *label;
                       if (level->type == CTL_VAR)
-                        label = pivot_value_new_variable (var);
+                        {
+                          label = pivot_value_new_variable (var);
+                          label->variable.show = level->vlabel;
+                        }
                       else if (level->type == CTL_CATEGORY)
                         {
                           const struct ctables_cell_value *cv = &cell->axes[a].cvs[level->var_idx];
@@ -3575,11 +3671,38 @@ ctables_table_output (struct ctables *ct, struct ctables_table *t)
                     dindexes[n_dindexes++] = leaf;
                   }
 
+              const struct ctables_summary_spec *ss = &specs->specs[j];
+
               double d = (cell->postcompute
                           ? ctables_cell_calculate_postcompute (s, cell)
-                          : ctables_summary_value (cell, &cell->summaries[j], &specs->specs[j]));
-              struct pivot_value *value = pivot_value_new_number (d);
-              value->numeric.format = specs->specs[j].format;
+                          : ctables_summary_value (cell, &cell->summaries[j], ss));
+              struct pivot_value *value;
+              if (ct->hide_threshold != 0
+                  && d < ct->hide_threshold
+                  && (cell->postcompute
+                      ? false /* XXX */
+                      : ctables_summary_function_is_count (ss->function)))
+                {
+                  value = pivot_value_new_user_text_nocopy (
+                    xasprintf ("<%d", ct->hide_threshold));
+                }
+              else if (d == 0 && ct->zero)
+                value = pivot_value_new_user_text (ct->zero, SIZE_MAX);
+              else if (d == SYSMIS && ct->missing)
+                value = pivot_value_new_user_text (ct->missing, SIZE_MAX);
+              else if (specs->specs[j].is_ctables_format)
+                {
+                  char *s = data_out_stretchy (&(union value) { .f = d },
+                                               "UTF-8",
+                                               &specs->specs[j].format,
+                                               &ct->ctables_formats, NULL);
+                  value = pivot_value_new_user_text_nocopy (s);
+                }
+              else
+                {
+                  value = pivot_value_new_number (d);
+                  value->numeric.format = specs->specs[j].format;
+                }
               pivot_table_put (pt, dindexes, n_dindexes, value);
             }
         }
@@ -4616,16 +4739,38 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
   for (size_t i = 0; i < n_vars; i++)
     vlabels[i] = (enum ctables_vlabel) tvars;
 
+  struct pivot_table_look *look = pivot_table_look_unshare (
+    pivot_table_look_ref (pivot_table_look_get_default ()));
+  look->omit_empty = false;
+
   struct ctables *ct = xmalloc (sizeof *ct);
   *ct = (struct ctables) {
     .dict = dataset_dict (ds),
-    .look = pivot_table_look_unshare (pivot_table_look_ref (
-                                        pivot_table_look_get_default ())),
+    .look = look,
+    .ctables_formats = FMT_SETTINGS_INIT,
     .vlabels = vlabels,
     .postcomputes = HMAP_INITIALIZER (ct->postcomputes),
-    .hide_threshold = 5,
   };
-  ct->look->omit_empty = false;
+
+  struct ctf
+    {
+      enum fmt_type type;
+      const char *dot_string;
+      const char *comma_string;
+    };
+  static const struct ctf ctfs[4] = {
+    { CTEF_NEGPAREN, "(,,,)",   "(...)" },
+    { CTEF_NEQUAL,   "-,N=,,",  "-.N=.." },
+    { CTEF_PAREN,    "-,(,),",  "-.(.)." },
+    { CTEF_PCTPAREN, "-,(,%),", "-.(.%)." },
+  };
+  bool is_dot = settings_get_fmt_settings ()->decimal == '.';
+  for (size_t i = 0; i < 4; i++)
+    {
+      const char *s = is_dot ? ctfs[i].dot_string : ctfs[i].comma_string;
+      fmt_settings_set_cc (&ct->ctables_formats, ctfs[i].type,
+                           fmt_number_style_from_string (s));
+    }
 
   if (!lex_force_match (lexer, T_SLASH))
     goto error;
@@ -4801,15 +4946,19 @@ cmd_ctables (struct lexer *lexer, struct dataset *ds)
           if (!ct->e_weight)
             goto error;
         }
-      else if (lex_match_id (lexer, "HIDESMALLCOUNTS"))
+      else if (lex_match_id (lexer, " HIDESMALLCOUNTS"))
         {
-          if (!lex_force_match_id (lexer, "COUNT"))
-            goto error;
-          lex_match (lexer, T_EQUALS);
-          if (!lex_force_int_range (lexer, "HIDESMALLCOUNTS COUNT", 2, INT_MAX))
-            goto error;
-          ct->hide_threshold = lex_integer (lexer);
-          lex_get (lexer);
+          if (lex_match_id (lexer, "COUNT"))
+            {
+              lex_match (lexer, T_EQUALS);
+              if (!lex_force_int_range (lexer, "HIDESMALLCOUNTS COUNT",
+                                        2, INT_MAX))
+                goto error;
+              ct->hide_threshold = lex_integer (lexer);
+              lex_get (lexer);
+            }
+          else if (ct->hide_threshold == 0)
+            ct->hide_threshold = 5;
         }
       else
         {