Change how checking for missing values works.
[pspp] / src / language / xforms / count.c
index 8ce2d12576697beb5562fc65fc4a03522ce2a9a0..9db76f6c652b11e5a12586208eb83102faa1fd51 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 1997-9, 2000, 2009 Free Software Foundation, Inc.
+   Copyright (C) 1997-9, 2000, 2009, 2010, 2011, 2015 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
 
 #include <stdlib.h>
 
-#include <data/case.h>
-#include <data/dictionary.h>
-#include <data/procedure.h>
-#include <data/transformations.h>
-#include <data/variable.h>
-#include <language/command.h>
-#include <language/lexer/lexer.h>
-#include <language/lexer/value-parser.h>
-#include <language/lexer/variable-parser.h>
-#include <libpspp/compiler.h>
-#include <libpspp/message.h>
-#include <libpspp/message.h>
-#include <libpspp/pool.h>
-#include <libpspp/str.h>
-
-#include "xalloc.h"
+#include "data/case.h"
+#include "data/dataset.h"
+#include "data/dictionary.h"
+#include "data/transformations.h"
+#include "data/variable.h"
+#include "language/command.h"
+#include "language/lexer/lexer.h"
+#include "language/lexer/value-parser.h"
+#include "language/lexer/variable-parser.h"
+#include "libpspp/compiler.h"
+#include "libpspp/i18n.h"
+#include "libpspp/message.h"
+#include "libpspp/pool.h"
+#include "libpspp/str.h"
+
+#include "gl/xalloc.h"
 
 #include "gettext.h"
 #define _(msgid) gettext (msgid)
@@ -58,14 +58,14 @@ struct criteria
 
     /* Variables to count. */
     const struct variable **vars;
-    size_t var_cnt;
+    size_t n_vars;
 
     /* Count special values? */
     bool count_system_missing;  /* Count system missing? */
     bool count_user_missing;    /* Count user missing? */
 
     /* Criterion values. */
-    size_t value_cnt;
+    size_t n_values;
     union
       {
        struct num_value *num;
@@ -88,11 +88,13 @@ struct count_trns
     struct pool *pool;
   };
 
-static trns_proc_func count_trns_proc;
-static trns_free_func count_trns_free;
+static const struct trns_class count_trns_class;
 
 static bool parse_numeric_criteria (struct lexer *, struct pool *, struct criteria *);
-static bool parse_string_criteria (struct lexer *, struct pool *, struct criteria *);
+static bool parse_string_criteria (struct lexer *, struct pool *,
+                                   struct criteria *,
+                                   const char *dict_encoding);
+static bool count_trns_free (void *trns_);
 \f
 int
 cmd_count (struct lexer *lexer, struct dataset *ds)
@@ -115,7 +117,7 @@ cmd_count (struct lexer *lexer, struct dataset *ds)
       /* Get destination variable, or at least its name. */
       if (!lex_force_id (lexer))
        goto fail;
-      dv->var = dict_lookup_var (dataset_dict (ds), lex_tokid (lexer));
+      dv->var = dict_lookup_var (dataset_dict (ds), lex_tokcstr (lexer));
       if (dv->var != NULL)
         {
           if (var_is_alpha (dv->var))
@@ -125,46 +127,48 @@ cmd_count (struct lexer *lexer, struct dataset *ds)
             }
         }
       else
-        dv->name = pool_strdup (trns->pool, lex_tokid (lexer));
+        dv->name = pool_strdup (trns->pool, lex_tokcstr (lexer));
 
       lex_get (lexer);
-      if (!lex_force_match (lexer, '='))
+      if (!lex_force_match (lexer, T_EQUALS))
        goto fail;
 
       crit = dv->crit = pool_alloc (trns->pool, sizeof *crit);
       for (;;)
        {
+          struct dictionary *dict = dataset_dict (ds);
           bool ok;
 
          crit->next = NULL;
          crit->vars = NULL;
-         if (!parse_variables_const (lexer, dataset_dict (ds), &crit->vars,
-                                     &crit->var_cnt,
-                                PV_DUPLICATE | PV_SAME_TYPE))
+         if (!parse_variables_const (lexer, dict, &crit->vars,
+                                     &crit->n_vars,
+                                      PV_DUPLICATE | PV_SAME_TYPE))
            goto fail;
           pool_register (trns->pool, free, crit->vars);
 
-         if (!lex_force_match (lexer, '('))
+         if (!lex_force_match (lexer, T_LPAREN))
            goto fail;
 
-          crit->value_cnt = 0;
+          crit->n_values = 0;
           if (var_is_numeric (crit->vars[0]))
             ok = parse_numeric_criteria (lexer, trns->pool, crit);
           else
-            ok = parse_string_criteria (lexer, trns->pool, crit);
+            ok = parse_string_criteria (lexer, trns->pool, crit,
+                                        dict_get_encoding (dict));
          if (!ok)
            goto fail;
 
-         if (lex_token (lexer) == '/' || lex_token (lexer) == '.')
+         if (lex_token (lexer) == T_SLASH || lex_token (lexer) == T_ENDCMD)
            break;
 
          crit = crit->next = pool_alloc (trns->pool, sizeof *crit);
        }
 
-      if (lex_token (lexer) == '.')
+      if (lex_token (lexer) == T_ENDCMD)
        break;
 
-      if (!lex_force_match (lexer, '/'))
+      if (!lex_force_match (lexer, T_SLASH))
        goto fail;
       dv = dv->next = pool_alloc (trns->pool, sizeof *dv);
     }
@@ -181,7 +185,7 @@ cmd_count (struct lexer *lexer, struct dataset *ds)
           dv->var = dict_create_var_assert (dataset_dict (ds), dv->name, 0);
       }
 
-  add_transformation (ds, count_trns_proc, count_trns_free, trns);
+  add_transformation (ds, &count_trns_class, trns);
   return CMD_SUCCESS;
 
 fail:
@@ -205,16 +209,16 @@ parse_numeric_criteria (struct lexer *lexer, struct pool *pool, struct criteria
       if (lex_match_id (lexer, "SYSMIS"))
         crit->count_system_missing = true;
       else if (lex_match_id (lexer, "MISSING"))
-       crit->count_user_missing = true;
+       crit->count_system_missing = crit->count_user_missing = true;
       else if (parse_num_range (lexer, &low, &high, NULL))
         {
           struct num_value *cur;
 
-          if (crit->value_cnt >= allocated)
+          if (crit->n_values >= allocated)
             crit->values.num = pool_2nrealloc (pool, crit->values.num,
                                                &allocated,
                                                sizeof *crit->values.num);
-          cur = &crit->values.num[crit->value_cnt++];
+          cur = &crit->values.num[crit->n_values++];
           cur->type = low == high ? CNT_SINGLE : CNT_RANGE;
           cur->a = low;
           cur->b = high;
@@ -222,8 +226,8 @@ parse_numeric_criteria (struct lexer *lexer, struct pool *pool, struct criteria
       else
         return false;
 
-      lex_match (lexer, ',');
-      if (lex_match (lexer, ')'))
+      lex_match (lexer, T_COMMA);
+      if (lex_match (lexer, T_RPAREN))
        break;
     }
   return true;
@@ -231,13 +235,14 @@ parse_numeric_criteria (struct lexer *lexer, struct pool *pool, struct criteria
 
 /* Parses a set of string criteria values.  Returns success. */
 static bool
-parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *crit)
+parse_string_criteria (struct lexer *lexer, struct pool *pool,
+                       struct criteria *crit, const char *dict_encoding)
 {
   int len = 0;
   size_t allocated = 0;
   size_t i;
 
-  for (i = 0; i < crit->var_cnt; i++)
+  for (i = 0; i < crit->n_vars; i++)
     if (var_get_width (crit->vars[i]) > len)
       len = var_get_width (crit->vars[i]);
 
@@ -245,20 +250,28 @@ parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *
   for (;;)
     {
       char **cur;
-      if (crit->value_cnt >= allocated)
+      char *s;
+
+      if (crit->n_values >= allocated)
         crit->values.str = pool_2nrealloc (pool, crit->values.str,
                                            &allocated,
                                            sizeof *crit->values.str);
 
       if (!lex_force_string (lexer))
        return false;
-      cur = &crit->values.str[crit->value_cnt++];
+
+      s = recode_string (dict_encoding, "UTF-8", lex_tokcstr (lexer),
+                         ss_length (lex_tokss (lexer)));
+
+      cur = &crit->values.str[crit->n_values++];
       *cur = pool_alloc (pool, len + 1);
-      str_copy_rpad (*cur, len + 1, ds_cstr (lex_tokstr (lexer)));
+      str_copy_rpad (*cur, len + 1, s);
       lex_get (lexer);
 
-      lex_match (lexer, ',');
-      if (lex_match (lexer, ')'))
+      free (s);
+
+      lex_match (lexer, T_COMMA);
+      if (lex_match (lexer, T_RPAREN))
        break;
     }
 
@@ -274,28 +287,28 @@ count_numeric (struct criteria *crit, const struct ccase *c)
   int counter = 0;
   size_t i;
 
-  for (i = 0; i < crit->var_cnt; i++)
+  for (i = 0; i < crit->n_vars; i++)
     {
       double x = case_num (c, crit->vars[i]);
-      if (var_is_num_missing (crit->vars[i], x, MV_ANY))
-        {
-          if (x == SYSMIS
-              ? crit->count_system_missing
-              : crit->count_user_missing)
+      struct num_value *v;
+
+      for (v = crit->values.num; v < crit->values.num + crit->n_values;
+           v++)
+        if (v->type == CNT_SINGLE ? x == v->a : x >= v->a && x <= v->b)
+          {
             counter++;
-        }
-      else
+            break;
+          }
+
+      if (var_is_num_missing (crit->vars[i], x)
+          && (x == SYSMIS
+              ? crit->count_system_missing
+              : crit->count_user_missing))
         {
-          struct num_value *v;
-
-          for (v = crit->values.num; v < crit->values.num + crit->value_cnt;
-               v++)
-            if (v->type == CNT_SINGLE ? x == v->a : x >= v->a && x <= v->b)
-              {
-                counter++;
-                break;
-              }
+          counter++;
+          continue;
         }
+
     }
 
   return counter;
@@ -308,10 +321,10 @@ count_string (struct criteria *crit, const struct ccase *c)
   int counter = 0;
   size_t i;
 
-  for (i = 0; i < crit->var_cnt; i++)
+  for (i = 0; i < crit->n_vars; i++)
     {
       char **v;
-      for (v = crit->values.str; v < crit->values.str + crit->value_cnt; v++)
+      for (v = crit->values.str; v < crit->values.str + crit->n_values; v++)
         if (!memcmp (case_str (c, crit->vars[i]), *v,
                      var_get_width (crit->vars[i])))
           {
@@ -324,7 +337,7 @@ count_string (struct criteria *crit, const struct ccase *c)
 }
 
 /* Performs the COUNT transformation T on case C. */
-static int
+static enum trns_result
 count_trns_proc (void *trns_, struct ccase **c,
                  casenumber case_num UNUSED)
 {
@@ -343,7 +356,7 @@ count_trns_proc (void *trns_, struct ccase **c,
          counter += count_numeric (crit, *c);
        else
          counter += count_string (crit, *c);
-      case_data_rw (*c, dv->var)->f = counter;
+      *case_num_rw (*c, dv->var) = counter;
     }
   return TRNS_CONTINUE;
 }
@@ -352,7 +365,13 @@ count_trns_proc (void *trns_, struct ccase **c,
 static bool
 count_trns_free (void *trns_)
 {
-  struct count_trns *trns = (struct count_trns *) trns_;
+  struct count_trns *trns = trns_;
   pool_destroy (trns->pool);
   return true;
 }
+
+static const struct trns_class count_trns_class = {
+  .name = "COUNT",
+  .execute = count_trns_proc,
+  .destroy = count_trns_free,
+};