COUNT: Correct treatment of missing values.
[pspp] / src / language / xforms / count.c
index 172a5e2c6d19238f692beb29c0d6388304a42eed..bf3c9e9ac5ad87cc39f1452998357e1a8b0988e2 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 1997-9, 2000, 2009, 2010, 2011 Free Software Foundation, Inc.
+   Copyright (C) 1997-9, 2000, 2009, 2010, 2011, 2015 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
@@ -19,8 +19,8 @@
 #include <stdlib.h>
 
 #include "data/case.h"
+#include "data/dataset.h"
 #include "data/dictionary.h"
-#include "data/procedure.h"
 #include "data/transformations.h"
 #include "data/variable.h"
 #include "language/command.h"
@@ -28,6 +28,7 @@
 #include "language/lexer/value-parser.h"
 #include "language/lexer/variable-parser.h"
 #include "libpspp/compiler.h"
+#include "libpspp/i18n.h"
 #include "libpspp/message.h"
 #include "libpspp/pool.h"
 #include "libpspp/str.h"
@@ -91,7 +92,9 @@ static trns_proc_func count_trns_proc;
 static trns_free_func count_trns_free;
 
 static bool parse_numeric_criteria (struct lexer *, struct pool *, struct criteria *);
-static bool parse_string_criteria (struct lexer *, struct pool *, struct criteria *);
+static bool parse_string_criteria (struct lexer *, struct pool *,
+                                   struct criteria *,
+                                   const char *dict_encoding);
 \f
 int
 cmd_count (struct lexer *lexer, struct dataset *ds)
@@ -133,13 +136,14 @@ cmd_count (struct lexer *lexer, struct dataset *ds)
       crit = dv->crit = pool_alloc (trns->pool, sizeof *crit);
       for (;;)
        {
+          struct dictionary *dict = dataset_dict (ds);
           bool ok;
 
          crit->next = NULL;
          crit->vars = NULL;
-         if (!parse_variables_const (lexer, dataset_dict (ds), &crit->vars,
+         if (!parse_variables_const (lexer, dict, &crit->vars,
                                      &crit->var_cnt,
-                                PV_DUPLICATE | PV_SAME_TYPE))
+                                      PV_DUPLICATE | PV_SAME_TYPE))
            goto fail;
           pool_register (trns->pool, free, crit->vars);
 
@@ -150,7 +154,8 @@ cmd_count (struct lexer *lexer, struct dataset *ds)
           if (var_is_numeric (crit->vars[0]))
             ok = parse_numeric_criteria (lexer, trns->pool, crit);
           else
-            ok = parse_string_criteria (lexer, trns->pool, crit);
+            ok = parse_string_criteria (lexer, trns->pool, crit,
+                                        dict_get_encoding (dict));
          if (!ok)
            goto fail;
 
@@ -204,7 +209,7 @@ parse_numeric_criteria (struct lexer *lexer, struct pool *pool, struct criteria
       if (lex_match_id (lexer, "SYSMIS"))
         crit->count_system_missing = true;
       else if (lex_match_id (lexer, "MISSING"))
-       crit->count_user_missing = true;
+       crit->count_system_missing = crit->count_user_missing = true;
       else if (parse_num_range (lexer, &low, &high, NULL))
         {
           struct num_value *cur;
@@ -230,7 +235,8 @@ parse_numeric_criteria (struct lexer *lexer, struct pool *pool, struct criteria
 
 /* Parses a set of string criteria values.  Returns success. */
 static bool
-parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *crit)
+parse_string_criteria (struct lexer *lexer, struct pool *pool,
+                       struct criteria *crit, const char *dict_encoding)
 {
   int len = 0;
   size_t allocated = 0;
@@ -244,6 +250,8 @@ parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *
   for (;;)
     {
       char **cur;
+      char *s;
+
       if (crit->value_cnt >= allocated)
         crit->values.str = pool_2nrealloc (pool, crit->values.str,
                                            &allocated,
@@ -251,11 +259,17 @@ parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *
 
       if (!lex_force_string (lexer))
        return false;
+
+      s = recode_string (dict_encoding, "UTF-8", lex_tokcstr (lexer),
+                         ss_length (lex_tokss (lexer)));
+
       cur = &crit->values.str[crit->value_cnt++];
       *cur = pool_alloc (pool, len + 1);
-      str_copy_rpad (*cur, len + 1, lex_tokcstr (lexer));
+      str_copy_rpad (*cur, len + 1, s);
       lex_get (lexer);
 
+      free (s);
+
       lex_match (lexer, T_COMMA);
       if (lex_match (lexer, T_RPAREN))
        break;
@@ -276,25 +290,25 @@ count_numeric (struct criteria *crit, const struct ccase *c)
   for (i = 0; i < crit->var_cnt; i++)
     {
       double x = case_num (c, crit->vars[i]);
-      if (var_is_num_missing (crit->vars[i], x, MV_ANY))
-        {
-          if (x == SYSMIS
-              ? crit->count_system_missing
-              : crit->count_user_missing)
+      struct num_value *v;
+
+      for (v = crit->values.num; v < crit->values.num + crit->value_cnt;
+           v++)
+        if (v->type == CNT_SINGLE ? x == v->a : x >= v->a && x <= v->b)
+          {
             counter++;
-        }
-      else
+            break;
+          }
+
+      if (var_is_num_missing (crit->vars[i], x, MV_ANY)
+          && (x == SYSMIS
+              ? crit->count_system_missing
+              : crit->count_user_missing))
         {
-          struct num_value *v;
-
-          for (v = crit->values.num; v < crit->values.num + crit->value_cnt;
-               v++)
-            if (v->type == CNT_SINGLE ? x == v->a : x >= v->a && x <= v->b)
-              {
-                counter++;
-                break;
-              }
+          counter++;
+          continue;
         }
+
     }
 
   return counter;