Rename procedure.[ch] to dataset.[ch].
[pspp-builds.git] / src / language / xforms / count.c
index 8afab3554ff99ff768fbcbf590c9dc3d95113637..c42bdc34cf01bedba7d5aa86756cdefca797ee4b 100644 (file)
@@ -1,41 +1,39 @@
-/* PSPP - computes sample statistics.
-   Copyright (C) 1997-9, 2000 Free Software Foundation, Inc.
-   Written by Ben Pfaff <blp@gnu.org>.
+/* PSPP - a program for statistical analysis.
+   Copyright (C) 1997-9, 2000, 2009, 2010, 2011 Free Software Foundation, Inc.
 
-   This program is free software; you can redistribute it and/or
-   modify it under the terms of the GNU General Public License as
-   published by the Free Software Foundation; either version 2 of the
-   License, or (at your option) any later version.
+   This program is free software: you can redistribute it and/or modify
+   it under the terms of the GNU General Public License as published by
+   the Free Software Foundation, either version 3 of the License, or
+   (at your option) any later version.
 
-   This program is distributed in the hope that it will be useful, but
-   WITHOUT ANY WARRANTY; without even the implied warranty of
-   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
-   General Public License for more details.
+   This program is distributed in the hope that it will be useful,
+   but WITHOUT ANY WARRANTY; without even the implied warranty of
+   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+   GNU General Public License for more details.
 
    You should have received a copy of the GNU General Public License
-   along with this program; if not, write to the Free Software
-   Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
-   02110-1301, USA. */
+   along with this program.  If not, see <http://www.gnu.org/licenses/>. */
 
 #include <config.h>
 
 #include <stdlib.h>
 
-#include <data/case.h>
-#include <data/dictionary.h>
-#include <data/procedure.h>
-#include <data/transformations.h>
-#include <data/variable.h>
-#include <language/command.h>
-#include <language/lexer/lexer.h>
-#include <language/lexer/range-parser.h>
-#include <language/lexer/variable-parser.h>
-#include <libpspp/alloc.h>
-#include <libpspp/compiler.h>
-#include <libpspp/message.h>
-#include <libpspp/message.h>
-#include <libpspp/pool.h>
-#include <libpspp/str.h>
+#include "data/case.h"
+#include "data/dataset.h"
+#include "data/dictionary.h"
+#include "data/transformations.h"
+#include "data/variable.h"
+#include "language/command.h"
+#include "language/lexer/lexer.h"
+#include "language/lexer/value-parser.h"
+#include "language/lexer/variable-parser.h"
+#include "libpspp/compiler.h"
+#include "libpspp/i18n.h"
+#include "libpspp/message.h"
+#include "libpspp/pool.h"
+#include "libpspp/str.h"
+
+#include "gl/xalloc.h"
 
 #include "gettext.h"
 #define _(msgid) gettext (msgid)
@@ -59,14 +57,14 @@ struct criteria
     struct criteria *next;
 
     /* Variables to count. */
-    struct variable **vars;
+    const struct variable **vars;
     size_t var_cnt;
 
-    /* Count special values?. */
+    /* Count special values? */
     bool count_system_missing;  /* Count system missing? */
     bool count_user_missing;    /* Count user missing? */
 
-    /* Criterion values. */    
+    /* Criterion values. */
     size_t value_cnt;
     union
       {
@@ -94,7 +92,9 @@ static trns_proc_func count_trns_proc;
 static trns_free_func count_trns_free;
 
 static bool parse_numeric_criteria (struct lexer *, struct pool *, struct criteria *);
-static bool parse_string_criteria (struct lexer *, struct pool *, struct criteria *);
+static bool parse_string_criteria (struct lexer *, struct pool *,
+                                   struct criteria *,
+                                   const char *dict_encoding);
 \f
 int
 cmd_count (struct lexer *lexer, struct dataset *ds)
@@ -117,7 +117,7 @@ cmd_count (struct lexer *lexer, struct dataset *ds)
       /* Get destination variable, or at least its name. */
       if (!lex_force_id (lexer))
        goto fail;
-      dv->var = dict_lookup_var (dataset_dict (ds), lex_tokid (lexer));
+      dv->var = dict_lookup_var (dataset_dict (ds), lex_tokcstr (lexer));
       if (dv->var != NULL)
         {
           if (var_is_alpha (dv->var))
@@ -127,45 +127,48 @@ cmd_count (struct lexer *lexer, struct dataset *ds)
             }
         }
       else
-        dv->name = pool_strdup (trns->pool, lex_tokid (lexer));
+        dv->name = pool_strdup (trns->pool, lex_tokcstr (lexer));
 
       lex_get (lexer);
-      if (!lex_force_match (lexer, '='))
+      if (!lex_force_match (lexer, T_EQUALS))
        goto fail;
 
       crit = dv->crit = pool_alloc (trns->pool, sizeof *crit);
       for (;;)
        {
+          struct dictionary *dict = dataset_dict (ds);
           bool ok;
-          
+
          crit->next = NULL;
          crit->vars = NULL;
-         if (!parse_variables (lexer, dataset_dict (ds), &crit->vars, &crit->var_cnt,
-                                PV_DUPLICATE | PV_SAME_TYPE))
+         if (!parse_variables_const (lexer, dict, &crit->vars,
+                                     &crit->var_cnt,
+                                      PV_DUPLICATE | PV_SAME_TYPE))
            goto fail;
           pool_register (trns->pool, free, crit->vars);
 
-         if (!lex_force_match (lexer, '('))
+         if (!lex_force_match (lexer, T_LPAREN))
            goto fail;
 
           crit->value_cnt = 0;
           if (var_is_numeric (crit->vars[0]))
             ok = parse_numeric_criteria (lexer, trns->pool, crit);
           else
-            ok = parse_string_criteria (lexer, trns->pool, crit);
+            ok = parse_string_criteria (lexer, trns->pool, crit,
+                                        dict_get_encoding (dict));
          if (!ok)
            goto fail;
 
-         if (lex_token (lexer) == '/' || lex_token (lexer) == '.')
+         if (lex_token (lexer) == T_SLASH || lex_token (lexer) == T_ENDCMD)
            break;
 
          crit = crit->next = pool_alloc (trns->pool, sizeof *crit);
        }
 
-      if (lex_token (lexer) == '.')
+      if (lex_token (lexer) == T_ENDCMD)
        break;
 
-      if (!lex_force_match (lexer, '/'))
+      if (!lex_force_match (lexer, T_SLASH))
        goto fail;
       dv = dv->next = pool_alloc (trns->pool, sizeof *dv);
     }
@@ -178,7 +181,7 @@ cmd_count (struct lexer *lexer, struct dataset *ds)
           the same dest var more than once. */
        dv->var = dict_lookup_var (dataset_dict (ds), dv->name);
 
-       if (dv->var == NULL) 
+       if (dv->var == NULL)
           dv->var = dict_create_var_assert (dataset_dict (ds), dv->name, 0);
       }
 
@@ -202,12 +205,12 @@ parse_numeric_criteria (struct lexer *lexer, struct pool *pool, struct criteria
   for (;;)
     {
       double low, high;
-      
+
       if (lex_match_id (lexer, "SYSMIS"))
         crit->count_system_missing = true;
       else if (lex_match_id (lexer, "MISSING"))
        crit->count_user_missing = true;
-      else if (parse_num_range (lexer, &low, &high, NULL)) 
+      else if (parse_num_range (lexer, &low, &high, NULL))
         {
           struct num_value *cur;
 
@@ -223,8 +226,8 @@ parse_numeric_criteria (struct lexer *lexer, struct pool *pool, struct criteria
       else
         return false;
 
-      lex_match (lexer, ',');
-      if (lex_match (lexer, ')'))
+      lex_match (lexer, T_COMMA);
+      if (lex_match (lexer, T_RPAREN))
        break;
     }
   return true;
@@ -232,7 +235,8 @@ parse_numeric_criteria (struct lexer *lexer, struct pool *pool, struct criteria
 
 /* Parses a set of string criteria values.  Returns success. */
 static bool
-parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *crit)
+parse_string_criteria (struct lexer *lexer, struct pool *pool,
+                       struct criteria *crit, const char *dict_encoding)
 {
   int len = 0;
   size_t allocated = 0;
@@ -246,6 +250,8 @@ parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *
   for (;;)
     {
       char **cur;
+      char *s;
+
       if (crit->value_cnt >= allocated)
         crit->values.str = pool_2nrealloc (pool, crit->values.str,
                                            &allocated,
@@ -253,13 +259,19 @@ parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *
 
       if (!lex_force_string (lexer))
        return false;
+
+      s = recode_string (dict_encoding, "UTF-8", lex_tokcstr (lexer),
+                         ss_length (lex_tokss (lexer)));
+
       cur = &crit->values.str[crit->value_cnt++];
       *cur = pool_alloc (pool, len + 1);
-      str_copy_rpad (*cur, len + 1, ds_cstr (lex_tokstr (lexer)));
+      str_copy_rpad (*cur, len + 1, s);
       lex_get (lexer);
 
-      lex_match (lexer, ',');
-      if (lex_match (lexer, ')'))
+      free (s);
+
+      lex_match (lexer, T_COMMA);
+      if (lex_match (lexer, T_RPAREN))
        break;
     }
 
@@ -269,40 +281,42 @@ parse_string_criteria (struct lexer *lexer, struct pool *pool, struct criteria *
 /* Transformation. */
 
 /* Counts the number of values in case C matching CRIT. */
-static inline int
-count_numeric (struct criteria *crit, struct ccase *c)
+static int
+count_numeric (struct criteria *crit, const struct ccase *c)
 {
   int counter = 0;
   size_t i;
 
   for (i = 0; i < crit->var_cnt; i++)
     {
-      double x = case_num (c, crit->vars[i]->fv);
-      if (x == SYSMIS)
-        counter += crit->count_system_missing;
-      else if (crit->count_user_missing
-               && var_is_num_user_missing (crit->vars[i], x))
-        counter++;
-      else 
+      double x = case_num (c, crit->vars[i]);
+      if (var_is_num_missing (crit->vars[i], x, MV_ANY))
+        {
+          if (x == SYSMIS
+              ? crit->count_system_missing
+              : crit->count_user_missing)
+            counter++;
+        }
+      else
         {
           struct num_value *v;
-          
+
           for (v = crit->values.num; v < crit->values.num + crit->value_cnt;
-               v++) 
-            if (v->type == CNT_SINGLE ? x == v->a : x >= v->a && x <= v->b) 
+               v++)
+            if (v->type == CNT_SINGLE ? x == v->a : x >= v->a && x <= v->b)
               {
                 counter++;
                 break;
-              } 
+              }
         }
     }
-  
+
   return counter;
 }
 
 /* Counts the number of values in case C matching CRIT. */
-static inline int
-count_string (struct criteria *crit, struct ccase *c)
+static int
+count_string (struct criteria *crit, const struct ccase *c)
 {
   int counter = 0;
   size_t i;
@@ -311,7 +325,7 @@ count_string (struct criteria *crit, struct ccase *c)
     {
       char **v;
       for (v = crit->values.str; v < crit->values.str + crit->value_cnt; v++)
-        if (!memcmp (case_str (c, crit->vars[i]->fv), *v,
+        if (!memcmp (case_str (c, crit->vars[i]), *v,
                      var_get_width (crit->vars[i])))
           {
            counter++;
@@ -324,12 +338,13 @@ count_string (struct criteria *crit, struct ccase *c)
 
 /* Performs the COUNT transformation T on case C. */
 static int
-count_trns_proc (void *trns_, struct ccase *c,
+count_trns_proc (void *trns_, struct ccase **c,
                  casenumber case_num UNUSED)
 {
   struct count_trns *trns = trns_;
   struct dst_var *dv;
 
+  *c = case_unshare (*c);
   for (dv = trns->dst_vars; dv; dv = dv->next)
     {
       struct criteria *crit;
@@ -338,10 +353,10 @@ count_trns_proc (void *trns_, struct ccase *c,
       counter = 0;
       for (crit = dv->crit; crit; crit = crit->next)
        if (var_is_numeric (crit->vars[0]))
-         counter += count_numeric (crit, c);
+         counter += count_numeric (crit, *c);
        else
-         counter += count_string (crit, c);
-      case_data_rw (c, dv->var->fv)->f = counter;
+         counter += count_string (crit, *c);
+      case_data_rw (*c, dv->var)->f = counter;
     }
   return TRNS_CONTINUE;
 }
@@ -350,7 +365,7 @@ count_trns_proc (void *trns_, struct ccase *c,
 static bool
 count_trns_free (void *trns_)
 {
-  struct count_trns *trns = (struct count_trns *) trns_;
+  struct count_trns *trns = trns_;
   pool_destroy (trns->pool);
   return true;
 }