MISSING VALUES: Report an error when too many missing values are specified.
[pspp] / src / language / dictionary / missing-values.c
index 66e642eb9707dff3fd908478e651c5dfdafe5fb2..8d82b480cb308edb3d45f617c2bcc82178ff9db2 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 1997-9, 2000, 2006, 2009 Free Software Foundation, Inc.
+   Copyright (C) 1997-9, 2000, 2006, 2009, 2010, 2011, 2013, 2016 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
 
 #include <stdlib.h>
 
-#include <data/data-in.h>
-#include <data/missing-values.h>
-#include <data/procedure.h>
-#include <data/value.h>
-#include <data/variable.h>
-#include <data/format.h>
-#include <language/command.h>
-#include <language/lexer/lexer.h>
-#include <language/lexer/value-parser.h>
-#include <language/lexer/variable-parser.h>
-#include <libpspp/message.h>
-#include <libpspp/message.h>
-#include <libpspp/str.h>
+#include "data/data-in.h"
+#include "data/dictionary.h"
+#include "data/dataset.h"
+#include "data/format.h"
+#include "data/missing-values.h"
+#include "data/value.h"
+#include "data/variable.h"
+#include "language/command.h"
+#include "language/lexer/lexer.h"
+#include "language/lexer/value-parser.h"
+#include "language/lexer/variable-parser.h"
+#include "libpspp/i18n.h"
+#include "libpspp/message.h"
+#include "libpspp/str.h"
 
 #include "gettext.h"
 #define _(msgid) gettext (msgid)
 int
 cmd_missing_values (struct lexer *lexer, struct dataset *ds)
 {
-  struct variable **v;
+  struct dictionary *dict = dataset_dict (ds);
+  struct variable **v = NULL;
   size_t nv;
 
-  int retval = CMD_FAILURE;
-  bool deferred_errors = false;
+  bool ok = true;
 
-  while (lex_token (lexer) != '.')
+  while (lex_token (lexer) != T_ENDCMD)
     {
       size_t i;
 
-      if (!parse_variables (lexer, dataset_dict (ds), &v, &nv, PV_NONE))
-        goto done;
+      if (!parse_variables (lexer, dict, &v, &nv, PV_NONE))
+        goto error;
 
-      if (!lex_match (lexer, '('))
-        {
-          lex_error (lexer, _("expecting `('"));
-          goto done;
-        }
+      if (!lex_force_match (lexer, T_LPAREN))
+        goto error;
 
       for (i = 0; i < nv; i++)
         var_clear_missing_values (v[i]);
 
-      if (!lex_match (lexer, ')'))
+      if (!lex_match (lexer, T_RPAREN))
         {
           struct missing_values mv;
 
@@ -72,61 +70,78 @@ cmd_missing_values (struct lexer *lexer, struct dataset *ds)
                 msg (SE, _("Cannot mix numeric variables (e.g. %s) and "
                            "string variables (e.g. %s) within a single list."),
                      var_get_name (n), var_get_name (s));
-                goto done;
+                goto error;
               }
 
           if (var_is_numeric (v[0]))
             {
               mv_init (&mv, 0);
-              while (!lex_match (lexer, ')'))
+              while (!lex_match (lexer, T_RPAREN))
                 {
                   enum fmt_type type = var_get_print_format (v[0])->type;
                   double x, y;
-                  bool ok;
 
                   if (!parse_num_range (lexer, &x, &y, &type))
-                    goto done;
+                    goto error;
 
-                  ok = (x == y
+                  if (!(x == y
                         ? mv_add_num (&mv, x)
-                        : mv_add_range (&mv, x, y));
-                  if (!ok)
-                    deferred_errors = true;
+                        : mv_add_range (&mv, x, y)))
+                    {
+                      msg (SE, _("Too many numeric missing values.  At most "
+                                 "three individual values or one value and "
+                                 "one range are allowed."));
+                      ok = false;
+                    }
 
-                  lex_match (lexer, ',');
+                  lex_match (lexer, T_COMMA);
                 }
             }
           else
             {
-             struct string value;
+              const char *encoding = dict_get_encoding (dict);
 
-              mv_init (&mv, MAX_SHORT_STRING);
-              while (!lex_match (lexer, ')'))
+              mv_init (&mv, MV_MAX_STRING);
+              while (!lex_match (lexer, T_RPAREN))
                 {
+                  const char *utf8_s;
+                  size_t utf8_trunc_len;
+                  size_t utf8_len;
+
+                  char *raw_s;
+
                   if (!lex_force_string (lexer))
                     {
-                      deferred_errors = true;
+                      ok = false;
                       break;
                     }
 
-                 ds_init_string (&value, lex_tokstr (lexer));
-
-                  if (ds_length (&value) > MAX_SHORT_STRING)
+                  /* Truncate the string to fit in 8 bytes in the dictionary
+                     encoding. */
+                  utf8_s = lex_tokcstr (lexer);
+                  utf8_len = ss_length (lex_tokss (lexer));
+                  utf8_trunc_len = utf8_encoding_trunc_len (utf8_s, encoding,
+                                                            MV_MAX_STRING);
+                  if (utf8_trunc_len < utf8_len)
+                    msg (SE, _("Truncating missing value to maximum "
+                               "acceptable length (%d bytes)."),
+                         MV_MAX_STRING);
+
+                  /* Recode to dictionary encoding and add. */
+                  raw_s = recode_string (encoding, "UTF-8",
+                                         utf8_s, utf8_trunc_len);
+                  if (!mv_add_str (&mv, CHAR_CAST (const uint8_t *, raw_s),
+                                   strlen (raw_s)))
                     {
-                      ds_truncate (&value, MAX_SHORT_STRING);
-                      msg (SE, _("Truncating missing value to short string "
-                                 "length (%d characters)."),
-                           MAX_SHORT_STRING);
+                      msg (SE,
+                           _("Too many string missing values.  "
+                             "At most three individual values are allowed."));
+                      ok = false;
                     }
-                  else
-                    ds_rpad (&value, MAX_SHORT_STRING, ' ');
-
-                  if (!mv_add_str (&mv, ds_data (&value)))
-                    deferred_errors = true;
-                 ds_destroy (&value);
+                  free (raw_s);
 
                   lex_get (lexer);
-                  lex_match (lexer, ',');
+                  lex_match (lexer, T_COMMA);
                 }
             }
 
@@ -139,21 +154,23 @@ cmd_missing_values (struct lexer *lexer, struct dataset *ds)
                   msg (SE, _("Missing values provided are too long to assign "
                              "to variable of width %d."),
                        var_get_width (v[i]));
-                  deferred_errors = true;
+                  ok = false;
                 }
             }
+
+          mv_destroy (&mv);
         }
 
-      lex_match (lexer, '/');
+      lex_match (lexer, T_SLASH);
       free (v);
       v = NULL;
     }
-  retval = lex_end_of_command (lexer);
 
- done:
   free (v);
-  if (deferred_errors)
-    retval = CMD_FAILURE;
-  return retval;
+  return ok ? CMD_SUCCESS : CMD_FAILURE;
+
+error:
+  free (v);
+  return CMD_FAILURE;
 }