work on PRINT encoding
[pspp] / perl-module / PSPP.xs
index e0943d6e6513b052b6ff97417d7b82f09fdc9ca1..834ec401f483900d5cd1cb5bfb5d3e08045e7e4a 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - computes sample statistics.
-   Copyright (C) 2007, 2008 Free Software Foundation, Inc.
+   Copyright (C) 2007, 2008, 2009, 2010, 2011, 2012 Free Software Foundation, Inc.
 
    This program is free software; you can redistribute it and/or
    modify it under the terms of the GNU General Public License as
    02110-1301, USA. */
 
 
+#include <config.h>
+
+/* The Gnulib "strftime" module defines my_strftime in <config.h> for use by
+   gl/strftime.c.  Perl also defines my_strftime in embed.h for some other
+   purpose.  The former definition doesn't matter in this file, so suppress it
+   to avoid a compiler warning. */
+#undef my_strftime
+
 #include "EXTERN.h"
 #include "perl.h"
 #include "XSUB.h"
 
-#include <config.h>
-
 #include "ppport.h"
 
 #include "minmax.h"
 #include <libpspp/message.h>
 #include <libpspp/version.h>
+#include <libpspp/i18n.h>
 #include <gl/xalloc.h>
 #include <data/dictionary.h>
 #include <data/case.h>
 #include <data/casereader.h>
+#include <data/casewriter.h>
 #include <data/variable.h>
 #include <data/attributes.h>
 #include <data/file-handle-def.h>
+#include <data/identifier.h>
+#include <data/settings.h>
 #include <data/sys-file-writer.h>
 #include <data/sys-file-reader.h>
 #include <data/value.h>
+#include <data/vardict.h>
 #include <data/value-labels.h>
 #include <data/format.h>
 #include <data/data-in.h>
+#include <data/data-out.h>
 #include <string.h>
 
 typedef struct fmt_spec input_format ;
@@ -79,7 +91,7 @@ struct sysreader_info
 
 /*  A message handler which writes messages to PSPP::errstr */
 static void
-message_handler (const struct msg *m)
+message_handler (const struct msg *m, void *aux)
 {
  SV *errstr = get_sv("PSPP::errstr", TRUE);
  sv_setpv (errstr, m->text);
@@ -113,8 +125,9 @@ scalar_to_value (union value *val, SV *scalar, const struct variable *var)
     {
        STRLEN len;
        const char *p = SvPV (scalar, len);
-       memset (val->s, ' ', var_get_width (var));
-       memcpy (val->s, p, len);
+       int width = var_get_width (var);
+       value_set_missing (val, width);
+       memcpy (value_str_rw (val, width), p, len);
     }
 }
 
@@ -130,7 +143,10 @@ value_to_scalar (const union value *val, const struct variable *var)
       return newSVnv (val->f);
     }
   else
-    return newSVpvn (val->s, var_get_width (var));
+    {
+      int width = var_get_width (var);
+      return newSVpvn (value_str (val, width), width);
+    }
 }
 
 
@@ -142,12 +158,11 @@ var_set_input_format (struct variable *v, input_format ip_fmt)
   var_attach_aux (v, if_copy, var_dtor_free);
 }
 
-static union value *
-make_value_from_scalar (SV *val, const struct variable *var)
+static void
+make_value_from_scalar (union value *uv, SV *val, const struct variable *var)
 {
union value *uv = value_create (var_get_width (var));
value_init (uv, var_get_width (var));
  scalar_to_value (uv, val, var);
- return uv;
 }
 
 
@@ -155,13 +170,20 @@ MODULE = PSPP
 
 MODULE = PSPP          PACKAGE = PSPP
 
+PROTOTYPES: ENABLE
+
 void
 onBoot (ver)
  const char *ver
 CODE:
- assert (0 == strcmp (ver, bare_version));
- msg_init (NULL, message_handler);
- settings_init (0, 0);
+ /* Check that the version is correct up to the length of 'ver'.
+    This allows PSPP autobuilders to add a "-build#" suffix to the
+    PSPP version without causing failures here. */
+ assert (0 == strncmp (ver, bare_version, strlen (ver)));
+
+ i18n_init ();
+ msg_set_handler (message_handler, NULL);
+ settings_init ();
  fh_init ();
 
 SV *
@@ -171,12 +193,11 @@ format_value (val, var)
 CODE:
  SV *ret;
  const struct fmt_spec *fmt = var_get_print_format (var);
- union value *uv = make_value_from_scalar (val, var);
+ union value uv;
  char *s;
- s = malloc (fmt->w);
- memset (s, '\0', fmt->w);
- data_out (uv, fmt, s);
- free (uv);
+ make_value_from_scalar (&uv, val, var);
+ s = data_out (&uv, var_get_encoding (var), fmt);
+ value_destroy (&uv, var_get_width (var));
  ret = newSVpv (s, fmt->w);
  free (s);
  RETVAL = ret;
@@ -189,9 +210,11 @@ value_is_missing (val, var)
  SV *val
  struct variable *var
 CODE:
- union value *uv = make_value_from_scalar (val, var);
- int ret = var_is_value_missing (var, uv, MV_ANY);
- free (uv);
+ union value uv;
+ int ret;
+ make_value_from_scalar (&uv, val, var);
+ ret = var_is_value_missing (var, &uv, MV_ANY);
+ value_destroy (&uv, var_get_width (var));
  RETVAL = ret;
  OUTPUT:
 RETVAL
@@ -203,7 +226,7 @@ MODULE = PSPP               PACKAGE = PSPP::Dict
 struct dictionary *
 pxs_dict_new()
 CODE:
- RETVAL = dict_create ();
+ RETVAL = dict_create ("UTF-8");
 OUTPUT:
  RETVAL
 
@@ -235,7 +258,7 @@ set_documents (dict, docs)
  struct dictionary *dict
  char *docs
 CODE:
- dict_set_documents (dict, docs);
+ dict_set_documents_string (dict, docs);
 
 
 void
@@ -243,7 +266,7 @@ add_document (dict, doc)
  struct dictionary *dict
  char *doc
 CODE:
- dict_add_document_line (dict, doc);
+ dict_add_document_line (dict, doc, false);
 
 
 void
@@ -306,7 +329,7 @@ pxs_dict_create_var (dict, name, ip_fmt)
 INIT:
  SV *errstr = get_sv("PSPP::errstr", TRUE);
  sv_setpv (errstr, "");
- if ( ! var_is_plausible_name (name, false))
+ if ( ! id_is_plausible (name, false))
   {
     sv_setpv (errstr, "The variable name is not valid.");
     XSRETURN_UNDEF;
@@ -356,7 +379,7 @@ set_label (var, label)
  struct variable *var;
  char *label
 CODE:
-  var_set_label (var, label);
+  var_set_label (var, label, false);
 
 
 void
@@ -365,6 +388,37 @@ clear_value_labels (var)
 CODE:
  var_clear_value_labels (var);
 
+SV *
+get_write_format (var)
+ struct variable *var
+CODE:
+ HV *fmthash = (HV *) sv_2mortal ((SV *) newHV());
+ const struct fmt_spec *fmt = var_get_write_format (var);
+
+ hv_store (fmthash, "fmt", 3, newSVnv (fmt->type), 0);
+ hv_store (fmthash, "decimals", 8, newSVnv (fmt->d), 0);
+ hv_store (fmthash, "width", 5, newSVnv (fmt->w), 0);
+
+ RETVAL = newRV ((SV *) fmthash);
+ OUTPUT:
+RETVAL
+
+SV *
+get_print_format (var)
+ struct variable *var
+CODE:
+ HV *fmthash = (HV *) sv_2mortal ((SV *) newHV());
+ const struct fmt_spec *fmt = var_get_print_format (var);
+
+ hv_store (fmthash, "fmt", 3, newSVnv (fmt->type), 0);
+ hv_store (fmthash, "decimals", 8, newSVnv (fmt->d), 0);
+ hv_store (fmthash, "width", 5, newSVnv (fmt->w), 0);
+
+ RETVAL = newRV ((SV *) fmthash);
+ OUTPUT:
+RETVAL
+
+
 void
 pxs_set_write_format (var, fmt)
  struct variable *var
@@ -398,26 +452,27 @@ INIT:
  sv_setpv (errstr, "");
 CODE:
  union value the_value;
+ int width = var_get_width (var);
+ int ok;
 
+ value_init (&the_value, width);
  if ( var_is_numeric (var))
  {
   if ( ! looks_like_number (key))
     {
       sv_setpv (errstr, "Cannot add label with string key to a numeric variable");
+      value_destroy (&the_value, width);
       XSRETURN_IV (0);
     }
   the_value.f = SvNV (key);
  }
  else
  {
-   if ( var_is_long_string (var) )
-     {
-      sv_setpv (errstr, "Cannot add label to a long string variable");
-      XSRETURN_IV (0);
-     }
-  strncpy (the_value.s, SvPV_nolen(key), MAX_SHORT_STRING);
+  value_copy_str_rpad (&the_value, width, SvPV_nolen(key), ' ');
  }
- if (! var_add_value_label (var, &the_value, label) )
+ ok = var_add_value_label (var, &the_value, label);
+ value_destroy (&the_value, width);
+ if (!ok)
  {
    sv_setpv (errstr, "Something went wrong");
    XSRETURN_IV (0);
@@ -486,20 +541,20 @@ get_value_labels (var)
  struct variable *var
 CODE:
  HV *labelhash = (HV *) sv_2mortal ((SV *) newHV());
- struct val_lab *vl;
const struct val_lab *vl;
  struct val_labs_iterator *viter = NULL;
  const struct val_labs *labels = var_get_value_labels (var);
 
  if ( labels )
    {
-     for (vl = val_labs_first (labels, &viter);
+     for (vl = val_labs_first (labels);
          vl;
-         vl = val_labs_next (labels, &viter))
+         vl = val_labs_next (labels, vl))
        {
         SV *sv = value_to_scalar (&vl->value, var);
         STRLEN len;
         const char *s = SvPV (sv, len);
-        hv_store (labelhash, s, len, newSVpv (vl->label, 0), 0);
+        hv_store (labelhash, s, len, newSVpv (val_lab_get_label (vl), 0), 0);
        }
    }
 
@@ -589,7 +644,7 @@ CODE:
  if ( av_len (av_case) >= dict_get_var_cnt (sfi->dict))
    XSRETURN_UNDEF;
 
- c =  case_create (dict_get_next_value_idx (sfi->dict));
+ c =  case_create (dict_get_proto (sfi->dict));
 
  dict_get_vars (sfi->dict, &vv, &nv, 1u << DC_ORDINARY | 1u << DC_SYSTEM);
 
@@ -604,9 +659,16 @@ CODE:
     if ( ifmt )
       {
        struct substring ss = ss_cstr (SvPV_nolen (sv));
-       if ( ! data_in (ss, LEGACY_NATIVE, ifmt->type, 0, 0, 0,
-                       case_data_rw (c, v),
-                       var_get_width (v)) )
+       char *error;
+       bool ok;
+
+       error = data_in (ss, SvUTF8(sv) ? UTF8: "iso-8859-1", ifmt->type,
+                        case_data_rw (c, v), var_get_width (v),
+                        dict_get_encoding (sfi->dict));
+        ok = error == NULL;
+        free (error);
+
+       if ( !ok )
          {
            RETVAL = 0;
            goto finish;
@@ -623,12 +685,10 @@ CODE:
  {
    const struct variable *v = vv[i++];
    union value *val = case_data_rw (c, v);
-   if ( var_is_numeric (v))
-       val->f = SYSMIS;
-   else
-       memset (val->s, ' ', var_get_width (v));
+   value_set_missing (val, var_get_width (v));
  }
- RETVAL = casewriter_write (sfi->writer, c);
+ casewriter_write (sfi->writer, c);
+ RETVAL = 1;
  finish:
  free (vv);
 OUTPUT:
@@ -649,7 +709,7 @@ CODE:
         fh_create_file (NULL, name, fh_default_properties () );
 
  sri = xmalloc (sizeof (*sri));
- sri->reader = sfm_open_reader (fh, &sri->dict, &sri->opts);
+ sri->reader = sfm_open_reader (fh, NULL, &sri->dict, &sri->opts);
 
  if ( NULL == sri->reader)
  {
@@ -670,33 +730,40 @@ CODE:
  OUTPUT:
 RETVAL
 
-
 SV *
-get_next_case (sfr)
+get_case_cnt (sfr)
  struct sysreader_info *sfr;
 CODE:
+ SV *ret;
+ casenumber n = casereader_get_case_cnt (sfr->reader);
+ if (n == CASENUMBER_MAX)
+  ret = &PL_sv_undef;
+ else 
+  ret = newSViv (n);
+ RETVAL = ret;
+ OUTPUT:
+RETVAL
+
+
+
+void
+get_next_case (sfr)
+ struct sysreader_info *sfr;
+PPCODE:
  struct ccase *c;
 
- if (! (c = casereader_read (sfr->reader)))
- {
-  RETVAL = 0;
- }
- else
+ if ((c = casereader_read (sfr->reader)) != NULL)
  {
   int v;
-  AV *av_case = (AV *) sv_2mortal ((SV *) newAV());
 
+  EXTEND (SP, dict_get_var_cnt (sfr->dict));
   for (v = 0; v < dict_get_var_cnt (sfr->dict); ++v )
     {
       const struct variable *var = dict_get_var (sfr->dict, v);
       const union value *val = case_data (c, var);
 
-      av_push (av_case, value_to_scalar (val, var));
+      PUSHs (sv_2mortal (value_to_scalar (val, var)));
     }
 
   case_unref (c);
-  RETVAL = newRV ((SV *) av_case);
  }
-OUTPUT:
- RETVAL
-