spreadsheet: Avoid sharing a dictionary between spreadsheet and client.
[pspp] / src / data / gnumeric-reader.c
index 27ba9d4cd21811c76bb0c2340d269dea018063bd..7033448d8b4dc23a7c63b2d967854d551e0f47d9 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 2007, 2009, 2010, 2011, 2012, 2013  Free Software Foundation, Inc.
+   Copyright (C) 2007, 2009, 2010, 2011, 2012, 2013, 2016  Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
@@ -28,7 +28,7 @@
 
 #include "spreadsheet-reader.h"
 
-#if !GNM_SUPPORT
+#if !GNM_READ_SUPPORT
 
 struct casereader *
 gnumeric_open_reader (const struct spreadsheet_read_options *opts, struct dictionary **dict)
@@ -48,6 +48,8 @@ gnumeric_open_reader (const struct spreadsheet_read_options *opts, struct dictio
 #include <libxml/xmlreader.h>
 #include <zlib.h>
 
+#include "data/format.h"
+#include "data/data-in.h"
 #include "data/case.h"
 #include "data/casereader-provider.h"
 #include "data/dictionary.h"
@@ -59,6 +61,25 @@ gnumeric_open_reader (const struct spreadsheet_read_options *opts, struct dictio
 
 #include "gl/xalloc.h"
 
+
+/* Shamelessly lifted from the Gnumeric sources:
+   https://git.gnome.org/browse/gnumeric/tree/src/value.h
+ */
+enum gnm_value_type
+{
+  VALUE_EMPTY   = 10,
+  VALUE_BOOLEAN = 20,
+  VALUE_INTEGER = 30, /* Note, this was removed from gnumeric in 2006 - old versions may of
+                        course still be around. New ones are supposed to use float.*/
+  VALUE_FLOAT   = 40,
+  VALUE_ERROR   = 50,
+  VALUE_STRING  = 60,
+  VALUE_CELLRANGE  = 70,
+  VALUE_ARRAY   = 80
+};
+
+
+
 static void gnm_file_casereader_destroy (struct casereader *, void *);
 
 static struct ccase *gnm_file_casereader_read (struct casereader *, void *);
@@ -128,7 +149,6 @@ state_data_destroy (struct state_data *sd)
 struct gnumeric_reader
 {
   struct spreadsheet spreadsheet;
-  int ref_cnt;
 
   struct state_data rsd;
   struct state_data msd;
@@ -147,15 +167,17 @@ struct gnumeric_reader
   struct dictionary *dict;
   struct ccase *first_case;
   bool used_first_case;
+
+  enum gnm_value_type vtype;
 };
 
 
 void
-gnumeric_destroy (struct spreadsheet *s)
+gnumeric_unref (struct spreadsheet *s)
 {
   struct gnumeric_reader *r = (struct gnumeric_reader *) s;
 
-  if (0 == --r->ref_cnt)
+  if (0 == --s->ref_cnt)
     {
       int i;
 
@@ -163,10 +185,15 @@ gnumeric_destroy (struct spreadsheet *s)
        {
          xmlFree (r->sheets[i].name);
        }
-    
+
+
       free (r->sheets);
       state_data_destroy (&r->msd);
 
+      dict_destroy (r->dict);
+
+      free (s->file_name);
+
       free (r);
     }
 }
@@ -203,7 +230,7 @@ gnumeric_get_sheet_range (struct spreadsheet *s, int n)
       process_node (gr, &gr->msd);
     }
 
-  return create_cell_ref (
+  return create_cell_range (
                          gr->sheets[n].start_col,
                          gr->sheets[n].start_row,
                          gr->sheets[n].stop_col,
@@ -227,7 +254,7 @@ gnm_file_casereader_destroy (struct casereader *reader UNUSED, void *r_)
   if (r->proto) 
     caseproto_unref (r->proto);
 
-  gnumeric_destroy (&r->spreadsheet);
+  gnumeric_unref (&r->spreadsheet);
 }
 
 
@@ -429,7 +456,7 @@ process_node (struct gnumeric_reader *r, struct state_data *sd)
  */
 static void
 convert_xml_string_to_value (struct ccase *c, const struct variable *var,
-                            const xmlChar *xv)
+                            const xmlChar *xv, enum gnm_value_type type, int col, int row)
 {
   union value *v = case_data_rw (c, var);
 
@@ -437,7 +464,7 @@ convert_xml_string_to_value (struct ccase *c, const struct variable *var,
     value_set_missing (v, var_get_width (var));
   else if ( var_is_alpha (var))
     value_copy_str_rpad (v, var_get_width (var), xv, ' ');
-  else
+  else if (type == VALUE_FLOAT || type == VALUE_INTEGER)
     {
       const char *text = CHAR_CAST (const char *, xv);
       char *endptr;
@@ -447,6 +474,29 @@ convert_xml_string_to_value (struct ccase *c, const struct variable *var,
       if ( errno != 0 || endptr == text)
        v->f = SYSMIS;
     }
+  else
+    {
+      const char *text = CHAR_CAST (const char *, xv);
+
+      const struct fmt_spec *fmt = var_get_write_format (var);
+
+      char *m = data_in (ss_cstr (text), "UTF-8",
+                        fmt->type,
+                        v,
+                        var_get_width (var),
+                        "UTF-8");
+      
+      if (m)
+       {
+         char buf [FMT_STRING_LEN_MAX + 1];
+         char *cell = create_cell_ref (col, row);
+         
+         msg (MW, _("Cannot convert the value in the spreadsheet cell %s to format (%s): %s"), 
+              cell, fmt_to_string (fmt, buf), m);
+         free (cell);
+       }
+      free (m);
+    }
 }
 
 struct var_spec
@@ -454,6 +504,7 @@ struct var_spec
   char *name;
   int width;
   xmlChar *first_value;
+  int first_type;
 };
 
 
@@ -509,7 +560,7 @@ gnumeric_reopen (struct gnumeric_reader *r, const char *filename, bool show_erro
     {
       r = xzalloc (sizeof *r);
       r->spreadsheet.n_sheets = -1;
-      r->spreadsheet.file_name = filename;
+      r->spreadsheet.file_name = strdup (filename);
       sd = &r->msd;
     }
   else
@@ -526,7 +577,8 @@ gnumeric_reopen (struct gnumeric_reader *r, const char *filename, bool show_erro
   sd->row = sd->col = -1;
   sd->state = STATE_PRE_INIT;
   sd->xtr = xtr;
-  r->ref_cnt++;
+  r->spreadsheet.ref_cnt++;
+
 
   /* Advance to the start of the workbook.
      This gives us some confidence that we are actually dealing with a gnumeric
@@ -542,8 +594,7 @@ gnumeric_reopen (struct gnumeric_reader *r, const char *filename, bool show_erro
   if ( ret != 1)
     {
       /* Does not seem to be a gnumeric file */
-      xmlFreeTextReader (sd->xtr);
-      free (r);
+      gnumeric_unref (&r->spreadsheet);
       return NULL;
     }
 
@@ -582,6 +633,7 @@ struct casereader *
 gnumeric_make_reader (struct spreadsheet *spreadsheet,
                      const struct spreadsheet_read_options *opts)
 {
+  int type = 0;
   int x = 0;
   struct gnumeric_reader *r = NULL;
   unsigned long int vstart = 0;
@@ -649,6 +701,7 @@ gnumeric_make_reader (struct spreadsheet *spreadsheet,
       n_cases --;
     }
 
+
   /* Read in the first row of cells,
      including the headers if read_names was set */
   while (
@@ -657,9 +710,29 @@ gnumeric_make_reader (struct spreadsheet *spreadsheet,
         )
     {
       int idx;
+
+      if (r->rsd.state == STATE_CELL && r->rsd.node_type == XML_READER_TYPE_TEXT)
+       {
+         xmlChar *attr =
+           xmlTextReaderGetAttribute (r->rsd.xtr, _xml ("ValueType"));
+
+         type  =  _xmlchar_to_int (attr);
+
+         xmlFree (attr);
+       }
+
       process_node (r, &r->rsd);
 
-      if ( r->rsd.row > r->start_row ) break;
+      if ( r->rsd.row > r->start_row ) 
+       {
+         xmlChar *attr =
+           xmlTextReaderGetAttribute (r->rsd.xtr, _xml ("ValueType"));
+         
+         r->vtype  =  _xmlchar_to_int (attr);
+         
+         xmlFree (attr);
+         break;
+       }
 
       if ( r->rsd.col < r->start_col ||
           (r->stop_col != -1 && r->rsd.col > r->stop_col))
@@ -676,10 +749,13 @@ gnumeric_make_reader (struct spreadsheet *spreadsheet,
            var_spec [i].name = NULL;
            var_spec [i].width = -1;
            var_spec [i].first_value = NULL;
+           var_spec [i].first_type = -1;
          }
          n_var_specs =  idx + 1 ;
        }
 
+      var_spec [idx].first_type = type;
+
       if ( r->rsd.node_type == XML_READER_TYPE_TEXT )
        {
          xmlChar *value = xmlTextReaderValue (r->rsd.xtr);
@@ -711,7 +787,7 @@ gnumeric_make_reader (struct spreadsheet *spreadsheet,
              xmlChar *attr =
                xmlTextReaderGetAttribute (r->rsd.xtr, _xml ("ValueType"));
 
-             if ( NULL == attr || 60 !=  _xmlchar_to_int (attr))
+             if ( NULL == attr || VALUE_STRING !=  _xmlchar_to_int (attr))
                var_spec [idx].width = 0;
 
              free (attr);
@@ -767,9 +843,12 @@ gnumeric_make_reader (struct spreadsheet *spreadsheet,
        continue;
 
       var = dict_get_var (r->dict, x++);
-
+      
       convert_xml_string_to_value (r->first_case, var,
-                                  var_spec[i].first_value);
+                                  var_spec[i].first_value, 
+                                  var_spec[i].first_type,
+                                  r->rsd.col + i - 1,
+                                  r->rsd.row - 1);
     }
 
   for ( i = 0 ; i < n_var_specs ; ++i )
@@ -796,8 +875,6 @@ gnumeric_make_reader (struct spreadsheet *spreadsheet,
     }
 
   free (var_spec);
-  dict_destroy (spreadsheet->dict);
-  spreadsheet->dict = NULL;
 
   gnm_file_casereader_destroy (NULL, r);
 
@@ -828,11 +905,22 @@ gnm_file_casereader_read (struct casereader *reader UNUSED, void *r_)
   if (r->start_col == -1)
     r->start_col = r->rsd.min_col;
 
+
   while ((r->rsd.state == STATE_CELL || r->rsd.state == STATE_CELLS_START )
         && r->rsd.row == current_row && (ret = xmlTextReaderRead (r->rsd.xtr)))
     {
       process_node (r, &r->rsd);
 
+      if (r->rsd.state == STATE_CELL && r->rsd.node_type == XML_READER_TYPE_ELEMENT)
+       {
+         xmlChar *attr =
+           xmlTextReaderGetAttribute (r->rsd.xtr, _xml ("ValueType"));
+
+         r->vtype  = _xmlchar_to_int (attr);
+
+         xmlFree (attr);
+       }
+
       if ( r->rsd.col < r->start_col || (r->stop_col != -1 &&
                                     r->rsd.col > r->stop_col))
        continue;
@@ -843,17 +931,17 @@ gnm_file_casereader_read (struct casereader *reader UNUSED, void *r_)
       if ( r->stop_row != -1 && r->rsd.row > r->stop_row)
        break;
 
+
       if ( r->rsd.node_type == XML_READER_TYPE_TEXT )
        {
          xmlChar *value = xmlTextReaderValue (r->rsd.xtr);
-
          const int idx = r->rsd.col - r->start_col;
-
          const struct variable *var = dict_get_var (r->dict, idx);
 
-         convert_xml_string_to_value (c, var, value);
+         convert_xml_string_to_value (c, var, value, r->vtype, 
+                                      r->rsd.col, r->rsd.row);
 
-         free (value);
+         xmlFree (value);
        }
     }
 
@@ -867,4 +955,4 @@ gnm_file_casereader_read (struct casereader *reader UNUSED, void *r_)
 }
 
 
-#endif /* GNM_SUPPORT */
+#endif /* GNM_READ_SUPPORT */