Closes patch #6359
[pspp-builds.git] / src / language / stats / regression.q
index 609ec3953f5dd9ca2fde7a91b96d9eacfc7ad3a4..bed4f79dae561bfae4ac2a57e6205f1c33ac10e5 100644 (file)
@@ -37,7 +37,6 @@
 #include <language/dictionary/split-file.h>
 #include <language/data-io/file-handle.h>
 #include <language/lexer/lexer.h>
-#include <libpspp/alloc.h>
 #include <libpspp/compiler.h>
 #include <libpspp/message.h>
 #include <libpspp/taint.h>
@@ -47,6 +46,8 @@
 #include <math/moments.h>
 #include <output/table.h>
 
+#include "xalloc.h"
+
 #include "gettext.h"
 #define _(msgid) gettext (msgid)
 
@@ -92,9 +93,6 @@ struct moments_var
   const struct variable *v;
 };
 
-/* Linear regression models. */
-static pspp_linreg_cache **models = NULL;
-
 /*
   Transformations for saving predicted values
   and residuals, etc.
@@ -122,7 +120,7 @@ static size_t n_variables;
 static struct file_handle *model_file;
 
 static bool run_regression (struct casereader *, struct cmd_regression *,
-                           struct dataset *);
+                           struct dataset *, pspp_linreg_cache **);
 
 /*
    STATISTICS subcommand output functions.
@@ -193,14 +191,12 @@ reg_stats_coeff (pspp_linreg_cache * c)
   double std_err;
   double beta;
   const char *label;
-  char *tmp;
+
   const struct variable *v;
   const union value *val;
-  const char *val_s;
   struct tab_table *t;
 
   assert (c != NULL);
-  tmp = xnmalloc (MAX_STRING, sizeof (*tmp));
   n_rows = c->n_coeffs + 2;
 
   t = tab_create (n_cols, n_rows, 0);
@@ -229,10 +225,13 @@ reg_stats_coeff (pspp_linreg_cache * c)
   tab_float (t, 6, 1, 0, pval, 10, 2);
   for (j = 1; j <= c->n_indeps; j++)
     {
+      struct string tstr;
+      ds_init_empty (&tstr);
+
       v = pspp_coeff_get_var (c->coeff[j], 0);
       label = var_to_string (v);
       /* Do not overwrite the variable's name. */
-      strncpy (tmp, label, MAX_STRING);
+      ds_put_cstr (&tstr, label);
       if (var_is_alpha (v))
        {
          /*
@@ -242,11 +241,11 @@ reg_stats_coeff (pspp_linreg_cache * c)
           */
 
          val = pspp_coeff_get_value (c->coeff[j], v);
-         val_s = var_get_value_name (v, val);
-         strncat (tmp, val_s, MAX_STRING);
+
+         var_append_value_name (v, val, &tstr);
        }
 
-      tab_text (t, 1, j + 1, TAB_CENTER, tmp);
+      tab_text (t, 1, j + 1, TAB_CENTER, ds_cstr (&tstr));
       /*
          Regression coefficients.
        */
@@ -277,10 +276,10 @@ reg_stats_coeff (pspp_linreg_cache * c)
        2 * gsl_cdf_tdist_Q (fabs (t_stat),
                             (double) (c->n_obs - c->n_coeffs));
       tab_float (t, 6, j + 1, 0, pval, 10, 2);
+      ds_destroy (&tstr);
     }
   tab_title (t, _("Coefficients"));
   tab_submit (t);
-  free (tmp);
 }
 
 /*
@@ -639,16 +638,16 @@ try_name (const struct dictionary *dict, const char *name)
 }
 
 static void
-reg_get_name (const struct dictionary *dict, char name[LONG_NAME_LEN],
-             const char prefix[LONG_NAME_LEN])
+reg_get_name (const struct dictionary *dict, char name[VAR_NAME_LEN],
+             const char prefix[VAR_NAME_LEN])
 {
   int i = 1;
 
-  snprintf (name, LONG_NAME_LEN, "%s%d", prefix, i);
+  snprintf (name, VAR_NAME_LEN, "%s%d", prefix, i);
   while (!try_name (dict, name))
     {
       i++;
-      snprintf (name, LONG_NAME_LEN, "%s%d", prefix, i);
+      snprintf (name, VAR_NAME_LEN, "%s%d", prefix, i);
     }
 }
 
@@ -658,7 +657,7 @@ reg_save_var (struct dataset *ds, const char *prefix, trns_proc_func * f,
 {
   struct dictionary *dict = dataset_dict (ds);
   static int trns_index = 1;
-  char name[LONG_NAME_LEN];
+  char name[VAR_NAME_LEN];
   struct variable *new_var;
   struct reg_trns *t = NULL;
 
@@ -784,10 +783,15 @@ reg_print_categorical_encoding (FILE * fp, pspp_linreg_cache * c)
 
       for (j = 0; j < n_categories; j++)
        {
+         struct string vstr;
          const union value *val = cat_subscript_to_value (j, varlist[i]);
+         ds_init_empty (&vstr);
+         var_append_value_name (varlist[i], val, &vstr);
          fprintf (fp, "%s.values[%d] = \"%s\";\n\t",
                   var_get_name (varlist[i]), j,
-                  var_get_value_name (varlist[i], val));
+                  ds_cstr (&vstr));
+
+         ds_destroy (&vstr);
        }
     }
   fprintf (fp, "%s", reg_export_categorical_encode_2);
@@ -932,6 +936,7 @@ regression_custom_export (struct lexer *lexer, struct dataset *ds UNUSED,
     model_file = NULL;
   else
     {
+      fh_unref (model_file);
       model_file = fh_parse (lexer, FH_REF_FILE);
       if (model_file == NULL)
        return 0;
@@ -948,11 +953,16 @@ cmd_regression (struct lexer *lexer, struct dataset *ds)
 {
   struct casegrouper *grouper;
   struct casereader *group;
+  pspp_linreg_cache **models;
   bool ok;
   size_t i;
 
+  model_file = NULL;
   if (!parse_regression (lexer, ds, &cmd, NULL))
-    return CMD_FAILURE;
+    {
+      fh_unref (model_file);
+      return CMD_FAILURE;
+    }
 
   models = xnmalloc (cmd.n_dependent, sizeof *models);
   for (i = 0; i < cmd.n_dependent; i++)
@@ -963,13 +973,16 @@ cmd_regression (struct lexer *lexer, struct dataset *ds)
   /* Data pass. */
   grouper = casegrouper_create_splits (proc_open (ds), dataset_dict (ds));
   while (casegrouper_get_next_group (grouper, &group))
-    run_regression (group, &cmd, ds);
+    run_regression (group, &cmd, ds, models);
   ok = casegrouper_destroy (grouper);
   ok = proc_commit (ds) && ok;
 
   subcommand_save (ds, cmd.sbc_save, models);
   free (v_variables);
   free (models);
+  free_regression (&cmd);
+  fh_unref (model_file);
+
   return ok ? CMD_SUCCESS : CMD_FAILURE;
 }
 
@@ -1122,7 +1135,7 @@ compute_moments (pspp_linreg_cache * c, struct moments_var *mom,
 
 static bool
 run_regression (struct casereader *input, struct cmd_regression *cmd,
-               struct dataset *ds)
+               struct dataset *ds, pspp_linreg_cache **models)
 {
   size_t i;
   int n_indep = 0;
@@ -1138,14 +1151,16 @@ run_regression (struct casereader *input, struct cmd_regression *cmd,
   assert (models != NULL);
 
   if (!casereader_peek (input, 0, &c))
-    return true;
+    {
+      casereader_destroy (input);
+      return true;
+    }
   output_split_file_values (ds, &c);
   case_destroy (&c);
 
   if (!v_variables)
     {
-      dict_get_vars (dataset_dict (ds), &v_variables, &n_variables,
-                    1u << DC_SYSTEM);
+      dict_get_vars (dataset_dict (ds), &v_variables, &n_variables, 0);
     }
 
   for (i = 0; i < cmd->n_dependent; i++)
@@ -1198,8 +1213,6 @@ run_regression (struct casereader *input, struct cmd_regression *cmd,
              lopts.get_indep_mean_std[i] = 1;
            }
          models[k] = pspp_linreg_cache_alloc (X->m->size1, X->m->size2);
-         models[k]->indep_means = gsl_vector_alloc (X->m->size2);
-         models[k]->indep_std = gsl_vector_alloc (X->m->size2);
          models[k]->depvar = dep_var;
          /*
             For large data sets, use QR decomposition.
@@ -1255,6 +1268,11 @@ run_regression (struct casereader *input, struct cmd_regression *cmd,
        }
       casereader_destroy (reader);
     }
+  for (i = 0; i < n_variables; i++)
+    {
+      moments1_destroy ((mom + i)->m);
+    }
+  free (mom);
   free (indep_vars);
   free (lopts.get_indep_mean_std);
   casereader_destroy (input);