Fix bug 22419
[pspp-builds.git] / src / math / linreg / linreg.c
index ab85e795c93f0c7bb1f9fbc00a11c38c612b9f35..9465875e81b3c697d58fa27112bccc466188ece3 100644 (file)
@@ -1,23 +1,20 @@
-/*
-  lib/linreg/linreg.c
-  
-  Copyright (C) 2005 Free Software Foundation, Inc. Written by Jason H. Stover.
-  
-  This program is free software; you can redistribute it and/or modify it under
-  the terms of the GNU General Public License as published by the Free
-  Software Foundation; either version 2 of the License, or (at your option)
-  any later version.
-  
-  This program is distributed in the hope that it will be useful, but WITHOUT
-  ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
-  FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License for
-  more details.
-  
-  You should have received a copy of the GNU General Public License along with
-  this program; if not, write to the Free Software Foundation, Inc., 51
-  Franklin Street, Fifth Floor, Boston, MA 02111-1307, USA.
- */
+/* PSPP - a program for statistical analysis.
+   Copyright (C) 2005 Free Software Foundation, Inc. 
+
+   This program is free software: you can redistribute it and/or modify
+   it under the terms of the GNU General Public License as published by
+   the Free Software Foundation, either version 3 of the License, or
+   (at your option) any later version.
+
+   This program is distributed in the hope that it will be useful,
+   but WITHOUT ANY WARRANTY; without even the implied warranty of
+   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+   GNU General Public License for more details.
+
+   You should have received a copy of the GNU General Public License
+   along with this program.  If not, see <http://www.gnu.org/licenses/>. */
 
+#include <config.h>
 #include <gsl/gsl_fit.h>
 #include <gsl/gsl_multifit.h>
 
@@ -53,7 +50,7 @@
 */
 
 #include <math/linreg/linreg.h>
-#include <math/linreg/coefficient.h>
+#include <math/coefficient.h>
 #include <gsl/gsl_errno.h>
 #include <linreg/sweep.h>
 /*
@@ -87,48 +84,46 @@ linreg_mean_std (gsl_vector_const_view v, double *mp, double *sp, double *ssp)
 
   return GSL_SUCCESS;
 }
+
 /*
   Set V to contain an array of pointers to the variables
   used in the model. V must be at least C->N_COEFFS in length.
   The return value is the number of distinct variables found.
  */
 int
-pspp_linreg_get_vars (const void *c_, struct variable **v)
+pspp_linreg_get_vars (const void *c_, const struct variable **v)
 {
   const pspp_linreg_cache *c = c_;
-  struct pspp_linreg_coeff *coef = NULL;
   const struct variable *tmp;
   int i;
+  int j;
   int result = 0;
 
   /*
-    Make sure the caller doesn't try to sneak a variable
-    into V that is not in the model.
+     Make sure the caller doesn't try to sneak a variable
+     into V that is not in the model.
    */
   for (i = 0; i < c->n_coeffs; i++)
     {
       v[i] = NULL;
     }
   /*
-    Start at c->coeff + 1 to avoid the intercept.
+     Start at c->coeff[1] to avoid the intercept.
    */
-  v[result] = (struct variable *) pspp_linreg_coeff_get_var (c->coeff + 1, 0);
-  result = (v[result] == NULL) ? 0 : 1;
-
-  for (coef = c->coeff + 2; coef < c->coeff + c->n_coeffs; coef++)
+  for (j = 1; j < c->n_coeffs; j++)
     {
-      tmp = pspp_linreg_coeff_get_var (coef, 0);
+      tmp = pspp_coeff_get_var (c->coeff[j], 0);
       assert (tmp != NULL);
       /* Repeated variables are likely to bunch together, at the end
-        of the array. */
+         of the array. */
       i = result - 1;
-      while (i >= 0 && (v[i]->index != tmp->index))
+      while (i >= 0 && v[i] != tmp)
        {
          i--;
        }
       if (i < 0 && result < c->n_coeffs)
        {
-         v[result] = (struct variable *) tmp;
+         v[result] = tmp;
          result++;
        }
     }
@@ -150,11 +145,11 @@ pspp_linreg_cache_alloc (size_t n, size_t p)
   c->indep_means = gsl_vector_alloc (p);
   c->indep_std = gsl_vector_alloc (p);
   c->ssx = gsl_vector_alloc (p);       /* Sums of squares for the
-                                          independent variables. 
-                                       */
+                                          independent variables.
+                                        */
   c->ss_indeps = gsl_vector_alloc (p); /* Sums of squares for the
-                                          model parameters. 
-                                       */
+                                          model parameters.
+                                        */
   c->cov = gsl_matrix_alloc (p + 1, p + 1);    /* Covariance matrix. */
   c->n_obs = n;
   c->n_indeps = p;
@@ -163,27 +158,37 @@ pspp_linreg_cache_alloc (size_t n, size_t p)
    */
   c->method = PSPP_LINREG_SWEEP;
   c->predict = pspp_linreg_predict;
-  c->residual = pspp_linreg_residual; /* The procedure to compute my
-                                        residuals. */
-  c->get_vars = pspp_linreg_get_vars; /* The procedure that returns
-                                        pointers to model
-                                        variables. */
-  c->resid = NULL; /* The variable storing my residuals. */
-  c->pred = NULL; /* The variable storing my predicted values. */
+  c->residual = pspp_linreg_residual;  /* The procedure to compute my
+                                          residuals. */
+  c->get_vars = pspp_linreg_get_vars;  /* The procedure that returns
+                                          pointers to model
+                                          variables. */
+  c->resid = NULL;             /* The variable storing my residuals. */
+  c->pred = NULL;              /* The variable storing my predicted values. */
 
   return c;
 }
 
 bool
-pspp_linreg_cache_free (void * m)
+pspp_linreg_cache_free (void *m)
 {
+  int i;
+
   pspp_linreg_cache *c = m;
-  gsl_vector_free (c->indep_means);
-  gsl_vector_free (c->indep_std);
-  gsl_vector_free (c->ss_indeps);
-  gsl_matrix_free (c->cov);
-  pspp_linreg_coeff_free (c->coeff);
-  free (c);
+  if (c != NULL)
+    {
+      gsl_vector_free (c->indep_means);
+      gsl_vector_free (c->indep_std);
+      gsl_vector_free (c->ss_indeps);
+      gsl_matrix_free (c->cov);
+      gsl_vector_free (c->ssx);
+      for (i = 0; i < c->n_coeffs; i++)
+       {
+         pspp_coeff_free (c->coeff[i]);
+       }
+      free (c->coeff);
+      free (c);
+    }
   return true;
 }
 
@@ -197,7 +202,7 @@ pspp_linreg (const gsl_vector * Y, const gsl_matrix * X,
             const pspp_linreg_opts * opts, pspp_linreg_cache * cache)
 {
   int rc;
-  gsl_matrix *design;
+  gsl_matrix *design = NULL;
   gsl_matrix_view xtx;
   gsl_matrix_view xm;
   gsl_matrix_view xmxtx;
@@ -239,8 +244,8 @@ pspp_linreg (const gsl_vector * Y, const gsl_matrix * X,
   cache->dfm = cache->n_indeps;
   cache->dfe = cache->dft - cache->dfm;
   cache->n_coeffs = X->size2 + 1;      /* Adjust this later to allow for
-                                          regression through the origin. 
-                                       */
+                                          regression through the origin.
+                                        */
   if (cache->method == PSPP_LINREG_SWEEP)
     {
       gsl_matrix *sw;
@@ -314,7 +319,7 @@ pspp_linreg (const gsl_vector * Y, const gsl_matrix * X,
       for (i = 0; i < cache->n_indeps; i++)
        {
          tmp = gsl_matrix_get (sw, i, cache->n_indeps);
-         cache->coeff[i + 1].estimate = tmp;
+         cache->coeff[i + 1]->estimate = tmp;
          m -= tmp * gsl_vector_get (cache->indep_means, i);
        }
       /*
@@ -350,7 +355,7 @@ pspp_linreg (const gsl_vector * Y, const gsl_matrix * X,
            }
          gsl_matrix_set (cache->cov, 0, 0, tmp);
 
-         cache->coeff[0].estimate = m;
+         cache->coeff[0]->estimate = m;
        }
       else
        {
@@ -360,6 +365,18 @@ pspp_linreg (const gsl_vector * Y, const gsl_matrix * X,
        }
       gsl_matrix_free (sw);
     }
+  else if (cache->method == PSPP_LINREG_CONDITIONAL_INVERSE)
+    {
+      /*
+       Use the SVD of X^T X to find a conditional inverse of X^TX. If
+       the SVD is X^T X = U D V^T, then set the conditional inverse
+       to (X^T X)^c = V D^- U^T. D^- is defined as follows: If entry
+       (i, i) has value sigma_i, then entry (i, i) of D^- is 1 /
+       sigma_i if sigma_i > 0, and 0 otherwise. Then solve the normal
+       equations by setting the estimated parameter vector to 
+       (X^TX)^c X^T Y.
+       */
+    }
   else
     {
       gsl_multifit_linear_workspace *wk;
@@ -385,7 +402,7 @@ pspp_linreg (const gsl_vector * Y, const gsl_matrix * X,
                                cache->cov, &(cache->sse), wk);
       for (i = 0; i < cache->n_coeffs; i++)
        {
-         cache->coeff[i].estimate = gsl_vector_get (param_estimates, i);
+         cache->coeff[i]->estimate = gsl_vector_get (param_estimates, i);
        }
       if (rc == GSL_SUCCESS)
        {