Miscellaneous cleanup to categorical values, linreg and design matrix code.
authorJohn Darrington <john@darrington.wattle.id.au>
Sun, 22 Apr 2007 00:48:50 +0000 (00:48 +0000)
committerJohn Darrington <john@darrington.wattle.id.au>
Sun, 22 Apr 2007 00:48:50 +0000 (00:48 +0000)
14 files changed:
src/data/ChangeLog
src/data/automake.mk
src/data/cat-routines.h [deleted file]
src/data/category.c
src/data/category.h
src/data/dictionary.c
src/data/sys-file-reader.c
src/data/variable.c
src/language/stats/regression.q
src/math/coefficient.c
src/math/design-matrix.c
src/math/design-matrix.h
src/math/linreg/linreg.c
src/math/linreg/linreg.h

index b5a299ad6dd86f67606d326149329843a6e5b738..73aba2ff40c433adfb38c37a1a1f4a7f5dbfa9fb 100644 (file)
@@ -1,3 +1,8 @@
+2007-04-22 John Darrington <john@darrington.wattle.id.au>
+
+       * Deleted existing category.h and moved cat-routines.h into 
+       category.h  Encapsulated struct cat_vals better.
+
 2007-04-19 John Darrington <john@darrington.wattle.id.au>
 
        * sys-file-reader.c: When reading a system file which has no 
index 54fddf05162f20ca2e4d7e5094fde20aa0e108fe..e3c83e1d20675e14433bd80658081e779e462106 100644 (file)
@@ -27,7 +27,6 @@ src_data_libdata_a_SOURCES = \
        src/data/case.h \
        src/data/category.c \
        src/data/category.h \
-       src/data/cat-routines.h \
        src/data/data-in.c \
        src/data/data-in.h \
        src/data/data-out.c \
diff --git a/src/data/cat-routines.h b/src/data/cat-routines.h
deleted file mode 100644 (file)
index 4fed886..0000000
+++ /dev/null
@@ -1,53 +0,0 @@
-/* PSPP - Binary encodings for categorical variables.
-   Copyright (C) 2005 Free Software Foundation, Inc.
-   Written by Jason H Stover <jason@sakla.net>.
-
-   This program is free software; you can redistribute it and/or
-   modify it under the terms of the GNU General Public License as
-   published by the Free Software Foundation; either version 2 of the
-   License, or (at your option) any later version.
-
-   This program is distributed in the hope that it will be useful, but
-   WITHOUT ANY WARRANTY; without even the implied warranty of
-   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
-   General Public License for more details.
-
-   You should have received a copy of the GNU General Public License
-   along with this program; if not, write to the Free Software
-   Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
-   02110-1301, USA. */
-
-/*
-  Functions and data structures to recode categorical variables into
-  vectors and sub-rows of matrices.
-  
-  To fit many types of statistical models, it is necessary
-  to change each value of a categorical variable to a vector with binary
-  entries. These vectors are then stored as sub-rows within a matrix
-  during model-fitting. We need functions and data strucutres to,
-  e.g., map a value, say 'a', of a variable named 'cat_var', to a
-  vector, say (0 1 0 0 0), and vice versa.  We also need to be able
-  to map the vector back to the value 'a', and if the vector is a
-  sub-row of a matrix, we need to know which sub-row corresponds to
-  the variable 'cat_var'.
-
- */
-
-#ifndef CAT_ROUTINES_H
-#define CAT_ROUTINES_H
-#define CAT_VALUE_NOT_FOUND -2
-#include <stdbool.h>
-#include "category.h"
-
-size_t cat_value_find (const struct variable *, const union value *);
-
-union value *cat_subscript_to_value (const size_t, struct variable *);
-
-void cat_stored_values_create (const struct variable *);
-
-void cat_value_update (const struct variable *, const union value *);
-
-void cat_create_value_matrix (const struct variable *);
-
-void cat_stored_values_destroy (struct cat_vals *);
-#endif
index 9e5c6b0c110ac0514a095abb41e760c3d68411c6..fe053b8699fef7d8a84cb9368aa9370d31b51df5 100644 (file)
 
 #include <libpspp/alloc.h>
 #include <libpspp/message.h>
-#include "cat-routines.h"
+#include "category.h"
 #include "value.h"
 #include "variable.h"
 
+#define CAT_VALUE_NOT_FOUND -2
+
 #define N_INITIAL_CATEGORIES 1
 
+/*
+  This structure contains the observed values of a
+  categorical variable.
+ */
+struct cat_vals
+{
+  union value *vals;
+  size_t n_categories;
+  size_t n_allocated_categories;       /* This is used only during
+                                          initialization to keep
+                                          track of the number of
+                                          values stored.
+                                        */
+};
+
 void
 cat_stored_values_create (const struct variable *v)
 {
   if (!var_has_obs_vals (v))
     {
       struct cat_vals *obs_vals = xmalloc (sizeof *obs_vals);
+
       obs_vals->n_categories = 0;
       obs_vals->n_allocated_categories = N_INITIAL_CATEGORIES;
       obs_vals->vals = xnmalloc (N_INITIAL_CATEGORIES, sizeof *obs_vals->vals);
@@ -63,7 +81,7 @@ cat_stored_values_create (const struct variable *v)
 void
 cat_stored_values_destroy (struct cat_vals *obs_vals)
 {
-  if (obs_vals != NULL) 
+  if (obs_vals != NULL)
     {
       if (obs_vals->n_allocated_categories > 0)
         free (obs_vals->vals);
@@ -117,8 +135,8 @@ cat_value_update (const struct variable *v, const union value *val)
     }
 }
 
-union value *
-cat_subscript_to_value (const size_t s, struct variable *v)
+const union value *
+cat_subscript_to_value (const size_t s, const struct variable *v)
 {
   struct cat_vals *obs_vals = var_get_obs_vals (v);
   return s < obs_vals->n_categories ? obs_vals->vals + s : NULL;
index 35df104beba289c7040226a88ae8286ae9701d6d..40abebaa41f05cb9a31c495ad9f50f41fb01e628 100644 (file)
 
  */
 
-#ifndef CAT_H
-#define CAT_H
-#define CAT_VALUE_NOT_FOUND -2
-#include <stdbool.h>
+#ifndef CATEGORY_H
+#define CATEGORY_H
+
 #include <stddef.h>
 
-union value;
+struct cat_vals;
 struct variable ; 
+union value;
+
+void cat_stored_values_create (const struct variable *);
+void cat_stored_values_destroy (struct cat_vals *);
+
+size_t cat_value_find (const struct variable *, const union value *);
+
+const union value *cat_subscript_to_value (const size_t,
+                                          const struct variable *);
+
+
+void cat_value_update (const struct variable *, const union value *);
 
-/*
-  This structure contains the observed values of a 
-  categorical variable.
- */
-struct cat_vals
-{
-  union value *vals;
-  size_t n_categories;
-  size_t n_allocated_categories;       /* This is used only during
-                                          initialization to keep
-                                          track of the number of
-                                          values stored.
-                                        */
-};
 
 /*
   Return the number of categories of a categorical variable.
index 845a46e36231fe4ec62294d888c360f0f5fdee6d..761b540b1f2f8be203a24a3aa5a2db91d33b9da3 100644 (file)
@@ -24,7 +24,6 @@
 #include <ctype.h>
 
 #include "case.h"
-#include "cat-routines.h"
 #include "category.h"
 #include "settings.h"
 #include "value-labels.h"
index d04a757f3d60d89e12cb0ba1f0044485695148b8..87ba172d5801e7043dbd9391ff529b5336938f19 100644 (file)
@@ -261,8 +261,6 @@ sfm_open_reader (struct file_handle *fh, struct dictionary **dict,
          struct variable *var = dict_get_var (*dict, i);
          char short_name [SHORT_NAME_LEN + 1];
          char long_name [SHORT_NAME_LEN + 1];
-         char *s = short_name;
-         char *d = long_name;
 
          strcpy (short_name, var_get_name (var));
 
index 28065cafa111f6b6da32288e6e94f842d8c61a9d..f890746ac051c12adf355b9824c53939a0c5e1e1 100644 (file)
@@ -21,7 +21,8 @@
 
 #include <stdlib.h>
 
-#include "cat-routines.h"
+
+#include "category.h"
 #include "data-out.h"
 #include "format.h"
 #include "dictionary.h"
index 7baaef9109f9a1a66a71c82e687c828deaa3df16..e38167900c4edfba0486c742fab18f8acdd6a22a 100644 (file)
@@ -27,7 +27,6 @@
 #include "regression-export.h"
 #include <data/case.h>
 #include <data/casefile.h>
-#include <data/cat-routines.h>
 #include <data/category.h>
 #include <data/dictionary.h>
 #include <data/missing-values.h>
@@ -565,7 +564,7 @@ regression_trns_pred_proc (void *t_, struct ccase *c,
   pspp_linreg_cache *model;
   union value *output = NULL;
   const union value **vals = NULL;
-  struct variable **vars = NULL;
+  const struct variable **vars = NULL;
 
   assert (trns != NULL);
   model = trns->c;
@@ -605,7 +604,7 @@ regression_trns_resid_proc (void *t_, struct ccase *c,
   union value *output = NULL;
   const union value **vals = NULL;
   const union value *obs = NULL;
-  struct variable **vars = NULL;
+  const struct variable **vars = NULL;
 
   assert (trns != NULL);
   model = trns->c;
@@ -790,7 +789,7 @@ reg_print_categorical_encoding (FILE * fp, pspp_linreg_cache * c)
 
       for (j = 0; j < n_categories; j++)
        {
-         union value *val = cat_subscript_to_value (j, varlist[i]);
+         const union value *val = cat_subscript_to_value (j, varlist[i]);
          fprintf (fp, "%s.values[%d] = \"%s\";\n\t",
                   var_get_name (varlist[i]), j,
                   var_get_value_name (varlist[i], val));
@@ -1094,7 +1093,7 @@ prepare_data (int n_data, int is_missing_case[],
          j++;
          if (var_is_alpha (v_variables[i]))
            {
-             /* Make a place to hold the binary vectors 
+             /* Make a place to hold the binary vectors
                 corresponding to this variable's values. */
              cat_stored_values_create (v_variables[i]);
            }
@@ -1225,7 +1224,6 @@ run_regression (const struct ccase *first,
       if (n_data > 0)
        {
          Y = gsl_vector_alloc (n_data);
-         
          X =
            design_matrix_create (n_indep, (const struct variable **) indep_vars,
                                  n_data);
index fe0cd43877f3ab57c71f95b8a4b43d30b63098ee..51c1a9077cd6404efb195bb8ca8bc9583b4ac941 100644 (file)
@@ -69,8 +69,7 @@ pspp_coeff_init (struct pspp_coeff ** c, const struct design_matrix *X)
                                 */
       c[i]->v_info = xnmalloc (c[i]->n_vars, sizeof (*c[i]->v_info));
       assert (c[i]->v_info != NULL);
-      c[i]->v_info->v =
-       (const struct variable *) design_matrix_col_to_var (X, i);
+      c[i]->v_info->v = design_matrix_col_to_var (X, i);
 
       if (var_is_alpha (c[i]->v_info->v))
        {
@@ -79,7 +78,7 @@ pspp_coeff_init (struct pspp_coeff ** c, const struct design_matrix *X)
          assert (k <= i);
          k = i - k;
          c[i]->v_info->val =
-           cat_subscript_to_value (k, (struct variable *) c[i]->v_info->v);
+           cat_subscript_to_value (k, c[i]->v_info->v);
        }
     }
 }
index 0f5242d5d138a1e85ed7c022c732777d80fb286b..163c42fab66789e446af3b5643c8312f8d6b93be 100644 (file)
 #define DM_COLUMN_NOT_FOUND -1
 #define DM_INDEX_NOT_FOUND -3
 
-/*
-  Which element of a vector is equal to the value x?
- */
-static size_t
-cat_which_element_eq (const gsl_vector * vec, double x)
-{
-  size_t i;
-
-  for (i = 0; i < vec->size; i++)
-    {
-      if (fabs (gsl_vector_get (vec, i) - x) < GSL_DBL_EPSILON)
-       {
-         return i;
-       }
-    }
-  return CAT_VALUE_NOT_FOUND;
-}
-static int
-cat_is_zero_vector (const gsl_vector * vec)
-{
-  size_t i;
-
-  for (i = 0; i < vec->size; i++)
-    {
-      if (gsl_vector_get (vec, i) != 0.0)
-       {
-         return 0;
-       }
-    }
-  return 1;
-}
-
-/*
-  Return the value of v corresponding to the vector vec.
- */
-union value *
-cat_vector_to_value (const gsl_vector * vec, struct variable *v)
-{
-  size_t i;
-
-  i = cat_which_element_eq (vec, 1.0);
-  if (i != CAT_VALUE_NOT_FOUND)
-    {
-      return cat_subscript_to_value (i + 1, v);
-    }
-  if (cat_is_zero_vector (vec))
-    {
-      return cat_subscript_to_value (0, v);
-    }
-  return NULL;
-}
 
 struct design_matrix *
 design_matrix_create (int n_variables,
@@ -123,10 +72,10 @@ design_matrix_create (int n_variables,
        }
       else if (var_is_alpha (v))
        {
-          struct cat_vals *obs_vals = var_get_obs_vals (v);
+         size_t n_categories = cat_get_n_categories (v);
          (dm->vars + i)->last_column =
-           (dm->vars + i)->first_column + obs_vals->n_categories - 2;
-         n_cols += obs_vals->n_categories - 1;
+           (dm->vars + i)->first_column + n_categories - 2;
+         n_cols += n_categories - 1;
        }
     }
   dm->m = gsl_matrix_calloc (n_data, n_cols);
@@ -147,7 +96,7 @@ design_matrix_destroy (struct design_matrix *dm)
   Return the index of the variable for the
   given column.
  */
-struct variable *
+const struct variable *
 design_matrix_col_to_var (const struct design_matrix *dm, size_t col)
 {
   size_t i;
@@ -157,7 +106,7 @@ design_matrix_col_to_var (const struct design_matrix *dm, size_t col)
     {
       v = dm->vars[i];
       if (v.first_column <= col && col <= v.last_column)
-       return (struct variable *) v.v;
+       return v.v;
     }
   return NULL;
 }
@@ -232,6 +181,7 @@ design_matrix_set_categorical (struct design_matrix *dm, size_t row,
       gsl_matrix_set (dm->m, row, col, entry);
     }
 }
+
 void
 design_matrix_set_numeric (struct design_matrix *dm, size_t row,
                           const struct variable *var, const union value *val)
index ce17e5963cedd928a8ce581fb64d7d8e6a787229..2b6bae508a2522e2dad22d2030b1da35096e4340 100644 (file)
@@ -26,7 +26,7 @@
 #include <gsl/gsl_matrix.h>
 #include <stdbool.h>
 #include <data/category.h>
-#include <data/cat-routines.h>
+
 struct design_matrix_var
 {
   size_t first_column;         /* First column for this variable in
@@ -40,6 +40,7 @@ struct design_matrix_var
   size_t last_column;
   const struct variable *v;
 };
+
 struct design_matrix
 {
   gsl_matrix *m;
@@ -61,7 +62,7 @@ struct design_matrix
                                         */
   size_t n_vars;
 };
-union value *cat_vector_to_value (const gsl_vector *, struct variable *);
+
 
 struct design_matrix *design_matrix_create (int, const struct variable *[],
                                            const size_t);
@@ -73,12 +74,13 @@ void design_matrix_set_categorical (struct design_matrix *, size_t,
                                    const union value *);
 
 void design_matrix_set_numeric (struct design_matrix *, size_t,
-                               const struct variable *, const union value *);
+                                   const struct variable *,
+                                   const union value *);
 
 size_t design_matrix_var_to_column (const struct design_matrix *,
                                    const struct variable *);
 
-struct variable *design_matrix_col_to_var (const struct design_matrix *,
+const struct variable *design_matrix_col_to_var (const struct design_matrix *,
                                           size_t);
 
 #endif
index f4eea028dfdf1e228364e78f5af96cb10df188de..558f6646fe33dde8e2ed19bcac22fd2614e76bb1 100644 (file)
@@ -95,7 +95,7 @@ linreg_mean_std (gsl_vector_const_view v, double *mp, double *sp, double *ssp)
   The return value is the number of distinct variables found.
  */
 int
-pspp_linreg_get_vars (const void *c_, struct variable **v)
+pspp_linreg_get_vars (const void *c_, const struct variable **v)
 {
   const pspp_linreg_cache *c = c_;
   struct pspp_coeff *coef = NULL;
@@ -114,7 +114,7 @@ pspp_linreg_get_vars (const void *c_, struct variable **v)
   /*
      Start at c->coeff[1] to avoid the intercept.
    */
-  v[result] = (struct variable *) pspp_coeff_get_var (c->coeff[1], 0);
+  v[result] =  pspp_coeff_get_var (c->coeff[1], 0);
   result = (v[result] == NULL) ? 0 : 1;
 
   for (coef = c->coeff[2]; coef < c->coeff[c->n_coeffs]; coef++)
@@ -130,7 +130,7 @@ pspp_linreg_get_vars (const void *c_, struct variable **v)
        }
       if (i < 0 && result < c->n_coeffs)
        {
-         v[result] = (struct variable *) tmp;
+         v[result] = tmp;
          result++;
        }
     }
index c5f5ef10ba24e944e91f548b37bf01621a85358a..28ab650e4ff6a9808b15415bdb93cbaaed1c932b 100644 (file)
@@ -165,7 +165,7 @@ struct pspp_linreg_cache_struct
   /*
      Returns pointers to the variables used in the model.
    */
-  int (*get_vars) (const void *, struct variable **);
+  int (*get_vars) (const void *, const struct variable **);
   struct variable *resid;
   struct variable *pred;
 
@@ -202,5 +202,5 @@ pspp_linreg_residual (const struct variable **, const union value **,
 /*
   All variables used in the model.
  */
-int pspp_linreg_get_vars (const void *, struct variable **);
+int pspp_linreg_get_vars (const void *, const struct variable **);
 #endif