Categoricals: Provide separate functions for effects and dummy coding.
[pspp] / src / math / categoricals.c
index d4d43243703cd30dd2a848f7f56bf148b8ffc5b8..c088ac00732bd23dc7a9db178f058c434f1579b4 100644 (file)
@@ -34,8 +34,6 @@
 
 #define CATEGORICALS_DEBUG 0
 
-#define EFFECTS_CODING 1
-
 struct value_node
 {
   struct hmap_node node;      /* Node in hash map. */
@@ -96,10 +94,10 @@ lookup_variable (const struct hmap *map, const struct variable *var, unsigned in
 
 struct interact_params
 {
-  /* A map indexed by a interaction_value */
+  /* A map of cases indexed by a interaction_value */
   struct hmap ivmap;
 
-  const struct interaction *iact;
+  struct interaction *iact;
 
   int base_subscript_short;
   int base_subscript_long;
@@ -165,12 +163,17 @@ struct categoricals
 
   struct pool *pool;
 
-  /* Missing values to be excluded */
-  enum mv_class exclude;
+  /* Missing values in the dependent varirable to be excluded */
+  enum mv_class dep_excl;
+
+  /* Missing values in the factor variables to be excluded */
+  enum mv_class fctr_excl;
 
   const void *aux1;
   void *aux2;
 
+  bool sane;
+
   const struct payload *payload;
 };
 
@@ -248,16 +251,15 @@ categoricals_destroy (struct categoricals *cat)
       /* Interate over each interaction value, and unref any cases that we reffed */
       HMAP_FOR_EACH (iv, struct interaction_value, node, &cat->iap[i].ivmap)
        {
-#if 0
-         if (cat->payload)
-           cat->payload->destroy (cat->aux1, iv->user_data);
-#endif
+         if (cat->payload && cat->payload->destroy)
+           cat->payload->destroy (cat->aux1, cat->aux2, iv->user_data);
          case_unref (iv->ccase);
        }
 
       free (cat->iap[i].enc_sum);
       free (cat->iap[i].df_prod);
       hmap_destroy (&cat->iap[i].ivmap);
+      interaction_destroy (cat->iap[i].iact);
     }
 
   /* Interate over each variable and delete its value map */
@@ -292,10 +294,15 @@ lookup_case (const struct hmap *map, const struct interaction *iact, const struc
   return iv;
 }
 
+bool 
+categoricals_sane (const struct categoricals *cat)
+{
+  return cat->sane;
+}
 
 struct categoricals *
 categoricals_create (struct interaction *const*inter, size_t n_inter,
-                    const struct variable *wv, enum mv_class exclude)
+                    const struct variable *wv, enum mv_class dep_excl, enum mv_class fctr_excl)
 {
   size_t i;
   struct categoricals *cat = xmalloc (sizeof *cat);
@@ -307,9 +314,11 @@ categoricals_create (struct interaction *const*inter, size_t n_inter,
   cat->reverse_variable_map_short = NULL;
   cat->reverse_variable_map_long = NULL;
   cat->pool = pool_create ();
-  cat->exclude = exclude;
+  cat->dep_excl = dep_excl;
+  cat->fctr_excl = fctr_excl;
   cat->payload = NULL;
   cat->aux2 = NULL;
+  cat->sane = false;
 
   cat->iap = pool_calloc (cat->pool, cat->n_iap, sizeof *cat->iap);
 
@@ -347,7 +356,12 @@ categoricals_update (struct categoricals *cat, const struct ccase *c)
 {
   int i;
   struct variable_node *vn = NULL;
-  const double weight = cat->wv ? case_data (c, cat->wv)->f : 1.0;
+  double weight;
+
+  if (NULL == cat)
+    return;
+
+  weight = cat->wv ? case_data (c, cat->wv)->f : 1.0;
 
   assert (NULL == cat->reverse_variable_map_short);
   assert (NULL == cat->reverse_variable_map_long);
@@ -378,7 +392,7 @@ categoricals_update (struct categoricals *cat, const struct ccase *c)
       size_t hash;
       struct interaction_value *node;
 
-      if ( interaction_case_is_missing (iact, c, cat->exclude))
+      if ( interaction_case_is_missing (iact, c, cat->fctr_excl))
        continue;
 
       hash = interaction_case_hash (iact, c, 0);
@@ -442,6 +456,9 @@ categoricals_n_total (const struct categoricals *cat)
 size_t
 categoricals_df_total (const struct categoricals *cat)
 {
+  if (NULL == cat)
+    return 0;
+
   return cat->df_sum;
 }
 
@@ -454,7 +471,7 @@ categoricals_is_complete (const struct categoricals *cat)
 
 /* This function must be called *before* any call to categoricals_get_*_by subscript and
  *after* all calls to categoricals_update */
-bool
+void
 categoricals_done (const struct categoricals *cat_)
 {
   /* Implementation Note: Whilst this function is O(n) in cat->n_cats_total, in most
@@ -468,6 +485,10 @@ categoricals_done (const struct categoricals *cat_)
   int i;
   int idx_short = 0;
   int idx_long = 0;
+
+  if (NULL == cat)
+    return;
+
   cat->df_sum = 0;
   cat->n_cats_total = 0;
 
@@ -488,7 +509,10 @@ categoricals_done (const struct categoricals *cat_)
          struct variable_node *vn = lookup_variable (&cat->varmap, var, hash_pointer (var, 0));
 
          if  (hmap_count (&vn->valmap) == 0)
-           return false;
+           {
+             cat->sane = false;
+             return;
+           }
 
          cat->iap[i].df_prod[v] = df * (hmap_count (&vn->valmap) - 1);
          df = cat->iap[i].df_prod[v];
@@ -528,7 +552,6 @@ categoricals_done (const struct categoricals *cat_)
       HMAP_FOR_EACH (ivn, struct interaction_value, node, &iap->ivmap)
        {
          iap->reverse_interaction_value_map[x++] = ivn;
-
        }
 
       assert (x <= iap->n_cats);
@@ -572,13 +595,15 @@ categoricals_done (const struct categoricals *cat_)
          struct interaction_value *iv = iap->reverse_interaction_value_map[y];
          for (x = iap->base_subscript_short; x < iap->base_subscript_short + df ;++x)
            {
-             const double bin = categoricals_get_code_for_case (cat, x, iv->ccase); \
+             const double bin = categoricals_get_effects_code_for_case (cat, x, iv->ccase);
              iap->enc_sum [x - iap->base_subscript_short] += bin * iv->cc;
            }
+         if (cat->payload && cat->payload->calculate)
+           cat->payload->calculate (cat->aux1, cat->aux2, iv->user_data);
        }
     }
 
-  return true;
+  cat->sane = true;
 }
 
 
@@ -630,11 +655,13 @@ categoricals_get_sum_by_subscript (const struct categoricals *cat, int subscript
   return   vp->enc_sum[subscript - vp->base_subscript_short];
 }
 
+
 /* Returns unity if the value in case C at SUBSCRIPT is equal to the category
    for that subscript */
-double
+static double
 categoricals_get_code_for_case (const struct categoricals *cat, int subscript,
-                               const struct ccase *c)
+                               const struct ccase *c,
+                               bool effects_coding)
 {
   const struct interaction *iact = categoricals_get_interaction_by_subscript (cat, subscript);
 
@@ -667,13 +694,10 @@ categoricals_get_code_for_case (const struct categoricals *cat, int subscript,
       const int index = ((subscript - base_index) % iap->df_prod[v] ) / dfp;
       dfp = iap->df_prod [v];
 
-#if EFFECTS_CODING
-      if ( valn->index == df )
+      if (effects_coding && valn->index == df )
        bin = -1.0;
-      else 
-#endif
-       if ( valn->index  != index )
-         bin = 0;
+      else if ( valn->index  != index )
+       bin = 0;
     
       result *= bin;
     }
@@ -682,6 +706,28 @@ categoricals_get_code_for_case (const struct categoricals *cat, int subscript,
 }
 
 
+/* Returns unity if the value in case C at SUBSCRIPT is equal to the category
+   for that subscript */
+double
+categoricals_get_dummy_code_for_case (const struct categoricals *cat, int subscript,
+                                    const struct ccase *c)
+{
+  return categoricals_get_code_for_case (cat, subscript, c, false);
+}
+
+/* Returns unity if the value in case C at SUBSCRIPT is equal to the category
+   for that subscript. 
+   Else if it is the last category, return -1.
+   Otherwise return 0.
+ */
+double
+categoricals_get_effects_code_for_case (const struct categoricals *cat, int subscript,
+                                       const struct ccase *c)
+{
+  return categoricals_get_code_for_case (cat, subscript, c, true);
+}
+
+
 size_t
 categoricals_get_n_variables (const struct categoricals *cat)
 {
@@ -695,8 +741,14 @@ categoricals_get_n_variables (const struct categoricals *cat)
 const struct ccase *
 categoricals_get_case_by_category_real (const struct categoricals *cat, int iact, int n)
 {
+  const struct interaction_value *vn;
+
   const struct interact_params *vp = &cat->iap[iact];
-  const struct interaction_value *vn = vp->reverse_interaction_value_map [n];
+
+  if ( n >= hmap_count (&vp->ivmap))
+    return NULL;
+
+  vn = vp->reverse_interaction_value_map [n];
 
   return vn->ccase;
 }
@@ -706,7 +758,12 @@ void *
 categoricals_get_user_data_by_category_real (const struct categoricals *cat, int iact, int n)
 {
   const struct interact_params *vp = &cat->iap[iact];
-  const struct interaction_value *iv = vp->reverse_interaction_value_map [n];
+  const struct interaction_value *iv ;
+
+  if ( n >= hmap_count (&vp->ivmap))
+    return NULL;
+
+  iv = vp->reverse_interaction_value_map [n];
 
   return iv->user_data;
 }