Change license from GPLv2+ to GPLv3+.
[pspp-builds.git] / src / data / category.c
1 /* PSPP - a program for statistical analysis.
2    Copyright (C) 2005 Free Software Foundation, Inc.
3
4    This program is free software: you can redistribute it and/or modify
5    it under the terms of the GNU General Public License as published by
6    the Free Software Foundation, either version 3 of the License, or
7    (at your option) any later version.
8
9    This program is distributed in the hope that it will be useful,
10    but WITHOUT ANY WARRANTY; without even the implied warranty of
11    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12    GNU General Public License for more details.
13
14    You should have received a copy of the GNU General Public License
15    along with this program.  If not, see <http://www.gnu.org/licenses/>. */
16
17 /*
18   Functions and data structures to store values of a categorical
19   variable, and to recode those values into binary vectors.
20
21   For some statistical models, it is necessary to change each value
22   of a categorical variable to a vector with binary entries. These
23   vectors are then stored as sub-rows within a matrix during
24   model-fitting. For example, we need functions and data strucutres to map a
25   value, say 'a', of a variable named 'cat_var', to a vector, say (0
26   1 0 0 0), and vice versa.  We also need to be able to map the
27   vector back to the value 'a', and if the vector is a sub-row of a
28   matrix, we need to know which sub-row corresponds to the variable
29   'cat_var'.
30 */
31 #include <config.h>
32
33 #include <assert.h>
34 #include <stdlib.h>
35 #include <string.h>
36
37 #include <libpspp/alloc.h>
38 #include <libpspp/message.h>
39 #include "category.h"
40 #include "value.h"
41 #include "variable.h"
42
43 #define CAT_VALUE_NOT_FOUND -2
44
45 #define N_INITIAL_CATEGORIES 1
46
47 /*
48   This structure contains the observed values of a
49   categorical variable.
50  */
51 struct cat_vals
52 {
53   union value *vals;
54   size_t n_categories;
55   size_t n_allocated_categories;        /* This is used only during
56                                            initialization to keep
57                                            track of the number of
58                                            values stored.
59                                          */
60 };
61
62 void
63 cat_stored_values_create (const struct variable *v)
64 {
65   if (!var_has_obs_vals (v))
66     {
67       struct cat_vals *obs_vals = xmalloc (sizeof *obs_vals);
68
69       obs_vals->n_categories = 0;
70       obs_vals->n_allocated_categories = N_INITIAL_CATEGORIES;
71       obs_vals->vals = xnmalloc (N_INITIAL_CATEGORIES, sizeof *obs_vals->vals);
72       var_set_obs_vals (v, obs_vals);
73     }
74 }
75
76 void
77 cat_stored_values_destroy (struct cat_vals *obs_vals)
78 {
79   if (obs_vals != NULL)
80     {
81       if (obs_vals->n_allocated_categories > 0)
82         free (obs_vals->vals);
83       free (obs_vals);
84     }
85 }
86
87 /*
88   Which subscript corresponds to val?
89  */
90 size_t
91 cat_value_find (const struct variable *v, const union value *val)
92 {
93   struct cat_vals *obs_vals = var_get_obs_vals (v);
94   size_t i;
95   const union value *candidate;
96
97   for (i = 0; i < obs_vals->n_categories; i++)
98     {
99       candidate = obs_vals->vals + i;
100       assert (candidate != NULL);
101       if (!compare_values (candidate, val, var_get_width (v)))
102         {
103           return i;
104         }
105     }
106   return CAT_VALUE_NOT_FOUND;
107 }
108
109 /*
110    Add the new value unless it is already present.
111  */
112 void
113 cat_value_update (const struct variable *v, const union value *val)
114 {
115   if (var_is_alpha (v))
116     {
117       struct cat_vals *cv = var_get_obs_vals (v);
118       if (cat_value_find (v, val) == CAT_VALUE_NOT_FOUND)
119         {
120           if (cv->n_categories >= cv->n_allocated_categories)
121             {
122               cv->n_allocated_categories *= 2;
123               cv->vals = xnrealloc (cv->vals,
124                                     cv->n_allocated_categories,
125                                     sizeof *cv->vals);
126             }
127           cv->vals[cv->n_categories] = *val;
128           cv->n_categories++;
129         }
130     }
131 }
132
133 const union value *
134 cat_subscript_to_value (const size_t s, const struct variable *v)
135 {
136   struct cat_vals *obs_vals = var_get_obs_vals (v);
137   return s < obs_vals->n_categories ? obs_vals->vals + s : NULL;
138 }
139
140 /*
141   Return the number of categories of a categorical variable.
142  */
143 size_t
144 cat_get_n_categories (const struct variable *v)
145 {
146   return var_get_obs_vals (v)->n_categories;
147 }
148