case: Introduce new functions for numbers and substrings in cases.
[pspp] / src / math / box-whisker.c
1 /* PSPP - a program for statistical analysis.
2    Copyright (C) 2008, 2009, 2011 Free Software Foundation, Inc.
3
4    This program is free software: you can redistribute it and/or modify
5    it under the terms of the GNU General Public License as published by
6    the Free Software Foundation, either version 3 of the License, or
7    (at your option) any later version.
8
9    This program is distributed in the hope that it will be useful,
10    but WITHOUT ANY WARRANTY; without even the implied warranty of
11    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12    GNU General Public License for more details.
13
14    You should have received a copy of the GNU General Public License
15    along with this program.  If not, see <http://www.gnu.org/licenses/>. */
16
17 #include <config.h>
18
19 #include "box-whisker.h"
20
21 #include <math.h>
22 #include <float.h>
23
24 #include "data/case.h"
25 #include "data/data-out.h"
26 #include "data/val-type.h"
27 #include "data/variable.h"
28 #include "libpspp/assertion.h"
29 #include "libpspp/cast.h"
30 #include "libpspp/str.h"
31 #include "math/order-stats.h"
32 #include "math/tukey-hinges.h"
33
34 #include "gl/xalloc.h"
35
36 static void
37 destroy (struct statistic *s)
38 {
39   struct box_whisker *bw = UP_CAST (s, struct box_whisker, parent.parent);
40   struct order_stats *os = &bw->parent;
41   struct ll *ll;
42
43   for (ll = ll_head (&bw->outliers); ll != ll_null (&bw->outliers);)
44     {
45       struct outlier *e = ll_data (ll, struct outlier, ll);
46
47       ll = ll_next (ll);
48
49       ds_destroy (&e->label);
50       free (e);
51     }
52
53   free (os->k);
54   free (s);
55 };
56
57
58 static void
59 acc (struct statistic *s, const struct ccase *cx,
60      double c UNUSED, double cc UNUSED, double y)
61 {
62   struct box_whisker *bw = UP_CAST (s, struct box_whisker, parent.parent);
63   bool extreme;
64   struct outlier *o;
65
66   if (y > bw->hinges[2] + bw->step) /* Upper outlier */
67     {
68       extreme = (y > bw->hinges[2] + 2 * bw->step) ;
69     }
70
71   else if (y < bw->hinges[0] - bw->step) /* Lower outlier */
72     {
73       extreme = (y < bw->hinges[0] - 2 * bw->step) ;
74     }
75
76   else /* Not an outlier */
77     {
78       if (bw->whiskers[0] == SYSMIS)
79         bw->whiskers[0] = y;
80
81       if (y > bw->whiskers[1])
82         bw->whiskers[1] = y;
83
84       return;
85     }
86
87   /* y is an outlier */
88
89   o = xzalloc (sizeof *o) ;
90   o->value = y;
91   o->extreme = extreme;
92   ds_init_empty (&o->label);
93
94   if (bw->id_var)
95     {
96       char *s = data_out (case_data_idx (cx, bw->id_idx),
97                           var_get_encoding (bw->id_var),
98                           var_get_print_format (bw->id_var),
99                           settings_get_fmt_settings ());
100
101       ds_put_cstr (&o->label, s);
102       free (s);
103     }
104   else
105     {
106       ds_put_format (&o->label,
107                      "%ld",
108                      (casenumber) case_num_idx (cx, bw->id_idx));
109     }
110
111   ll_push_head (&bw->outliers, &o->ll);
112 }
113
114 void
115 box_whisker_whiskers (const struct box_whisker *bw, double whiskers[2])
116 {
117   whiskers[0] = bw->whiskers[0];
118   whiskers[1] = bw->whiskers[1];
119 }
120
121 void
122 box_whisker_hinges (const struct box_whisker *bw, double hinges[3])
123 {
124   hinges[0] = bw->hinges[0];
125   hinges[1] = bw->hinges[1];
126   hinges[2] = bw->hinges[2];
127 }
128
129 const struct ll_list *
130 box_whisker_outliers (const struct box_whisker *bw)
131 {
132   return &bw->outliers;
133 }
134
135 /*
136   Create a box_whisker struct, suitable for generating a boxplot.
137
138   TH are the tukey hinges of the dataset.
139
140   id_idx is the index into the casereader which will be used to label
141   outliers.
142   id_var is the variable from which that label came, or NULL
143 */
144 struct box_whisker *
145 box_whisker_create (const struct tukey_hinges *th,
146                     size_t id_idx, const struct variable *id_var)
147 {
148   struct box_whisker *w = xzalloc (sizeof (*w));
149   struct order_stats *os = &w->parent;
150   struct statistic *stat = &os->parent;
151
152   os->n_k = 0;
153
154   stat->destroy = destroy;
155   stat->accumulate = acc;
156
157   tukey_hinges_calculate (th, w->hinges);
158
159   w->id_idx = id_idx;
160   w->id_var = id_var;
161
162   w->step = (w->hinges[2] - w->hinges[0]) * 1.5;
163
164   w->whiskers[1] = w->hinges[2];
165   w->whiskers[0] = SYSMIS;
166
167   ll_init (&w->outliers);
168
169   return w;
170 }