Examine: Change the positioning of the whiskers on boxplots.
[pspp] / src / math / box-whisker.c
index fb5c2c62a21fefe6842f820ef6599c4e05bbf3c7..c30be218fd433705193ee6f6c184c29f54a7b6ed 100644 (file)
@@ -22,6 +22,7 @@
 #include <float.h>
 
 #include "data/case.h"
+#include "data/data-out.h"
 #include "data/val-type.h"
 #include "data/variable.h"
 #include "libpspp/assertion.h"
@@ -62,29 +63,49 @@ acc (struct statistic *s, const struct ccase *cx,
   bool extreme;
   struct outlier *o;
 
-  if ( y < bw->hinges[2] + bw->step)
-      bw->whiskers[1] = y;
+  if ( y > bw->hinges[2] + bw->step) /* Upper outlier */
+    {
+      extreme = (y > bw->hinges[2] + 2 * bw->step) ;
+    }
 
-  if (bw->whiskers[0] == SYSMIS ||  bw->hinges[0] - bw->step > y)
-      bw->whiskers[0] = y;
+  else if (y < bw->hinges[0] - bw->step) /* Lower outlier */
+    {
+      extreme = (y < bw->hinges[0] - 2 * bw->step) ;
+    }
 
-  if ( y > bw->hinges[2] + bw->step)
-    extreme = (y > bw->hinges[2] + 2 * bw->step) ;
+  else /* Not an outlier */
+    {
+      if (bw->whiskers[0] == SYSMIS)
+       bw->whiskers[0] = y;
 
-  else if (y < bw->hinges[0] - bw->step)
-    extreme = (y < bw->hinges[0] - 2 * bw->step) ;
+      if (y > bw->whiskers[1])
+       bw->whiskers[1] = y;
+         
+      return;
+    }
 
-  else
-    return;
+  /* y is an outlier */
 
   o = xzalloc (sizeof *o) ;
   o->value = y;
   o->extreme = extreme;
   ds_init_empty (&o->label);
 
-  ds_put_format (&o->label,
-                  "%ld",
-                 (casenumber) case_data_idx (cx, bw->casenumber_idx)->f);
+  if (bw->id_var)
+    {
+      char *s = data_out (case_data_idx (cx, bw->id_idx),
+                           var_get_encoding (bw->id_var),
+                           var_get_print_format (bw->id_var));
+
+      ds_put_cstr (&o->label, s);
+      free (s);
+    }
+  else
+    {
+      ds_put_format (&o->label,
+                     "%ld",
+                     (casenumber) case_data_idx (cx, bw->id_idx)->f);
+    }
 
   ll_push_head (&bw->outliers, &o->ll);
 }
@@ -115,12 +136,13 @@ box_whisker_outliers (const struct box_whisker *bw)
 
   TH are the tukey hinges of the dataset.
 
-  Casenumber_idx is the index into the casereader which will be used to label 
+  id_idx is the index into the casereader which will be used to label 
   outliers.
+  id_var is the variable from which that label came, or NULL
 */
 struct box_whisker *
 box_whisker_create (const struct tukey_hinges *th,
-                   size_t casenumber_idx)
+                   size_t id_idx, const struct variable *id_var)
 {
   struct box_whisker *w = xzalloc (sizeof (*w));
   struct order_stats *os = &w->parent;
@@ -133,7 +155,8 @@ box_whisker_create (const struct tukey_hinges *th,
 
   tukey_hinges_calculate (th, w->hinges);
 
-  w->casenumber_idx = casenumber_idx;
+  w->id_idx = id_idx;
+  w->id_var = id_var;
 
   w->step = (w->hinges[2] - w->hinges[0]) * 1.5;