Histogram calculations: Use integer arithmetic
[pspp] / src / math / histogram.c
index 7b875d4089ad211d39a636f34fa8e8108a2098de..d14eb45e3423a55077c84d8b93a370d70b6c383b 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 2004 Free Software Foundation, Inc.
+   Copyright (C) 2004, 2008, 2009, 2011, 2012 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
    along with this program.  If not, see <http://www.gnu.org/licenses/>. */
 
 #include <config.h>
-#include <math.h>
+
+#include "math/histogram.h"
+
 #include <gsl/gsl_histogram.h>
-#include <assert.h>
-#include "histogram.h"
-#include "chart-geometry.h"
+#include <math.h>
+
+#include "libpspp/message.h"
+#include "libpspp/assertion.h"
+#include "libpspp/cast.h"
+#include "math/chart-geometry.h"
+
+#include "gettext.h"
+#define _(msgid) gettext (msgid)
+#define N_(msgid) msgid
+
 
+#include "gl/xalloc.h"
+
+void
+histogram_add (struct histogram *h, double y, double c)
+{
+  struct statistic *stat = &h->parent;
+  stat->accumulate (stat, NULL, c, 0, y);
+}
+
+static void
+acc (struct statistic *s, const struct ccase *cx UNUSED, double c, double cc UNUSED, double y)
+{
+  struct histogram *hist = UP_CAST (s, struct histogram, parent);
+
+  gsl_histogram_accumulate (hist->gsl_hist, y, c);
+}
 
-gsl_histogram *
-histogram_create(double bins, double x_min, double x_max)
+static void
+destroy (struct statistic *s)
 {
-  int n;
-  double bin_width ;
-  double bin_width_2 ;
-  double upper_limit, lower_limit;
+  struct histogram *h = UP_CAST (s, struct histogram, parent);
+  gsl_histogram_free (h->gsl_hist);
+  free (s);
+}
+
+
+struct histogram *
+histogram_create (double bin_width, double min, double max)
+{
+  int bins;
+  struct histogram *h = xmalloc (sizeof *h);
+  struct statistic *stat = &h->parent;
+
+  const double half_bin_width = bin_width / 2.0;
+
+  /* The lower and upper limits of the histogram, in units of half
+     bin widths */
+  int lower_limit, upper_limit;
+
+  /* -1 if the lower end of the range contains more unused space
+     than the upper end.
+     +1 otherwise.  */
+  short sparse_end = 0;
+
+  if (max == min)
+    {
+      msg (MW, _("Not creating histogram because the data contains less than 2 distinct values"));
+      free (h);
+      return NULL;
+    }
+
+  assert (max > min);
+
+  {
+    double ul, ll;
+    double lower_tail = modf (min / half_bin_width, &ll);
+    double upper_tail = modf (max / half_bin_width, &ul);
+    lower_limit = ll - 1;
+    upper_limit = ul + 1;
+    
+    sparse_end = lower_tail < upper_tail ? -1 : +1;
+  }
+
+  /* The range must be an EVEN number of half bin_widths */
+  if ( (upper_limit - lower_limit) % 2)
+    {
+      /* Extend the range at the end which gives the least unused space */
+      if (sparse_end == +1)
+       lower_limit--;
+      else
+        upper_limit++;
+      
+      /* Now the other end has more space */
+      sparse_end *= -1;
+    }
+
+  /* But the range should be aligned to an ODD number of
+     half bin widths, so that the labels are aesthetically pleasing ones. */
+  if ( lower_limit % 2 == 0)
+    {
+      lower_limit += -sparse_end ;
+      upper_limit += -sparse_end ;
+    }
+
+  bins = (upper_limit - lower_limit) / 2.0;
 
-  gsl_histogram *hist = gsl_histogram_alloc(bins);
+  /* Force the number of bins to lie in a sensible range */
+  if (bins > 25) 
+    bins = 25;
 
-  bin_width = chart_rounded_tick((x_max - x_min)/ bins);
-  bin_width_2 = bin_width / 2.0;
+  if (bins < 1)
+    bins = 1;
 
-  n =  ceil( x_max / (bin_width_2) ) ;
-  if ( ! (n % 2 ) ) n++;
-  upper_limit = n * bin_width_2;
+  h->gsl_hist = gsl_histogram_alloc (bins);
 
-  n =  floor( x_min / (bin_width_2) ) ;
-  if ( ! (n % 2 ) ) n--;
-  lower_limit = n * bin_width_2;
+  gsl_histogram_set_ranges_uniform (h->gsl_hist,
+                                    lower_limit * half_bin_width,
+                                    upper_limit * half_bin_width);
 
-  gsl_histogram_set_ranges_uniform(hist, lower_limit, upper_limit);
+  stat->accumulate = acc;
+  stat->destroy = destroy;
 
-  return hist;
+  return h;
 }