FREQUENCIES: Choose number of bins for histogram based on valid cases.
[pspp] / src / language / stats / frequencies.q
index e44e8e216800f1dd788b4adf70160faf2b3014d3..523345be51e3a6955c3c13e9c3424314145f2bb9 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 1997-9, 2000, 2007, 2009 Free Software Foundation, Inc.
+   Copyright (C) 1997-9, 2000, 2007, 2009, 2010 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
 #include <libpspp/str.h>
 #include <math/histogram.h>
 #include <math/moments.h>
-#include <output/chart.h>
+#include <output/chart-item.h>
 #include <output/charts/piechart.h>
 #include <output/charts/plot-hist.h>
-#include <output/manager.h>
-#include <output/output.h>
-#include <output/table.h>
+#include <output/tab.h>
 
 #include "freq.h"
 
@@ -207,6 +205,8 @@ struct freq_tab
     struct hsh_table *data;    /* Undifferentiated data. */
     struct freq_mutable *valid; /* Valid freqs. */
     int n_valid;               /* Number of total freqs. */
+    const struct dictionary *dict; /* The dict from whence entries in the table
+                                     come */
 
     struct freq_mutable *missing; /* Missing freqs. */
     int n_missing;             /* Number of missing freqs. */
@@ -601,7 +601,7 @@ postcalc (const struct dataset *ds)
 
 
 
-      if ( chart == GFT_HIST && var_is_numeric (v) )
+      if ( chart == GFT_HIST && var_is_numeric (v) && ft->n_valid > 0)
        {
          double d[frq_n_stats];
          struct histogram *hist ;
@@ -610,13 +610,14 @@ postcalc (const struct dataset *ds)
 
          hist = freq_tab_to_hist (ft,v);
 
-         histogram_plot (hist, var_to_string(v),
-                         vf->tab.valid_cases,
-                         d[frq_mean],
-                         d[frq_stddev],
-                         normal);
+          chart_item_submit (histogram_chart_create (
+                               hist->gsl_hist, var_to_string(v),
+                               vf->tab.valid_cases,
+                               d[frq_mean],
+                               d[frq_stddev],
+                               normal));
 
-         statistic_destroy ((struct statistic *)hist);
+         statistic_destroy (&hist->parent);
        }
 
       if ( chart == GFT_PIE)
@@ -755,6 +756,7 @@ frq_custom_variables (struct lexer *lexer, struct dataset *ds, struct cmd_freque
        }
       vf = var_attach_aux (v, xmalloc (sizeof *vf), var_dtor_free);
       vf->tab.valid = vf->tab.missing = NULL;
+      vf->tab.dict = dataset_dict (ds);
       vf->n_groups = 0;
       vf->groups = NULL;
       vf->width = var_get_width (v);
@@ -997,41 +999,6 @@ compare_freq_alpha_d (const void *a_, const void *b_, const void *v_)
 \f
 /* Frequency table display. */
 
-struct full_dim_aux
-  {
-    bool show_labels;
-  };
-
-/* Sets the widths of all the columns and heights of all the rows in
-   table T for driver D. */
-static void
-full_dim (struct tab_rendering *r, void *aux_)
-{
-  const struct outp_driver *d = r->driver;
-  const struct tab_table *t = r->table;
-  const struct full_dim_aux *aux = aux_;
-  int i;
-
-  for (i = 0; i < t->nc; i++)
-    {
-      r->w[i] = tab_natural_width (r, i);
-      if (aux->show_labels && i == 0)
-        r->w[i] = MIN (r->w[i], d->prop_em_width * 15);
-      else
-        r->w[i] = MAX (r->w[i], d->prop_em_width * 8);
-    }
-
-  for (i = 0; i < t->nr; i++)
-    r->h[i] = d->font_height;
-}
-
-static void
-full_dim_free (void *aux_)
-{
-  struct full_dim_aux *aux = aux_;
-  free (aux);
-}
-
 /* Displays a full frequency table for variable V. */
 static void
 dump_full (const struct variable *v, const struct variable *wv)
@@ -1042,56 +1009,33 @@ dump_full (const struct variable *v, const struct variable *wv)
   struct freq_tab *ft;
   struct freq_mutable *f;
   struct tab_table *t;
-  int r;
+  int r, x;
   double cum_total = 0.0;
   double cum_freq = 0.0;
 
-  struct init
-    {
-      int c, r;
-      const char *s;
-    };
-
-  const struct init *p;
-
-  static const struct init vec[] =
-  {
-    {4, 0, N_("Valid")},
-    {5, 0, N_("Cum")},
-    {1, 1, N_("Value")},
-    {2, 1, N_("Frequency")},
-    {3, 1, N_("Percent")},
-    {4, 1, N_("Percent")},
-    {5, 1, N_("Percent")},
-    {0, 0, NULL},
-    {1, 0, NULL},
-    {2, 0, NULL},
-    {3, 0, NULL},
-    {-1, -1, NULL},
+  static const char *headings[] = {
+    N_("Value"),
+    N_("Frequency"),
+    N_("Percent"),
+    N_("Valid Percent"),
+    N_("Cum Percent")
   };
 
   const bool lab = (cmd.labels == FRQ_LABELS);
 
-  struct full_dim_aux *aux;
-
   vf = get_var_freqs (v);
   ft = &vf->tab;
   n_categories = ft->n_valid + ft->n_missing;
-  t = tab_create (5 + lab, n_categories + 3, 0);
-  tab_headers (t, 0, 0, 2, 0);
-
-  aux = xmalloc (sizeof *aux);
-  aux->show_labels = lab;
-  tab_dim (t, full_dim, full_dim_free, aux);
+  t = tab_create (5 + lab, n_categories + 2);
+  tab_headers (t, 0, 0, 1, 0);
 
   if (lab)
-    tab_text (t, 0, 1, TAB_CENTER | TAT_TITLE, _("Value Label"));
+    tab_text (t, 0, 0, TAB_CENTER | TAT_TITLE, _("Value Label"));
 
-  for (p = vec; p->s; p++)
-    tab_text (t, lab ? p->c : p->c - 1, p->r,
-                 TAB_CENTER | TAT_TITLE, gettext (p->s));
+  for (x = 0; x < 5; x++)
+    tab_text (t, lab + x, 0, TAB_CENTER | TAT_TITLE, gettext (headings[x]));
 
-  r = 2;
+  r = 1;
   for (f = ft->valid; f < ft->missing; f++)
     {
       double percent, valid_percent;
@@ -1109,7 +1053,7 @@ dump_full (const struct variable *v, const struct variable *wv)
            tab_text (t, 0, r, TAB_LEFT, label);
        }
 
-      tab_value (t, 0 + lab, r, TAB_NONE, &f->value, &vf->print);
+      tab_value (t, 0 + lab, r, TAB_NONE, &f->value, ft->dict, &vf->print);
       tab_double (t, 1 + lab, r, TAB_NONE, f->count, wfmt);
       tab_double (t, 2 + lab, r, TAB_NONE, percent, NULL);
       tab_double (t, 3 + lab, r, TAB_NONE, valid_percent, NULL);
@@ -1127,7 +1071,7 @@ dump_full (const struct variable *v, const struct variable *wv)
            tab_text (t, 0, r, TAB_LEFT, label);
        }
 
-      tab_value (t, 0 + lab, r, TAB_NONE, &f->value, &vf->print);
+      tab_value (t, 0 + lab, r, TAB_NONE, &f->value, ft->dict, &vf->print);
       tab_double (t, 1 + lab, r, TAB_NONE, f->count, wfmt);
       tab_double (t, 2 + lab, r, TAB_NONE,
                     f->count / ft->total_cases * 100.0, NULL);
@@ -1138,7 +1082,7 @@ dump_full (const struct variable *v, const struct variable *wv)
   tab_box (t, TAL_1, TAL_1,
           cmd.spaces == FRQ_SINGLE ? -1 : TAL_GAP, TAL_1,
           0, 0, 4 + lab, r);
-  tab_hline (t, TAL_2, 0, 4 + lab, 2);
+  tab_hline (t, TAL_2, 0, 4 + lab, 1);
   tab_hline (t, TAL_2, 0, 4 + lab, r);
   tab_joint_text (t, 0, r, 0 + lab, r, TAB_RIGHT | TAT_TITLE, _("Total"));
   tab_vline (t, TAL_0, 1, r, r);
@@ -1150,31 +1094,6 @@ dump_full (const struct variable *v, const struct variable *wv)
   tab_submit (t);
 }
 
-/* Sets the widths of all the columns and heights of all the rows in
-   table T for driver D. */
-static void
-condensed_dim (struct tab_rendering *r, void *aux UNUSED)
-{
-  struct outp_driver *d = r->driver;
-  const struct tab_table *t = r->table;
-
-  int cum_width = outp_string_width (d, _("Cum"), OUTP_PROPORTIONAL);
-  int zeros_width = outp_string_width (d, "000", OUTP_PROPORTIONAL);
-  int max_width = MAX (cum_width, zeros_width);
-
-  int i;
-
-  for (i = 0; i < 2; i++)
-    {
-      r->w[i] = tab_natural_width (r, i);
-      r->w[i] = MAX (r->w[i], d->prop_em_width * 8);
-    }
-  for (i = 2; i < 4; i++)
-    r->w[i] = max_width;
-  for (i = 0; i < t->nr; i++)
-    r->h[i] = d->font_height;
-}
-
 /* Display condensed frequency table for variable V. */
 static void
 dump_condensed (const struct variable *v, const struct variable *wv)
@@ -1191,7 +1110,7 @@ dump_condensed (const struct variable *v, const struct variable *wv)
   vf = get_var_freqs (v);
   ft = &vf->tab;
   n_categories = ft->n_valid + ft->n_missing;
-  t = tab_create (4, n_categories + 2, 0);
+  t = tab_create (4, n_categories + 2);
 
   tab_headers (t, 0, 0, 2, 0);
   tab_text (t, 0, 1, TAB_CENTER | TAT_TITLE, _("Value"));
@@ -1199,7 +1118,6 @@ dump_condensed (const struct variable *v, const struct variable *wv)
   tab_text (t, 2, 1, TAB_CENTER | TAT_TITLE, _("Pct"));
   tab_text (t, 3, 0, TAB_CENTER | TAT_TITLE, _("Cum"));
   tab_text (t, 3, 1, TAB_CENTER | TAT_TITLE, _("Pct"));
-  tab_dim (t, condensed_dim, NULL, NULL);
 
   r = 2;
   for (f = ft->valid; f < ft->missing; f++)
@@ -1209,7 +1127,7 @@ dump_condensed (const struct variable *v, const struct variable *wv)
       percent = f->count / ft->total_cases * 100.0;
       cum_total += f->count / ft->valid_cases * 100.0;
 
-      tab_value (t, 0, r, TAB_NONE, &f->value, &vf->print);
+      tab_value (t, 0, r, TAB_NONE, &f->value, ft->dict, &vf->print);
       tab_double (t, 1, r, TAB_NONE, f->count, wfmt);
       tab_double (t, 2, r, TAB_NONE, percent, NULL);
       tab_double (t, 3, r, TAB_NONE, cum_total, NULL);
@@ -1217,7 +1135,7 @@ dump_condensed (const struct variable *v, const struct variable *wv)
     }
   for (; f < &ft->valid[n_categories]; f++)
     {
-      tab_value (t, 0, r, TAB_NONE, &f->value, &vf->print);
+      tab_value (t, 0, r, TAB_NONE, &f->value, ft->dict, &vf->print);
       tab_double (t, 1, r, TAB_NONE, f->count, wfmt);
       tab_double (t, 2, r, TAB_NONE,
                 f->count / ft->total_cases * 100.0, NULL);
@@ -1229,7 +1147,6 @@ dump_condensed (const struct variable *v, const struct variable *wv)
           0, 0, 3, r - 1);
   tab_hline (t, TAL_2, 0, 3, 2);
   tab_title (t, "%s", var_to_string (v));
-  tab_columns (t, SOM_COL_DOWN, 1);
   tab_submit (t);
 }
 \f
@@ -1253,6 +1170,8 @@ calc_stats (const struct variable *v, double d[frq_n_stats])
 
   /* Calculate percentiles. */
 
+  assert (ft->n_valid > 0);
+
   for (i = 0; i < n_percentiles; i++)
     {
       percentiles[i].flag = 0;
@@ -1397,8 +1316,7 @@ dump_statistics (const struct variable *v, bool show_varname,
     }
   calc_stats (v, stat_value);
 
-  t = tab_create (3, n_stats + n_percentiles + 2, 0);
-  tab_dim (t, tab_natural_dimensions, NULL, NULL);
+  t = tab_create (3, n_stats + n_percentiles + 2);
 
   tab_box (t, TAL_1, TAL_1, -1, -1 , 0 , 0 , 2, tab_nr(t) - 1) ;
 
@@ -1439,11 +1357,8 @@ dump_statistics (const struct variable *v, bool show_varname,
                  var_get_print_format (v));
     }
 
-  tab_columns (t, SOM_COL_DOWN, 1);
   if (show_varname)
     tab_title (t, "%s", var_to_string (v));
-  else
-    tab_flags (t, SOMF_NO_TITLE);
 
 
   tab_submit (t);
@@ -1458,8 +1373,8 @@ freq_tab_to_hist (const struct freq_tab *ft, const struct variable *var)
   double x_min = DBL_MAX;
   double x_max = -DBL_MAX;
 
-  struct statistic *hist;
-  const double bins = 11;
+  struct histogram *hist;
+  int bins;
 
   struct hsh_iterator hi;
   struct hsh_table *fh = ft->data;
@@ -1475,15 +1390,20 @@ freq_tab_to_hist (const struct freq_tab *ft, const struct variable *var)
       if ( frq->value.f > x_max ) x_max = frq->value.f ;
     }
 
+  /* Sturges' formula. */
+  bins = ceil (log (ft->valid_cases) / log (2) + 1);
+  if (bins < 5)
+    bins = 5;
+
   hist = histogram_create (bins, x_min, x_max);
 
   for( i = 0 ; i < ft->n_valid ; ++i )
     {
       frq = &ft->valid[i];
-      histogram_add ((struct histogram *)hist, frq->value.f, frq->count);
+      histogram_add (hist, frq->value.f, frq->count);
     }
 
-  return (struct histogram *)hist;
+  return hist;
 }
 
 
@@ -1515,7 +1435,7 @@ freq_tab_to_slice_array(const struct freq_tab *frq_tab,
 
       ds_init_empty (&slices[i].label);
       var_append_value_name (var, &frq->value, &slices[i].label);
-      slices[i].magnetude = frq->count;
+      slices[i].magnitude = frq->count;
     }
 
   return slices;
@@ -1532,14 +1452,12 @@ do_piechart(const struct variable *var, const struct freq_tab *frq_tab)
 
   slices = freq_tab_to_slice_array(frq_tab, var, &n_slices);
 
-  piechart_plot(var_to_string(var), slices, n_slices);
+  chart_item_submit (piechart_create (var_to_string(var), slices, n_slices));
 
   for (i = 0 ; i < n_slices ; ++i )
-    {
-      ds_destroy (&slices[i].label);
-    }
+    ds_destroy (&slices[i].label);
 
-  free(slices);
+  free (slices);
 }