Adopt use of gnulib for portability.
[pspp-builds.git] / src / oneway.q
index ff6b79b66e9d322eac109ce062ac5806cf8bfef5..9aebbf61b4bf62c04239eb5ffdd4e466df75d6c0 100644 (file)
@@ -1,22 +1,22 @@
 /* PSPP - One way ANOVA. -*-c-*-
 
-   Copyright (C) 1997-9, 2000 Free Software Foundation, Inc.
-   Author: John Darrington 2004
+Copyright (C) 1997-9, 2000 Free Software Foundation, Inc.
+Author: John Darrington 2004
 
-   This program is free software; you can redistribute it and/or
-   modify it under the terms of the GNU General Public License as
-   published by the Free Software Foundation; either version 2 of the
-   License, or (at your option) any later version.
+This program is free software; you can redistribute it and/or
+modify it under the terms of the GNU General Public License as
+published by the Free Software Foundation; either version 2 of the
+License, or (at your option) any later version.
 
-   This program is distributed in the hope that it will be useful, but
-   WITHOUT ANY WARRANTY; without even the implied warranty of
-   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
-   General Public License for more details.
+This program is distributed in the hope that it will be useful, but
+WITHOUT ANY WARRANTY; without even the implied warranty of
+MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+General Public License for more details.
 
-   You should have received a copy of the GNU General Public License
-   along with this program; if not, write to the Free Software
-   Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA
-   02111-1307, USA. */
+You should have received a copy of the GNU General Public License
+along with this program; if not, write to the Free Software
+Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
+02110-1301, USA. */
 
 #include <config.h>
 #include <gsl/gsl_cdf.h>
@@ -27,6 +27,7 @@
 #include "alloc.h"
 #include "str.h"
 #include "case.h"
+#include "dictionary.h"
 #include "command.h"
 #include "lexer.h"
 #include "error.h"
 #include "group.h"
 #include "levene.h"
 
+#include "gettext.h"
+#define _(msgid) gettext (msgid)
+
+/* (headers) */
+
 /* (specification)
    "ONEWAY" (oneway_):
-     *variables=custom;
-     +missing=miss:!analysis/listwise,
-             incl:include/!exclude;
-     contrast= double list;
-     statistics[st_]=descriptives,homogeneity.
+   *^variables=custom;
+   +missing=miss:!analysis/listwise,
+   incl:include/!exclude;
+   contrast= double list;
+   statistics[st_]=descriptives,homogeneity.
 */
 /* (declarations) */
 /* (functions) */
@@ -138,6 +144,8 @@ cmd_oneway(void)
 
   multipass_procedure_with_splits (run_oneway, &cmd);
 
+  free (vars);
+  free_oneway (&cmd);
 
   return CMD_SUCCESS;
 }
@@ -195,7 +203,7 @@ output_oneway(void)
   /* Clean up */
   for (i = 0 ; i < n_vars ; ++i ) 
     {
-      struct hsh_table *group_hash = vars[i]->p.grp_data.group_hash;
+      struct hsh_table *group_hash = group_proc_get (vars[i])->group_hash;
 
       hsh_destroy(group_hash);
     }
@@ -281,25 +289,22 @@ show_anova_table(void)
 
   for ( i=0 ; i < n_vars ; ++i ) 
     {
-      struct group_statistics *totals = &vars[i]->p.grp_data.ugs;
-      struct hsh_table *group_hash = vars[i]->p.grp_data.group_hash;
+      struct group_statistics *totals = &group_proc_get (vars[i])->ugs;
+      struct hsh_table *group_hash = group_proc_get (vars[i])->group_hash;
       struct hsh_iterator g;
       struct group_statistics *gs;
       double ssa=0;
-
+      const char *s = var_to_string(vars[i]);
 
       for (gs =  hsh_first (group_hash,&g); 
           gs != 0; 
           gs = hsh_next(group_hash,&g))
-       {
-        ssa += (gs->sum * gs->sum)/gs->n;
-       }
+       {
+         ssa += (gs->sum * gs->sum)/gs->n;
+       }
       
       ssa -= ( totals->sum * totals->sum ) / totals->n ;
 
-      const char *s = (vars[i]->label) ? vars[i]->label : vars[i]->name;
-
-
       tab_text (t, 0, i * 3 + 1, TAB_LEFT | TAT_TITLE, s);
       tab_text (t, 1, i * 3 + 1, TAB_LEFT | TAT_TITLE, _("Between Groups"));
       tab_text (t, 1, i * 3 + 2, TAB_LEFT | TAT_TITLE, _("Within Groups"));
@@ -309,12 +314,13 @@ show_anova_table(void)
        tab_hline(t, TAL_1, 0, n_cols - 1 , i * 3 + 1);
 
       {
+        struct group_proc *gp = group_proc_get (vars[i]);
        const double sst = totals->ssq - ( totals->sum * totals->sum) / totals->n ;
-       const double df1 = vars[i]->p.grp_data.n_groups - 1;
-       const double df2 = totals->n - vars[i]->p.grp_data.n_groups ;
+       const double df1 = gp->n_groups - 1;
+       const double df2 = totals->n - gp->n_groups ;
        const double msa = ssa / df1;
        
-       vars[i]->p.grp_data.mse  = (sst - ssa) / df2;
+       gp->mse  = (sst - ssa) / df2;
        
        
        /* Sums of Squares */
@@ -330,11 +336,11 @@ show_anova_table(void)
 
        /* Mean Squares */
        tab_float (t, 4, i * 3 + 1, TAB_RIGHT, msa, 8, 3);
-       tab_float (t, 4, i * 3 + 2, TAB_RIGHT, vars[i]->p.grp_data.mse, 8, 3);
+       tab_float (t, 4, i * 3 + 2, TAB_RIGHT, gp->mse, 8, 3);
        
 
        { 
-         const double F = msa/vars[i]->p.grp_data.mse ;
+         const double F = msa/gp->mse ;
 
          /* The F value */
          tab_float (t, 5, i * 3 + 1, 0,  F, 8, 3);
@@ -369,10 +375,8 @@ show_descriptives(void)
   
   int n_rows = 2 ; 
 
-
-
   for ( v = 0 ; v < n_vars ; ++v ) 
-    n_rows += vars[v]->p.grp_data.n_groups + 1;
+    n_rows += group_proc_get (vars[v])->n_groups + 1;
 
   t = tab_create (n_cols,n_rows,0);
   tab_headers (t, 2, 0, 2, 0);
@@ -415,39 +419,27 @@ show_descriptives(void)
     {
       double T;
       double std_error;
+      
+      struct group_proc *gp = group_proc_get (vars[v]);
 
-
-      struct hsh_iterator g;
       struct group_statistics *gs;
-      struct group_statistics *totals = &vars[v]->p.grp_data.ugs; 
+      struct group_statistics *totals = &gp->ugs; 
 
-      int count = 0 ;      
-      char *s = (vars[v]->label) ? vars[v]->label : vars[v]->name;
-
-      struct hsh_table *group_hash = vars[v]->p.grp_data.group_hash;
+      const char *s = var_to_string(vars[v]);
 
+      struct group_statistics *const *gs_array = hsh_sort(gp->group_hash);
+      int count = 0;
 
       tab_text (t, 0, row, TAB_LEFT | TAT_TITLE, s);
       if ( v > 0) 
        tab_hline(t, TAL_1, 0, n_cols - 1 , row);
 
-
-      for (gs =  hsh_first (group_hash,&g); 
-          gs != 0; 
-          gs = hsh_next(group_hash,&g))
+      for (count = 0 ; count < hsh_count(gp->group_hash) ; ++count)
        {
-         const char *s = val_labs_find(indep_var->val_labs, gs->id );
-  
-         if ( s ) 
-           tab_text (t, 1, row + count, 
-                     TAB_LEFT | TAT_TITLE ,s);
-         else if ( indep_var->width != 0 ) 
-           tab_text (t, 1, row + count,
-                     TAB_LEFT | TAT_TITLE, gs->id.s);
-         else
-           tab_text (t, 1, row + count,
-                     TAB_LEFT | TAT_TITLE | TAT_PRINTF, "%g", gs->id.f);
-         
+         gs = gs_array[count];
+
+         tab_text (t, 1, row + count, 
+                   TAB_LEFT | TAT_TITLE ,value_to_string(&gs->id,indep_var));
 
          /* Now fill in the numbers ... */
 
@@ -476,11 +468,10 @@ show_descriptives(void)
          tab_float(t, 8, row + count, 0,  gs->minimum, 8, 2); 
          tab_float(t, 9, row + count, 0,  gs->maximum, 8, 2); 
 
-         count++ ; 
        }
 
       tab_text (t, 1, row + count, 
-                     TAB_LEFT | TAT_TITLE ,_("Total"));
+               TAB_LEFT | TAT_TITLE ,_("Total"));
 
       tab_float (t, 2, row + count, 0, totals->n, 8,0);
 
@@ -507,7 +498,7 @@ show_descriptives(void)
       tab_float(t, 8, row + count, 0,  totals->minimum, 8, 2); 
       tab_float(t, 9, row + count, 0,  totals->maximum, 8, 2); 
 
-      row += vars[v]->p.grp_data.n_groups + 1;
+      row += gp->n_groups + 1;
     }
 
 
@@ -555,15 +546,16 @@ show_homogeneity(void)
     {
       double F;
       const struct variable *var = vars[v];
-      const char *s = (var->label) ? var->label : var->name;
-      const struct group_statistics *totals = &var->p.grp_data.ugs;
+      const struct group_proc *gp = group_proc_get (vars[v]);
+      const char *s = var_to_string(var);
+      const struct group_statistics *totals = &gp->ugs;
 
-      const double df1 = var->p.grp_data.n_groups - 1;
-      const double df2 = totals->n - var->p.grp_data.n_groups ;
+      const double df1 = gp->n_groups - 1;
+      const double df2 = totals->n - gp->n_groups ;
 
       tab_text (t, 0, v + 1, TAB_LEFT | TAT_TITLE, s);
 
-      F = var->p.grp_data.levene;
+      F = gp->levene;
       tab_float (t, 1, v + 1, TAB_RIGHT, F, 8,3);
       tab_float (t, 2, v + 1, TAB_RIGHT, df1 ,8,0);
       tab_float (t, 3, v + 1, TAB_RIGHT, df2 ,8,0);
@@ -582,17 +574,14 @@ show_homogeneity(void)
 static void 
 show_contrast_coeffs(short *bad_contrast)
 {
-  char *s;
   int n_cols = 2 + ostensible_number_of_groups;
   int n_rows = 2 + cmd.sbc_contrast;
-  struct hsh_iterator g;
   union value *group_value;
   int count = 0 ;      
-
+  void *const *group_values ;
 
   struct tab_table *t;
 
-
   t = tab_create (n_cols,n_rows,0);
   tab_headers (t, 2, 0, 2, 0);
   tab_dim (t, tab_natural_dimensions);
@@ -604,7 +593,6 @@ show_contrast_coeffs(short *bad_contrast)
           0, 0,
           n_cols - 1, n_rows - 1);
 
-
   tab_box (t, 
           -1,-1,
           TAL_0, TAL_0,
@@ -617,57 +605,44 @@ show_contrast_coeffs(short *bad_contrast)
           0,0,
           1,1);
 
-
   tab_hline(t, TAL_1, 2, n_cols - 1, 1);
-
-
   tab_hline(t, TAL_2, 0, n_cols - 1, 2);
-  tab_vline(t, TAL_2, 2, 0, n_rows - 1);
 
+  tab_vline(t, TAL_2, 2, 0, n_rows - 1);
 
   tab_title (t, 0, _("Contrast Coefficients"));
 
   tab_text (t,  0, 2, TAB_LEFT | TAT_TITLE, _("Contrast"));
 
-  s = (indep_var->label) ? indep_var->label : indep_var->name;
 
-  tab_joint_text (t, 2, 0, n_cols - 1, 0, TAB_CENTER | TAT_TITLE, s);
+  tab_joint_text (t, 2, 0, n_cols - 1, 0, TAB_CENTER | TAT_TITLE, 
+                 var_to_string(indep_var));
 
-  for (group_value =  hsh_first (global_group_hash,&g); 
-       group_value != 0; 
-       group_value = hsh_next(global_group_hash,&g))
+  group_values = hsh_sort(global_group_hash);
+  for (count = 0 ; 
+       count < hsh_count(global_group_hash) ; 
+       ++count)
     {
       int i;
-      char *lab;
+      group_value = group_values[count];
 
-
-      lab = val_labs_find(indep_var->val_labs,*group_value);
-  
-      if ( lab ) 
-       tab_text (t, count + 2, 1,
-                 TAB_CENTER | TAT_TITLE ,lab);
-      else
-       tab_text (t, count + 2, 1, 
-                 TAB_CENTER | TAT_TITLE | TAT_PRINTF, "%g", group_value->f);
+      tab_text (t, count + 2, 1, TAB_CENTER | TAT_TITLE, 
+               value_to_string(group_value, indep_var));
 
       for (i = 0 ; i < cmd.sbc_contrast ; ++i ) 
        {
-
          tab_text(t, 1, i + 2, TAB_CENTER | TAT_PRINTF, "%d", i + 1);
 
          if ( bad_contrast[i] ) 
            tab_text(t, count + 2, i + 2, TAB_RIGHT, "?" );
          else
            tab_text(t, count + 2, i + 2, TAB_RIGHT | TAT_PRINTF, "%g", 
-                    subc_list_double_at(&cmd.dl_contrast[i],count)
+                    subc_list_double_at(&cmd.dl_contrast[i], count)
                     );
        }
-         
-      count++ ; 
     }
-
+  
   tab_submit (t);
-
 }
 
 
@@ -718,19 +693,17 @@ show_contrast_tests(short *bad_contrast)
 
 
       tab_text (t,  0, (v * lines_per_variable) + 1, TAB_LEFT | TAT_TITLE,
-               vars[v]->label?vars[v]->label:vars[v]->name);
-
-
+               var_to_string(vars[v]));
 
       for ( i = 0 ; i < cmd.sbc_contrast ; ++i ) 
        {
          int ci;
          double contrast_value = 0.0;
          double coef_msq = 0.0;
-         struct group_proc *grp_data = &vars[v]->p.grp_data ;
+         struct group_proc *grp_data = group_proc_get (vars[v]);
          struct hsh_table *group_hash = grp_data->group_hash;
-         struct hsh_iterator g;
-         struct group_statistics *gs;
+
+         void *const *group_stat_array;
 
          double T;
          double std_error_contrast ;
@@ -738,21 +711,19 @@ show_contrast_tests(short *bad_contrast)
          double sec_vneq=0.0;
 
 
-         /* Note: The calculation of the degrees of freedom in the variances 
-            not  equal case is painfull!!
+         /* Note: The calculation of the degrees of freedom in the 
+            "variances not equal" case is painfull!!
             The following formula may help to understand it:
             \frac{\left(\sum_{i=1}^k{c_i^2\frac{s_i^2}{n_i}}\right)^2}
             {
             \sum_{i=1}^k\left(
-                \frac{\left(c_i^2\frac{s_i^2}{n_i}\right)^2}  {n_i-1}
+            \frac{\left(c_i^2\frac{s_i^2}{n_i}\right)^2}  {n_i-1}
             \right)
             }
          */
 
          double df_denominator = 0.0;
          double df_numerator = 0.0;
-
-         
          if ( i == 0 ) 
            {
              tab_text (t,  1, (v * lines_per_variable) + i + 1, 
@@ -775,15 +746,13 @@ show_contrast_tests(short *bad_contrast)
          if ( bad_contrast[i]) 
            continue;
 
-         /* FIXME: Potential danger here.
-            We're ASSUMING THE array is in the order corresponding to the 
-            hash order. */
-         for (ci = 0, gs = hsh_first (group_hash,&g);  
-              gs != 0;
-              ++ci, gs = hsh_next(group_hash,&g))
+         group_stat_array = hsh_sort(group_hash);
+         
+         for (ci = 0 ; ci < hsh_count(group_hash) ;  ++ci)
            {
+             const double coef = subc_list_double_at(&cmd.dl_contrast[i], ci);
+             struct group_statistics *gs = group_stat_array[ci];
 
-             const double coef = subc_list_double_at(&cmd.dl_contrast[i],ci);
              const double winv = (gs->std_dev * gs->std_dev) / gs->n;
 
              contrast_value += coef * gs->mean;
@@ -794,7 +763,6 @@ show_contrast_tests(short *bad_contrast)
 
              df_numerator += (coef * coef) * winv;
              df_denominator += pow2((coef * coef) * winv) / (gs->n - 1);
-
            }
          sec_vneq = sqrt(sec_vneq);
 
@@ -807,7 +775,7 @@ show_contrast_tests(short *bad_contrast)
                     cmd.sbc_contrast,
                     TAB_RIGHT, contrast_value, 8,2);
 
-         std_error_contrast = sqrt(vars[v]->p.grp_data.mse * coef_msq);
+         std_error_contrast = sqrt(grp_data->mse * coef_msq);
 
          /* Std. Error */
          tab_float (t,  4, (v * lines_per_variable) + i + 1, 
@@ -893,13 +861,14 @@ precalc ( struct cmd_oneway *cmd UNUSED )
 
   for(i=0; i< n_vars ; ++i) 
     {
-      struct group_statistics *totals = &vars[i]->p.grp_data.ugs;
+      struct group_proc *gp = group_proc_get (vars[i]);
+      struct group_statistics *totals = &gp->ugs;
       
       /* Create a hash for each of the dependent variables.
         The hash contains a group_statistics structure, 
         and is keyed by value of the independent variable */
 
-      vars[i]->p.grp_data.group_hash = 
+      gp->group_hash = 
        hsh_create(4, 
                   (hsh_compare_func *) compare_group,
                   (hsh_hash_func *) hash_group,
@@ -945,7 +914,7 @@ run_oneway(const struct casefile *cf, void *cmd_)
 
       /* Deal with missing values */
       if ( value_is_missing(indep_val,indep_var) )
-          continue;
+       continue;
 
       /* Skip the entire case if /MISSING=LISTWISE is set */
       if ( cmd->miss == ONEWAY_LISTWISE ) 
@@ -956,10 +925,10 @@ run_oneway(const struct casefile *cf, void *cmd_)
              const union value *val = case_data (&c, v->fv);
 
              if (value_is_missing(val,v) )
-                 break;
+               break;
            }
          if ( i != n_vars ) 
-             continue;
+           continue;
 
        }
       
@@ -972,7 +941,8 @@ run_oneway(const struct casefile *cf, void *cmd_)
 
          const union value *val = case_data (&c, v->fv);
 
-         struct hsh_table *group_hash = vars[i]->p.grp_data.group_hash;
+          struct group_proc *gp = group_proc_get (vars[i]);
+         struct hsh_table *group_hash = gp->group_hash;
 
          struct group_statistics *gs;
 
@@ -996,7 +966,7 @@ run_oneway(const struct casefile *cf, void *cmd_)
          
          if (! value_is_missing(val,v) )
            {
-             struct group_statistics *totals = &vars[i]->p.grp_data.ugs;
+             struct group_statistics *totals = &gp->ugs;
 
              totals->n+=weight;
              totals->sum+=weight * val->f;
@@ -1019,7 +989,7 @@ run_oneway(const struct casefile *cf, void *cmd_)
                gs->maximum = val->f * weight;
            }
 
-         vars[i]->p.grp_data.n_groups = hsh_count ( group_hash );
+         gp->n_groups = hsh_count ( group_hash );
        }
   
     }
@@ -1051,8 +1021,9 @@ postcalc (  struct cmd_oneway *cmd UNUSED )
 
   for(i = 0; i < n_vars ; ++i) 
     {
-      struct hsh_table *group_hash = vars[i]->p.grp_data.group_hash;
-      struct group_statistics *totals = &vars[i]->p.grp_data.ugs;
+      struct group_proc *gp = group_proc_get (vars[i]);
+      struct hsh_table *group_hash = gp->group_hash;
+      struct group_statistics *totals = &gp->ugs;
 
       struct hsh_iterator g;
       struct group_statistics *gs;