REGRESSION: Implement /ORIGIN subcommand.
[pspp] / src / language / stats / oneway.c
index a64b760eb9174ab0ac0c61821c16a2fd4b8589c2..cbc00e0fdd43a1e06ab0fef48316570888aeee13 100644 (file)
@@ -93,14 +93,14 @@ enum statistics
 
 struct coeff_node
 {
-  struct ll ll; 
-  double coeff; 
+  struct ll ll;
+  double coeff;
 };
 
 
 struct contrasts_node
 {
-  struct ll ll; 
+  struct ll ll;
   struct ll_list coefficient_list;
 };
 
@@ -164,9 +164,9 @@ df_individual (const struct per_var_ws *pvw UNUSED, const struct moments1 *mom_i
   double n_j, var_j;
   double nom,denom;
 
-  moments1_calculate (mom_i, &n_i, NULL, &var_i, 0, 0);  
+  moments1_calculate (mom_i, &n_i, NULL, &var_i, 0, 0);
   moments1_calculate (mom_j, &n_j, NULL, &var_j, 0, 0);
-  
+
   if ( n_i <= 1.0 || n_j <= 1.0)
     return SYSMIS;
 
@@ -214,7 +214,7 @@ static double gh_pinv (double std_err UNUSED, double alpha, double df, int k, co
   double n_j, mean_j, var_j;
   double m;
 
-  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);  
+  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);
   moments1_calculate (mom_j, &n_j, &mean_j, &var_j, 0, 0);
 
   m = sqrt ((var_i/n_i + var_j/n_j) / 2.0);
@@ -226,7 +226,7 @@ static double gh_pinv (double std_err UNUSED, double alpha, double df, int k, co
 }
 
 
-static double 
+static double
 multiple_comparison_sig (double std_err,
                                       const struct per_var_ws *pvw,
                                       const struct descriptive_data *dd_i, const struct descriptive_data *dd_j,
@@ -240,7 +240,7 @@ multiple_comparison_sig (double std_err,
   return  ph->p1f (ts, k - 1, df);
 }
 
-static double 
+static double
 mc_half_range (const struct oneway_spec *cmd, const struct per_var_ws *pvw, double std_err, const struct descriptive_data *dd_i, const struct descriptive_data *dd_j, const struct posthoc *ph)
 {
   int k = pvw->n_groups;
@@ -298,7 +298,7 @@ static double tukey_test_stat (int k UNUSED, const struct moments1 *mom_i, const
   double n_i, mean_i, var_i;
   double n_j, mean_j, var_j;
 
-  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);  
+  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);
   moments1_calculate (mom_j, &n_j, &mean_j, &var_j, 0, 0);
 
   ts =  (mean_i - mean_j) / std_err;
@@ -312,7 +312,7 @@ static double lsd_test_stat (int k UNUSED, const struct moments1 *mom_i, const s
   double n_i, mean_i, var_i;
   double n_j, mean_j, var_j;
 
-  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);  
+  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);
   moments1_calculate (mom_j, &n_j, &mean_j, &var_j, 0, 0);
 
   return (mean_i - mean_j) / std_err;
@@ -324,7 +324,7 @@ static double scheffe_test_stat (int k, const struct moments1 *mom_i, const stru
   double n_i, mean_i, var_i;
   double n_j, mean_j, var_j;
 
-  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);  
+  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);
   moments1_calculate (mom_j, &n_j, &mean_j, &var_j, 0, 0);
 
   t = (mean_i - mean_j) / std_err;
@@ -341,7 +341,7 @@ static double gh_test_stat (int k UNUSED, const struct moments1 *mom_i, const st
   double n_i, mean_i, var_i;
   double n_j, mean_j, var_j;
 
-  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);  
+  moments1_calculate (mom_i, &n_i, &mean_i, &var_i, 0, 0);
   moments1_calculate (mom_j, &n_j, &mean_j, &var_j, 0, 0);
 
   thing = var_i / n_i + var_j / n_j;
@@ -355,7 +355,7 @@ static double gh_test_stat (int k UNUSED, const struct moments1 *mom_i, const st
 
 
 
-static const struct posthoc ph_tests [] = 
+static const struct posthoc ph_tests [] =
   {
     { "LSD",        N_("LSD"),          df_common, lsd_test_stat,     lsd_1tailsig,          lsd_pinv},
     { "TUKEY",      N_("Tukey HSD"),    df_common, tukey_test_stat,   tukey_1tailsig,        tukey_pinv},
@@ -393,12 +393,12 @@ destroy_coeff_list (struct contrasts_node *coeff_list)
   struct coeff_node *cn = NULL;
   struct coeff_node *cnx = NULL;
   struct ll_list *cl = &coeff_list->coefficient_list;
-  
+
   ll_for_each_safe (cn, cnx, struct coeff_node, ll, cl)
     {
       free (cn);
     }
-  
+
   free (coeff_list);
 }
 
@@ -420,7 +420,7 @@ oneway_cleanup (struct oneway_spec *cmd)
 int
 cmd_oneway (struct lexer *lexer, struct dataset *ds)
 {
-  const struct dictionary *dict = dataset_dict (ds);  
+  const struct dictionary *dict = dataset_dict (ds);
   struct oneway_spec oneway ;
   oneway.n_vars = 0;
   oneway.vars = NULL;
@@ -435,7 +435,7 @@ cmd_oneway (struct lexer *lexer, struct dataset *ds)
 
   ll_init (&oneway.contrast_list);
 
-  
+
   if ( lex_match (lexer, T_SLASH))
     {
       if (!lex_force_match_id (lexer, "VARIABLES"))
@@ -450,9 +450,12 @@ cmd_oneway (struct lexer *lexer, struct dataset *ds)
                              PV_NO_DUPLICATE | PV_NUMERIC))
     goto error;
 
-  lex_force_match (lexer, T_BY);
+  if (!lex_force_match (lexer, T_BY))
+    goto error;
 
   oneway.indep_var = parse_variable_const (lexer, dict);
+  if (oneway.indep_var == NULL)
+    goto error;
 
   while (lex_token (lexer) != T_ENDCMD)
     {
@@ -502,7 +505,8 @@ cmd_oneway (struct lexer *lexer, struct dataset *ds)
                    {
                      if ( !lex_force_match (lexer, T_LPAREN))
                        goto error;
-                     lex_force_num (lexer);
+                     if (! lex_force_num (lexer))
+                       goto error;
                      oneway.alpha = lex_number (lexer);
                      lex_get (lexer);
                      if ( !lex_force_match (lexer, T_RPAREN))
@@ -544,6 +548,9 @@ cmd_oneway (struct lexer *lexer, struct dataset *ds)
                }
            }
 
+         if ( ll_count (coefficient_list) <= 0)
+           goto error;
+
          ll_push_tail (&oneway.contrast_list, &cl->ll);
        }
       else if (lex_match_id (lexer, "MISSING"))
@@ -638,7 +645,7 @@ makeit (const void *aux1, void *aux2 UNUSED)
   return dd;
 }
 
-static void 
+static void
 killit (const void *aux1 UNUSED, void *aux2 UNUSED, void *user_data)
 {
   struct descriptive_data *dd = user_data;
@@ -647,7 +654,7 @@ killit (const void *aux1 UNUSED, void *aux2 UNUSED, void *user_data)
 }
 
 
-static void 
+static void
 updateit (const void *aux1, void *aux2, void *user_data,
          const struct ccase *c, double weight)
 {
@@ -714,14 +721,14 @@ run_oneway (const struct oneway_spec *cmd,
       ws.vws[v].cat = categoricals_create (&ws.vws[v].iact, 1, cmd->wv,
                                            cmd->exclude, cmd->exclude);
 
-      categoricals_set_payload (ws.vws[v].cat, &payload, 
+      categoricals_set_payload (ws.vws[v].cat, &payload,
                                CONST_CAST (struct variable *, cmd->vars[v]),
                                ws.dd_total[v]);
 
 
       ws.vws[v].cov = covariance_2pass_create (1, &cmd->vars[v],
-                                              ws.vws[v].cat, 
-                                              cmd->wv, cmd->exclude);
+                                              ws.vws[v].cat,
+                                              cmd->wv, cmd->exclude, true);
       ws.vws[v].nl = levene_create (var_get_width (cmd->indep_var), NULL);
     }
 
@@ -824,7 +831,7 @@ run_oneway (const struct oneway_spec *cmd,
 
       if ( ! ok)
        {
-         msg (MW, 
+         msg (MW,
               _("Dependent variable %s has no non-missing values.  No analysis for this variable will be done."),
               var_get_name (cmd->vars[v]));
          continue;
@@ -1003,28 +1010,28 @@ show_anova_table (const struct oneway_spec *cmd, const struct oneway_workspace *
 
 
       /* Sums of Squares */
-      tab_double (t, 2, i * 3 + 1, 0, pvw->ssa, NULL);
-      tab_double (t, 2, i * 3 + 3, 0, pvw->sst, NULL);
-      tab_double (t, 2, i * 3 + 2, 0, pvw->sse, NULL);
+      tab_double (t, 2, i * 3 + 1, 0, pvw->ssa, NULL, RC_OTHER);
+      tab_double (t, 2, i * 3 + 3, 0, pvw->sst, NULL, RC_OTHER);
+      tab_double (t, 2, i * 3 + 2, 0, pvw->sse, NULL, RC_OTHER);
 
 
       /* Degrees of freedom */
-      tab_fixed (t, 3, i * 3 + 1, 0, df1, 4, 0);
-      tab_fixed (t, 3, i * 3 + 2, 0, df2, 4, 0);
-      tab_fixed (t, 3, i * 3 + 3, 0, n - 1, 4, 0);
+      tab_double (t, 3, i * 3 + 1, 0, df1, NULL, RC_INTEGER);
+      tab_double (t, 3, i * 3 + 2, 0, df2,  NULL, RC_INTEGER);
+      tab_double (t, 3, i * 3 + 3, 0, n - 1, NULL, RC_INTEGER);
 
       /* Mean Squares */
-      tab_double (t, 4, i * 3 + 1, TAB_RIGHT, msa, NULL);
-      tab_double (t, 4, i * 3 + 2, TAB_RIGHT, pvw->mse, NULL);
+      tab_double (t, 4, i * 3 + 1, TAB_RIGHT, msa, NULL, RC_OTHER);
+      tab_double (t, 4, i * 3 + 2, TAB_RIGHT, pvw->mse, NULL, RC_OTHER);
 
       {
        const double F = msa / pvw->mse ;
 
        /* The F value */
-       tab_double (t, 5, i * 3 + 1, 0,  F, NULL);
+       tab_double (t, 5, i * 3 + 1, 0,  F, NULL, RC_OTHER);
 
        /* The significance */
-       tab_double (t, 6, i * 3 + 1, 0, gsl_cdf_fdist_Q (F, df1, df2), NULL);
+       tab_double (t, 6, i * 3 + 1, 0, gsl_cdf_fdist_Q (F, df1, df2), NULL, RC_PVALUE);
       }
     }
 
@@ -1053,6 +1060,7 @@ show_descriptives (const struct oneway_spec *cmd, const struct oneway_workspace
     n_rows += ws->actual_number_of_groups + 1;
 
   t = tab_create (n_cols, n_rows);
+  tab_set_format (t, RC_WEIGHT, wfmt);
   tab_headers (t, 2, 0, 2, 0);
 
   /* Put a frame around the entire box, and vertical lines inside */
@@ -1129,29 +1137,29 @@ show_descriptives (const struct oneway_spec *cmd, const struct oneway_workspace
 
          /* Now fill in the numbers ... */
 
-         tab_double (t, 2, row + count, 0, n, wfmt);
+         tab_double (t, 2, row + count, 0, n, NULL, RC_WEIGHT);
 
-         tab_double (t, 3, row + count, 0, mean, NULL);
+         tab_double (t, 3, row + count, 0, mean, NULL, RC_OTHER);
 
-         tab_double (t, 4, row + count, 0, std_dev, NULL);
+         tab_double (t, 4, row + count, 0, std_dev, NULL, RC_OTHER);
 
 
-         tab_double (t, 5, row + count, 0, std_error, NULL);
+         tab_double (t, 5, row + count, 0, std_error, NULL, RC_OTHER);
 
          /* Now the confidence interval */
 
          T = gsl_cdf_tdist_Qinv (q, n - 1);
 
          tab_double (t, 6, row + count, 0,
-                     mean - T * std_error, NULL);
+                     mean - T * std_error, NULL, RC_OTHER);
 
          tab_double (t, 7, row + count, 0,
-                     mean + T * std_error, NULL);
+                     mean + T * std_error, NULL, RC_OTHER);
 
          /* Min and Max */
 
-         tab_double (t, 8, row + count, 0,  dd->minimum, fmt);
-         tab_double (t, 9, row + count, 0,  dd->maximum, fmt);
+         tab_double (t, 8, row + count, 0,  dd->minimum, fmt, RC_OTHER);
+         tab_double (t, 9, row + count, 0,  dd->maximum, fmt, RC_OTHER);
        }
 
       if (categoricals_is_complete (cats))
@@ -1169,27 +1177,27 @@ show_descriptives (const struct oneway_spec *cmd, const struct oneway_workspace
        tab_text (t, 1, row + count,
                  TAB_LEFT | TAT_TITLE, _("Total"));
 
-       tab_double (t, 2, row + count, 0, n, wfmt);
+       tab_double (t, 2, row + count, 0, n, NULL, RC_WEIGHT);
 
-       tab_double (t, 3, row + count, 0, mean, NULL);
+       tab_double (t, 3, row + count, 0, mean, NULL, RC_OTHER);
 
-       tab_double (t, 4, row + count, 0, std_dev, NULL);
+       tab_double (t, 4, row + count, 0, std_dev, NULL, RC_OTHER);
 
-       tab_double (t, 5, row + count, 0, std_error, NULL);
+       tab_double (t, 5, row + count, 0, std_error, NULL, RC_OTHER);
 
        /* Now the confidence interval */
        T = gsl_cdf_tdist_Qinv (q, n - 1);
 
        tab_double (t, 6, row + count, 0,
-                   mean - T * std_error, NULL);
+                   mean - T * std_error, NULL, RC_OTHER);
 
        tab_double (t, 7, row + count, 0,
-                   mean + T * std_error, NULL);
+                   mean + T * std_error, NULL, RC_OTHER);
 
 
        /* Min and Max */
-       tab_double (t, 8, row + count, 0,  ws->dd_total[v]->minimum, fmt);
-       tab_double (t, 9, row + count, 0,  ws->dd_total[v]->maximum, fmt);
+       tab_double (t, 8, row + count, 0,  ws->dd_total[v]->minimum, fmt, RC_OTHER);
+       tab_double (t, 9, row + count, 0,  ws->dd_total[v]->maximum, fmt, RC_OTHER);
       }
 
       row += categoricals_n_total (cats) + 1;
@@ -1244,12 +1252,12 @@ show_homogeneity (const struct oneway_spec *cmd, const struct oneway_workspace *
 
       tab_text (t, 0, v + 1, TAB_LEFT | TAT_TITLE, s);
 
-      tab_double (t, 1, v + 1, TAB_RIGHT, F, NULL);
-      tab_fixed (t, 2, v + 1, TAB_RIGHT, df1, 8, 0);
-      tab_fixed (t, 3, v + 1, TAB_RIGHT, df2, 8, 0);
+      tab_double (t, 1, v + 1, TAB_RIGHT, F, NULL, RC_OTHER);
+      tab_double (t, 2, v + 1, TAB_RIGHT, df1, NULL, RC_INTEGER);
+      tab_double (t, 3, v + 1, TAB_RIGHT, df2, NULL, RC_INTEGER);
 
       /* Now the significance */
-      tab_double (t, 4, v + 1, TAB_RIGHT, gsl_cdf_fdist_Q (F, df1, df2), NULL);
+      tab_double (t, 4, v + 1, TAB_RIGHT, gsl_cdf_fdist_Q (F, df1, df2), NULL, RC_PVALUE);
     }
 
   tab_submit (t);
@@ -1386,6 +1394,8 @@ show_contrast_tests (const struct oneway_spec *cmd, const struct oneway_workspac
     {
       const struct per_var_ws *pvw = &ws->vws[v];
       const struct categoricals *cats = covariance_get_categoricals (pvw->cov);
+      if (!categoricals_is_complete (cats))
+       continue;
       struct ll *cli;
       int i = 0;
       int lines_per_variable = 2 * n_contrasts;
@@ -1452,7 +1462,7 @@ show_contrast_tests (const struct oneway_spec *cmd, const struct oneway_workspac
              double n, mean, variance;
              const struct descriptive_data *dd = categoricals_get_user_data_by_category (cats, ci);
              struct coeff_node *cn = ll_data (coeffi, struct coeff_node, ll);
-             const double coef = cn->coeff; 
+             const double coef = cn->coeff;
              double winv ;
 
              moments1_calculate (dd->mom, &n, &mean, &variance, NULL, NULL);
@@ -1474,18 +1484,18 @@ show_contrast_tests (const struct oneway_spec *cmd, const struct oneway_workspac
          df_numerator = pow2 (df_numerator);
 
          tab_double (t,  3, (v * lines_per_variable) + i + 1,
-                     TAB_RIGHT, contrast_value, NULL);
+                     TAB_RIGHT, contrast_value, NULL, RC_OTHER);
 
          tab_double (t,  3, (v * lines_per_variable) + i + 1 +
                      n_contrasts,
-                     TAB_RIGHT, contrast_value, NULL);
+                     TAB_RIGHT, contrast_value, NULL, RC_OTHER);
 
          std_error_contrast = sqrt (pvw->mse * coef_msq);
 
          /* Std. Error */
          tab_double (t,  4, (v * lines_per_variable) + i + 1,
                      TAB_RIGHT, std_error_contrast,
-                     NULL);
+                     NULL, RC_OTHER);
 
          T = fabs (contrast_value / std_error_contrast);
 
@@ -1493,19 +1503,18 @@ show_contrast_tests (const struct oneway_spec *cmd, const struct oneway_workspac
 
          tab_double (t,  5, (v * lines_per_variable) + i + 1,
                      TAB_RIGHT, T,
-                     NULL);
+                     NULL, RC_OTHER);
 
 
          /* Degrees of Freedom */
-         tab_fixed (t,  6, (v * lines_per_variable) + i + 1,
-                    TAB_RIGHT,  df,
-                    8, 0);
+         tab_double (t,  6, (v * lines_per_variable) + i + 1,
+                    TAB_RIGHT,  df, NULL, RC_INTEGER);
 
 
          /* Significance TWO TAILED !!*/
          tab_double (t,  7, (v * lines_per_variable) + i + 1,
                      TAB_RIGHT,  2 * gsl_cdf_tdist_Q (T, df),
-                     NULL);
+                     NULL, RC_PVALUE);
 
          /* Now for the Variances NOT Equal case */
 
@@ -1513,20 +1522,20 @@ show_contrast_tests (const struct oneway_spec *cmd, const struct oneway_workspac
          tab_double (t,  4,
                      (v * lines_per_variable) + i + 1 + n_contrasts,
                      TAB_RIGHT, sec_vneq,
-                     NULL);
+                     NULL, RC_OTHER);
 
          T = contrast_value / sec_vneq;
          tab_double (t,  5,
                      (v * lines_per_variable) + i + 1 + n_contrasts,
                      TAB_RIGHT, T,
-                     NULL);
+                     NULL, RC_OTHER);
 
          df = df_numerator / df_denominator;
 
          tab_double (t,  6,
                      (v * lines_per_variable) + i + 1 + n_contrasts,
                      TAB_RIGHT, df,
-                     NULL);
+                     NULL, RC_OTHER);
 
          {
            double p = gsl_cdf_tdist_P (T, df);
@@ -1535,7 +1544,7 @@ show_contrast_tests (const struct oneway_spec *cmd, const struct oneway_workspac
            /* The Significance */
            tab_double (t, 7, (v * lines_per_variable) + i + 1 + n_contrasts,
                        TAB_RIGHT,  2 * ((T > 0) ? q : p),
-                       NULL);
+                       NULL, RC_PVALUE);
          }
        }
 
@@ -1615,7 +1624,7 @@ show_comparisons (const struct oneway_spec *cmd, const struct oneway_workspace *
          int j;
          struct descriptive_data *dd_i = categoricals_get_user_data_by_category (cat, i);
          const struct ccase *gcc = categoricals_get_case_by_category (cat, i);
-         
+
 
          ds_init_empty (&vstr);
          var_append_value_name (cmd->indep_var, case_data (gcc, cmd->indep_var), &vstr);
@@ -1643,24 +1652,24 @@ show_comparisons (const struct oneway_spec *cmd, const struct oneway_workspace *
 
              moments1_calculate (dd_j->mom, &weight_j, &mean_j, &var_j, 0, 0);
 
-             tab_double  (t, 3, r + rx, 0, mean_i - mean_j, 0);
+             tab_double  (t, 3, r + rx, 0, mean_i - mean_j, NULL, RC_OTHER);
 
              std_err = pvw->mse;
              std_err *= weight_i + weight_j;
              std_err /= weight_i * weight_j;
              std_err = sqrt (std_err);
 
-             tab_double  (t, 4, r + rx, 0, std_err, 0);
-         
-             tab_double (t, 5, r + rx, 0, 2 * multiple_comparison_sig (std_err, pvw, dd_i, dd_j, ph), 0);
+             tab_double  (t, 4, r + rx, 0, std_err, NULL, RC_OTHER);
+
+             tab_double (t, 5, r + rx, 0, 2 * multiple_comparison_sig (std_err, pvw, dd_i, dd_j, ph), NULL, RC_PVALUE);
 
              half_range = mc_half_range (cmd, pvw, std_err, dd_i, dd_j, ph);
 
              tab_double (t, 6, r + rx, 0,
-                          (mean_i - mean_j) - half_range, 0 );
+                         (mean_i - mean_j) - half_range, NULL, RC_OTHER);
 
              tab_double (t, 7, r + rx, 0,
-                          (mean_i - mean_j) + half_range, 0 );
+                         (mean_i - mean_j) + half_range, NULL, RC_OTHER);
 
              rx++;
            }