Fix some typos (found by codespell)
[pspp] / src / language / stats / roc.c
index dd2093674b16c34ecb8db3702687b6b38cd5245e..7d13c2c2cb7cf32c13c9d5c5051cf1328441517a 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 2009 Free Software Foundation, Inc.
+   Copyright (C) 2009, 2010, 2011 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
 
 #include <config.h>
 
-#include <language/stats/roc.h>
-
-#include <data/casegrouper.h>
-#include <data/casereader.h>
-#include <data/casewriter.h>
-#include <data/dictionary.h>
-#include <data/format.h>
-#include <data/procedure.h>
-#include <data/subcase.h>
-#include <language/command.h>
-#include <language/lexer/lexer.h>
-#include <language/lexer/value-parser.h>
-#include <language/lexer/variable-parser.h>
-#include <libpspp/misc.h>
-#include <math/sort.h>
-#include <output/chart-item.h>
-#include <output/charts/roc-chart.h>
-#include <output/tab.h>
+#include "language/stats/roc.h"
 
 #include <gsl/gsl_cdf.h>
 
+#include "data/casegrouper.h"
+#include "data/casereader.h"
+#include "data/casewriter.h"
+#include "data/dataset.h"
+#include "data/dictionary.h"
+#include "data/format.h"
+#include "data/subcase.h"
+#include "language/command.h"
+#include "language/lexer/lexer.h"
+#include "language/lexer/value-parser.h"
+#include "language/lexer/variable-parser.h"
+#include "libpspp/misc.h"
+#include "math/sort.h"
+#include "output/chart-item.h"
+#include "output/charts/roc-chart.h"
+#include "output/tab.h"
+
 #include "gettext.h"
 #define _(msgid) gettext (msgid)
 #define N_(msgid) msgid
@@ -49,6 +49,7 @@ struct cmd_roc
 
   const struct variable *state_var;
   union value state_value;
+  size_t state_var_width;
 
   /* Plot the roc curve */
   bool curve;
@@ -94,8 +95,9 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
   roc.neg = roc.neg_weighted = 0;
   roc.dict = dataset_dict (ds);
   roc.state_var = NULL;
+  roc.state_var_width = -1;
 
-  lex_match (lexer, '/');
+  lex_match (lexer, T_SLASH);
   if (!parse_variables_const (lexer, dict, &roc.vars, &roc.n_vars,
                              PV_APPEND | PV_NO_DUPLICATE | PV_NUMERIC))
     goto error;
@@ -106,29 +108,33 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
     }
 
   roc.state_var = parse_variable (lexer, dict);
+  if (! roc.state_var)
+    {
+      goto error;
+    }
 
-  if ( !lex_force_match (lexer, '('))
+  if ( !lex_force_match (lexer, T_LPAREN))
     {
       goto error;
     }
 
-  value_init (&roc.state_value, var_get_width (roc.state_var));
-  parse_value (lexer, &roc.state_value, var_get_width (roc.state_var));
+  roc.state_var_width = var_get_width (roc.state_var);
+  value_init (&roc.state_value, roc.state_var_width);
+  parse_value (lexer, &roc.state_value, roc.state_var);
 
 
-  if ( !lex_force_match (lexer, ')'))
+  if ( !lex_force_match (lexer, T_RPAREN))
     {
       goto error;
     }
 
-
-  while (lex_token (lexer) != '.')
+  while (lex_token (lexer) != T_ENDCMD)
     {
-      lex_match (lexer, '/');
+      lex_match (lexer, T_SLASH);
       if (lex_match_id (lexer, "MISSING"))
         {
-          lex_match (lexer, '=');
-          while (lex_token (lexer) != '.' && lex_token (lexer) != '/')
+          lex_match (lexer, T_EQUALS);
+          while (lex_token (lexer) != T_ENDCMD && lex_token (lexer) != T_SLASH)
             {
              if (lex_match_id (lexer, "INCLUDE"))
                {
@@ -147,15 +153,17 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
        }
       else if (lex_match_id (lexer, "PLOT"))
        {
-         lex_match (lexer, '=');
+         lex_match (lexer, T_EQUALS);
          if (lex_match_id (lexer, "CURVE"))
            {
              roc.curve = true;
-             if (lex_match (lexer, '('))
+             if (lex_match (lexer, T_LPAREN))
                {
                  roc.reference = true;
-                 lex_force_match_id (lexer, "REFERENCE");
-                 lex_force_match (lexer, ')');
+                 if (! lex_force_match_id (lexer, "REFERENCE"))
+                   goto error;
+                 if (! lex_force_match (lexer, T_RPAREN))
+                   goto error;
                }
            }
          else if (lex_match_id (lexer, "NONE"))
@@ -170,8 +178,8 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
        }
       else if (lex_match_id (lexer, "PRINT"))
        {
-         lex_match (lexer, '=');
-          while (lex_token (lexer) != '.' && lex_token (lexer) != '/')
+         lex_match (lexer, T_EQUALS);
+          while (lex_token (lexer) != T_ENDCMD && lex_token (lexer) != T_SLASH)
            {
              if (lex_match_id (lexer, "SE"))
                {
@@ -190,12 +198,13 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
        }
       else if (lex_match_id (lexer, "CRITERIA"))
        {
-         lex_match (lexer, '=');
-          while (lex_token (lexer) != '.' && lex_token (lexer) != '/')
+         lex_match (lexer, T_EQUALS);
+          while (lex_token (lexer) != T_ENDCMD && lex_token (lexer) != T_SLASH)
            {
              if (lex_match_id (lexer, "CUTOFF"))
                {
-                 lex_force_match (lexer, '(');
+                 if (! lex_force_match (lexer, T_LPAREN))
+                   goto error;
                  if (lex_match_id (lexer, "INCLUDE"))
                    {
                      roc.exclude = MV_SYSTEM;
@@ -209,11 +218,13 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
                      lex_error (lexer, NULL);
                      goto error;
                    }
-                 lex_force_match (lexer, ')');
+                 if (! lex_force_match (lexer, T_RPAREN))
+                   goto error;
                }
              else if (lex_match_id (lexer, "TESTPOS"))
                {
-                 lex_force_match (lexer, '(');
+                 if (! lex_force_match (lexer, T_LPAREN))
+                   goto error;
                  if (lex_match_id (lexer, "LARGE"))
                    {
                      roc.invert = false;
@@ -227,19 +238,24 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
                      lex_error (lexer, NULL);
                      goto error;
                    }
-                 lex_force_match (lexer, ')');
+                 if (! lex_force_match (lexer, T_RPAREN))
+                   goto error;
                }
              else if (lex_match_id (lexer, "CI"))
                {
-                 lex_force_match (lexer, '(');
-                 lex_force_num (lexer);
+                 if (!lex_force_match (lexer, T_LPAREN))
+                   goto error;
+                 if (! lex_force_num (lexer))
+                   goto error;
                  roc.ci = lex_number (lexer);
                  lex_get (lexer);
-                 lex_force_match (lexer, ')');
+                 if (!lex_force_match (lexer, T_RPAREN))
+                   goto error;
                }
              else if (lex_match_id (lexer, "DISTRIBUTION"))
                {
-                 lex_force_match (lexer, '(');
+                 if (!lex_force_match (lexer, T_LPAREN))
+                   goto error;
                  if (lex_match_id (lexer, "FREE"))
                    {
                      roc.bi_neg_exp = false;
@@ -253,7 +269,8 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
                      lex_error (lexer, NULL);
                      goto error;
                    }
-                 lex_force_match (lexer, ')');
+                 if (!lex_force_match (lexer, T_RPAREN))
+                   goto error;
                }
              else
                {
@@ -269,16 +286,17 @@ cmd_roc (struct lexer *lexer, struct dataset *ds)
        }
     }
 
-  if ( ! run_roc (ds, &roc)) 
+  if ( ! run_roc (ds, &roc))
     goto error;
 
-  value_destroy (&roc.state_value, var_get_width (roc.state_var));
+  if ( roc.state_var)
+    value_destroy (&roc.state_value, roc.state_var_width);
   free (roc.vars);
   return CMD_SUCCESS;
 
  error:
   if ( roc.state_var)
-    value_destroy (&roc.state_value, var_get_width (roc.state_var));
+    value_destroy (&roc.state_value, roc.state_var_width);
   free (roc.vars);
   return CMD_FAILURE;
 }
@@ -330,10 +348,10 @@ dump_casereader (struct casereader *reader)
 #endif
 
 
-/* 
+/*
    Return true iff the state variable indicates that C has positive actual state.
 
-   As a side effect, this function also accumulates the roc->{pos,neg} and 
+   As a side effect, this function also accumulates the roc->{pos,neg} and
    roc->{pos,neg}_weighted counts.
  */
 static bool
@@ -366,7 +384,7 @@ match_positives (const struct ccase *c, void *aux)
 #define N_EQ   1
 #define N_PRED 2
 
-/* Some intermediate state for calculating the cutpoints and the 
+/* Some intermediate state for calculating the cutpoints and the
    standard error values */
 struct roc_state
 {
@@ -376,7 +394,7 @@ struct roc_state
   double n2;  /* total weight of negatives */
 
   /* intermediates for standard error */
-  double q1hat; 
+  double q1hat;
   double q2hat;
 
   /* intermediates for cutpoints */
@@ -387,18 +405,18 @@ struct roc_state
   double max;
 };
 
-/* 
+/*
    Return a new casereader based upon CUTPOINT_RDR.
    The number of "positive" cases are placed into
    the position TRUE_INDEX, and the number of "negative" cases
    into FALSE_INDEX.
-   POS_COND and RESULT determine the semantics of what is 
+   POS_COND and RESULT determine the semantics of what is
    "positive".
    WEIGHT is the value of a single count.
  */
 static struct casereader *
 accumulate_counts (struct casereader *input,
-                  double result, double weight, 
+                  double result, double weight,
                   bool (*pos_cond) (double, double),
                   int true_index, int false_index)
 {
@@ -451,7 +469,7 @@ static void output_roc (struct roc_state *rs, const struct cmd_roc *roc);
   CUTPOINT_RDR accordingly.  TRUE_INDEX and FALSE_INDEX are the indices
   which receive these values.  POS_COND is the condition defining true
   and false.
-  
+
   3. CC is filled with the cumulative weight of all cases of READER.
 */
 static struct casereader *
@@ -459,7 +477,7 @@ process_group (const struct variable *var, struct casereader *reader,
               bool (*pred) (double, double),
               const struct dictionary *dict,
               double *cc,
-              struct casereader **cutpoint_rdr, 
+              struct casereader **cutpoint_rdr,
               bool (*pos_cond) (double, double),
               int true_index,
               int false_index)
@@ -471,7 +489,7 @@ process_group (const struct variable *var, struct casereader *reader,
 
   const int weight_idx  = w ? var_get_case_index (w) :
     caseproto_get_n_widths (casereader_get_proto (r1)) - 1;
-  
+
   struct ccase *c1;
 
   struct casereader *rclone = casereader_clone (r1);
@@ -482,7 +500,7 @@ process_group (const struct variable *var, struct casereader *reader,
   proto = caseproto_add_width (proto, 0);
   proto = caseproto_add_width (proto, 0);
 
-  wtr = autopaging_writer_create (proto);  
+  wtr = autopaging_writer_create (proto);
 
   *cc = 0;
 
@@ -528,7 +546,7 @@ process_group (const struct variable *var, struct casereader *reader,
       casereader_destroy (r2);
     }
 
-  
+
   casereader_destroy (r1);
   casereader_destroy (rclone);
 
@@ -539,7 +557,7 @@ process_group (const struct variable *var, struct casereader *reader,
 
 /* Some more indeces into case data */
 #define N_POS_EQ 1  /* number of positive cases with values equal to n */
-#define N_POS_GT 2  /* number of postive cases with values greater than n */
+#define N_POS_GT 2  /* number of positive cases with values greater than n */
 #define N_NEG_EQ 3  /* number of negative cases with values equal to n */
 #define N_NEG_LT 4  /* number of negative cases with values less than n */
 
@@ -617,7 +635,7 @@ append_cutpoint (struct casewriter *writer, double cutpoint)
 }
 
 
-/* 
+/*
    Create and initialise the rs[x].cutpoint_rdr casereaders.  That is, the readers will
    be created with width 5, ready to take the values (cutpoint, ROC_TP, ROC_FN, ROC_TN, ROC_FP), and the
    reader will be populated with its final number of cases.
@@ -658,7 +676,7 @@ prepare_cutpoints (struct cmd_roc *roc, struct roc_state *rs, struct casereader
     {
       for (i = 0 ; i < roc->n_vars; ++i)
        {
-         const union value *v = case_data (c, roc->vars[i]); 
+         const union value *v = case_data (c, roc->vars[i]);
          const double result = v->f;
 
          if ( mv_is_value_missing (var_get_missing_values (roc->vars[i]), v, roc->exclude))
@@ -724,7 +742,7 @@ do_roc (struct cmd_roc *roc, struct casereader *reader, struct dictionary *dict)
 
 
   /* Separate the positive actual state cases from the negative ones */
-  positives = 
+  positives =
     casereader_create_filter_func (input,
                                   match_positives,
                                   NULL,
@@ -732,7 +750,7 @@ do_roc (struct cmd_roc *roc, struct casereader *reader, struct dictionary *dict)
                                   neg_wtr);
 
   n_proto = caseproto_create ();
-      
+
   n_proto = caseproto_add_width (n_proto, 0);
   n_proto = caseproto_add_width (n_proto, 0);
   n_proto = caseproto_add_width (n_proto, 0);
@@ -831,7 +849,7 @@ do_roc (struct cmd_roc *roc, struct casereader *reader, struct dictionary *dict)
                n_pos_gt = prev_pos_gt;
                case_data_rw_idx (nc, N_POS_GT)->f = n_pos_gt;
              }
-           
+
            casewriter_write (w, nc);
            prev_pos_gt = n_pos_gt;
          }
@@ -856,7 +874,7 @@ do_roc (struct cmd_roc *roc, struct casereader *reader, struct dictionary *dict)
                n_neg_lt = prev_neg_lt;
                case_data_rw_idx (nc, N_NEG_LT)->f = n_neg_lt;
              }
-           
+
            casewriter_write (w, nc);
            prev_neg_lt = n_neg_lt;
          }
@@ -910,8 +928,8 @@ do_roc (struct cmd_roc *roc, struct casereader *reader, struct dictionary *dict)
        casereader_destroy (r);
        case_unref (prev_case);
 
-       rs[i].auc /=  rs[i].n1 * rs[i].n2; 
-       if ( roc->invert ) 
+       rs[i].auc /=  rs[i].n1 * rs[i].n2;
+       if ( roc->invert )
          rs[i].auc = 1 - rs[i].auc;
 
        if ( roc->bi_neg_exp )
@@ -935,7 +953,7 @@ do_roc (struct cmd_roc *roc, struct casereader *reader, struct dictionary *dict)
   subcase_destroy (&down_ordering);
 
   output_roc (rs, roc);
+
   for (i = 0 ; i < roc->n_vars; ++i)
     casereader_destroy (rs[i].cutpoint_rdr);
 
@@ -996,7 +1014,7 @@ show_auc  (struct roc_state *rs, const struct cmd_roc *roc)
     {
       tab_text (tbl, 0, 2 + i, TAT_TITLE, var_to_string (roc->vars[i]));
 
-      tab_double (tbl, n_cols - n_fields, 2 + i, 0, rs[i].auc, NULL);
+      tab_double (tbl, n_cols - n_fields, 2 + i, 0, rs[i].auc, NULL, RC_OTHER);
 
       if ( roc->print_se )
        {
@@ -1015,22 +1033,22 @@ show_auc  (struct roc_state *rs, const struct cmd_roc *roc)
 
          tab_double (tbl, n_cols - 4, 2 + i, 0,
                      se,
-                     NULL);
+                     NULL, RC_OTHER);
 
          ci = 1 - roc->ci / 100.0;
          yy = gsl_cdf_gaussian_Qinv (ci, se) ;
 
          tab_double (tbl, n_cols - 2, 2 + i, 0,
                      rs[i].auc - yy,
-                     NULL);
+                     NULL, RC_OTHER);
 
          tab_double (tbl, n_cols - 1, 2 + i, 0,
                      rs[i].auc + yy,
-                     NULL);
+                     NULL, RC_OTHER);
 
          tab_double (tbl, n_cols - 3, 2 + i, 0,
                      2.0 * gsl_cdf_ugaussian_Q (fabs ((rs[i].auc - 0.5 ) / sd_0_5)),
-                     NULL);
+                     NULL, RC_PVALUE);
        }
     }
 
@@ -1077,11 +1095,11 @@ show_summary (const struct cmd_roc *roc)
   tab_text (tbl, 0, 3, TAB_LEFT, _("Negative"));
 
 
-  tab_double (tbl, 1, 2, 0, roc->pos, &F_8_0);
-  tab_double (tbl, 1, 3, 0, roc->neg, &F_8_0);
+  tab_double (tbl, 1, 2, 0, roc->pos, NULL, RC_INTEGER);
+  tab_double (tbl, 1, 3, 0, roc->neg, NULL, RC_INTEGER);
 
-  tab_double (tbl, 2, 2, 0, roc->pos_weighted, 0);
-  tab_double (tbl, 2, 3, 0, roc->neg_weighted, 0);
+  tab_double (tbl, 2, 2, 0, roc->pos_weighted, NULL, RC_OTHER);
+  tab_double (tbl, 2, 3, 0, roc->neg_weighted, NULL, RC_OTHER);
 
   tab_submit (tbl);
 }
@@ -1158,10 +1176,10 @@ show_coords (struct roc_state *rs, const struct cmd_roc *roc)
             );
 
          tab_double (tbl, n_cols - 3, x, 0, case_data_idx (cc, ROC_CUTPOINT)->f,
-                     var_get_print_format (roc->vars[i]));
+                     var_get_print_format (roc->vars[i]), RC_OTHER);
 
-         tab_double (tbl, n_cols - 2, x, 0, se, NULL);
-         tab_double (tbl, n_cols - 1, x, 0, 1 - sp, NULL);
+         tab_double (tbl, n_cols - 2, x, 0, se, NULL, RC_OTHER);
+         tab_double (tbl, n_cols - 1, x, 0, 1 - sp, NULL, RC_OTHER);
        }
 
       casereader_destroy (r);