regression: Make sure dep_subscript is really initialized.
[pspp] / src / language / stats / regression.c
1 /* PSPP - a program for statistical analysis.
2    Copyright (C) 2005, 2009, 2010, 2011, 2012, 2013, 2014,
3    2016, 2017 Free Software Foundation, Inc.
4
5    This program is free software: you can redistribute it and/or modify
6    it under the terms of the GNU General Public License as published by
7    the Free Software Foundation, either version 3 of the License, or
8    (at your option) any later version.
9
10    This program is distributed in the hope that it will be useful,
11    but WITHOUT ANY WARRANTY; without even the implied warranty of
12    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
13    GNU General Public License for more details.
14
15    You should have received a copy of the GNU General Public License
16    along with this program.  If not, see <http://www.gnu.org/licenses/>. */
17
18 #include <config.h>
19
20 #include <float.h>
21 #include <stdbool.h>
22
23 #include <gsl/gsl_math.h>
24 #include <gsl/gsl_cdf.h>
25 #include <gsl/gsl_matrix.h>
26
27 #include <data/dataset.h>
28 #include <data/casewriter.h>
29
30 #include "language/command.h"
31 #include "language/lexer/lexer.h"
32 #include "language/lexer/value-parser.h"
33 #include "language/lexer/variable-parser.h"
34
35
36 #include "data/casegrouper.h"
37 #include "data/casereader.h"
38 #include "data/dictionary.h"
39
40 #include "math/covariance.h"
41 #include "math/linreg.h"
42 #include "math/moments.h"
43
44 #include "libpspp/message.h"
45 #include "libpspp/taint.h"
46
47 #include "output/pivot-table.h"
48
49 #include "gl/intprops.h"
50 #include "gl/minmax.h"
51
52 #include "gettext.h"
53 #define _(msgid) gettext (msgid)
54 #define N_(msgid) msgid
55
56
57 #define STATS_R      1
58 #define STATS_COEFF  2
59 #define STATS_ANOVA  4
60 #define STATS_OUTS   8
61 #define STATS_CI    16
62 #define STATS_BCOV  32
63
64 #define STATS_DEFAULT  (STATS_R | STATS_COEFF | STATS_ANOVA | STATS_OUTS)
65
66
67
68 struct regression
69 {
70   struct dataset *ds;
71
72   const struct variable **vars;
73   size_t n_vars;
74
75   const struct variable **dep_vars;
76   size_t n_dep_vars;
77
78   unsigned int stats;
79   double ci;
80
81   bool resid;
82   bool pred;
83
84   bool origin;
85 };
86
87 struct regression_workspace
88 {
89   /* The new variables which will be introduced by /SAVE */
90   const struct variable **predvars;
91   const struct variable **residvars;
92
93   /* A reader/writer pair to temporarily hold the
94      values of the new variables */
95   struct casewriter *writer;
96   struct casereader *reader;
97
98   /* Indeces of the new values in the reader/writer (-1 if not applicable) */
99   int res_idx;
100   int pred_idx;
101
102   /* 0, 1 or 2 depending on what new variables are to be created */
103   int extras;
104 };
105
106 static void run_regression (const struct regression *cmd,
107                             struct regression_workspace *ws,
108                             struct casereader *input);
109
110
111 /* Return a string based on PREFIX which may be used as the name
112    of a new variable in DICT */
113 static char *
114 reg_get_name (const struct dictionary *dict, const char *prefix)
115 {
116   char *name;
117   int i;
118
119   /* XXX handle too-long prefixes */
120   name = xmalloc (strlen (prefix) + INT_BUFSIZE_BOUND (i) + 1);
121   for (i = 1;; i++)
122     {
123       sprintf (name, "%s%d", prefix, i);
124       if (dict_lookup_var (dict, name) == NULL)
125         return name;
126     }
127 }
128
129
130 static const struct variable *
131 create_aux_var (struct dataset *ds, const char *prefix)
132 {
133   struct variable *var;
134   struct dictionary *dict = dataset_dict (ds);
135   char *name = reg_get_name (dict, prefix);
136   var = dict_create_var_assert (dict, name, 0);
137   free (name);
138   return var;
139 }
140
141 /* Auxiliary data for transformation when /SAVE is entered */
142 struct save_trans_data
143 {
144   int n_dep_vars;
145   struct regression_workspace *ws;
146 };
147
148 static bool
149 save_trans_free (void *aux)
150 {
151   struct save_trans_data *save_trans_data = aux;
152   free (save_trans_data->ws->predvars);
153   free (save_trans_data->ws->residvars);
154
155   casereader_destroy (save_trans_data->ws->reader);
156   free (save_trans_data->ws);
157   free (save_trans_data);
158   return true;
159 }
160
161 static int
162 save_trans_func (void *aux, struct ccase **c, casenumber x UNUSED)
163 {
164   struct save_trans_data *save_trans_data = aux;
165   struct regression_workspace *ws = save_trans_data->ws;
166   struct ccase *in =  casereader_read (ws->reader);
167
168   if (in)
169     {
170       int k;
171       *c = case_unshare (*c);
172
173       for (k = 0; k < save_trans_data->n_dep_vars; ++k)
174         {
175           if (ws->pred_idx != -1)
176             {
177               double pred = case_data_idx (in, ws->extras * k + ws->pred_idx)->f;
178               case_data_rw (*c, ws->predvars[k])->f = pred;
179             }
180
181           if (ws->res_idx != -1)
182             {
183               double resid = case_data_idx (in, ws->extras * k + ws->res_idx)->f;
184               case_data_rw (*c, ws->residvars[k])->f = resid;
185             }
186         }
187       case_unref (in);
188     }
189
190   return TRNS_CONTINUE;
191 }
192
193
194 int
195 cmd_regression (struct lexer *lexer, struct dataset *ds)
196 {
197   struct regression_workspace workspace;
198   struct regression regression;
199   const struct dictionary *dict = dataset_dict (ds);
200   bool save;
201
202   memset (&regression, 0, sizeof (struct regression));
203
204   regression.ci = 0.95;
205   regression.stats = STATS_DEFAULT;
206   regression.pred = false;
207   regression.resid = false;
208
209   regression.ds = ds;
210   regression.origin = false;
211
212   bool variables_seen = false;
213   bool method_seen = false;
214   bool dependent_seen = false;
215   while (lex_token (lexer) != T_ENDCMD)
216     {
217       lex_match (lexer, T_SLASH);
218
219       if (lex_match_id (lexer, "VARIABLES"))
220         {
221           if (method_seen)
222             {
223               msg (SE, _("VARIABLES may not appear after %s"), "METHOD");
224               goto error;
225             }
226           if (dependent_seen)
227             {
228               msg (SE, _("VARIABLES may not appear after %s"), "DEPENDENT");
229               goto error;
230             }
231           variables_seen = true;
232           lex_match (lexer, T_EQUALS);
233
234           if (!parse_variables_const (lexer, dict,
235                                       &regression.vars, &regression.n_vars,
236                                       PV_NO_DUPLICATE | PV_NUMERIC))
237             goto error;
238         }
239       else if (lex_match_id (lexer, "DEPENDENT"))
240         {
241           dependent_seen = true;
242           lex_match (lexer, T_EQUALS);
243
244           free (regression.dep_vars);
245           regression.n_dep_vars = 0;
246
247           if (!parse_variables_const (lexer, dict,
248                                       &regression.dep_vars,
249                                       &regression.n_dep_vars,
250                                       PV_NO_DUPLICATE | PV_NUMERIC))
251             goto error;
252         }
253       else if (lex_match_id (lexer, "ORIGIN"))
254         {
255           regression.origin = true;
256         }
257       else if (lex_match_id (lexer, "NOORIGIN"))
258         {
259           regression.origin = false;
260         }
261       else if (lex_match_id (lexer, "METHOD"))
262         {
263           method_seen = true;
264           lex_match (lexer, T_EQUALS);
265
266           if (!lex_force_match_id (lexer, "ENTER"))
267             {
268               goto error;
269             }
270
271           if (! variables_seen)
272             {
273               if (!parse_variables_const (lexer, dict,
274                                           &regression.vars, &regression.n_vars,
275                                           PV_NO_DUPLICATE | PV_NUMERIC))
276                 goto error;
277             }
278         }
279       else if (lex_match_id (lexer, "STATISTICS"))
280         {
281           unsigned long statistics = 0;
282           lex_match (lexer, T_EQUALS);
283
284           while (lex_token (lexer) != T_ENDCMD
285                  && lex_token (lexer) != T_SLASH)
286             {
287               if (lex_match (lexer, T_ALL))
288                 {
289                   statistics = ~0;
290                 }
291               else if (lex_match_id (lexer, "DEFAULTS"))
292                 {
293                   statistics |= STATS_DEFAULT;
294                 }
295               else if (lex_match_id (lexer, "R"))
296                 {
297                   statistics |= STATS_R;
298                 }
299               else if (lex_match_id (lexer, "COEFF"))
300                 {
301                   statistics |= STATS_COEFF;
302                 }
303               else if (lex_match_id (lexer, "ANOVA"))
304                 {
305                   statistics |= STATS_ANOVA;
306                 }
307               else if (lex_match_id (lexer, "BCOV"))
308                 {
309                   statistics |= STATS_BCOV;
310                 }
311               else if (lex_match_id (lexer, "CI"))
312                 {
313                   statistics |= STATS_CI;
314
315                   if (lex_match (lexer, T_LPAREN) &&
316                       lex_force_num (lexer))
317                     {
318                       regression.ci = lex_number (lexer) / 100.0;
319                       lex_get (lexer);
320                       if (! lex_force_match (lexer, T_RPAREN))
321                         goto error;
322                     }
323                 }
324               else
325                 {
326                   lex_error (lexer, NULL);
327                   goto error;
328                 }
329             }
330
331           if (statistics)
332             regression.stats = statistics;
333
334         }
335       else if (lex_match_id (lexer, "SAVE"))
336         {
337           lex_match (lexer, T_EQUALS);
338
339           while (lex_token (lexer) != T_ENDCMD
340                  && lex_token (lexer) != T_SLASH)
341             {
342               if (lex_match_id (lexer, "PRED"))
343                 {
344                   regression.pred = true;
345                 }
346               else if (lex_match_id (lexer, "RESID"))
347                 {
348                   regression.resid = true;
349                 }
350               else
351                 {
352                   lex_error (lexer, NULL);
353                   goto error;
354                 }
355             }
356         }
357       else
358         {
359           lex_error (lexer, NULL);
360           goto error;
361         }
362     }
363
364   if (!regression.vars)
365     {
366       dict_get_vars (dict, &regression.vars, &regression.n_vars, 0);
367     }
368
369   save = regression.pred || regression.resid;
370   workspace.extras = 0;
371   workspace.res_idx = -1;
372   workspace.pred_idx = -1;
373   workspace.writer = NULL;
374   workspace.reader = NULL;
375   workspace.residvars = NULL;
376   workspace.predvars = NULL;
377   if (save)
378     {
379       int i;
380       struct caseproto *proto = caseproto_create ();
381
382       if (regression.resid)
383         {
384           workspace.res_idx = workspace.extras ++;
385           workspace.residvars = xcalloc (regression.n_dep_vars, sizeof (*workspace.residvars));
386
387           for (i = 0; i < regression.n_dep_vars; ++i)
388             {
389               workspace.residvars[i] = create_aux_var (ds, "RES");
390               proto = caseproto_add_width (proto, 0);
391             }
392         }
393
394       if (regression.pred)
395         {
396           workspace.pred_idx = workspace.extras ++;
397           workspace.predvars = xcalloc (regression.n_dep_vars, sizeof (*workspace.predvars));
398
399           for (i = 0; i < regression.n_dep_vars; ++i)
400             {
401               workspace.predvars[i] = create_aux_var (ds, "PRED");
402               proto = caseproto_add_width (proto, 0);
403             }
404         }
405
406       if (proc_make_temporary_transformations_permanent (ds))
407         msg (SW, _("REGRESSION with SAVE ignores TEMPORARY.  "
408                    "Temporary transformations will be made permanent."));
409
410       if (dict_get_filter (dict))
411         msg (SW, _("REGRESSION with SAVE ignores FILTER.  "
412                    "All cases will be processed."));
413
414       workspace.writer = autopaging_writer_create (proto);
415       caseproto_unref (proto);
416     }
417
418
419   {
420     struct casegrouper *grouper;
421     struct casereader *group;
422     bool ok;
423
424     grouper = casegrouper_create_splits (proc_open_filtering (ds, !save), dict);
425
426
427     while (casegrouper_get_next_group (grouper, &group))
428       {
429         run_regression (&regression,
430                         &workspace,
431                         group);
432
433       }
434     ok = casegrouper_destroy (grouper);
435     ok = proc_commit (ds) && ok;
436   }
437
438   if (workspace.writer)
439     {
440       struct save_trans_data *save_trans_data = xmalloc (sizeof *save_trans_data);
441       struct casereader *r = casewriter_make_reader (workspace.writer);
442       workspace.writer = NULL;
443       workspace.reader = r;
444       save_trans_data->ws = xmalloc (sizeof (workspace));
445       memcpy (save_trans_data->ws, &workspace, sizeof (workspace));
446       save_trans_data->n_dep_vars = regression.n_dep_vars;
447
448       add_transformation (ds, save_trans_func, save_trans_free, save_trans_data);
449     }
450
451
452   free (regression.vars);
453   free (regression.dep_vars);
454   return CMD_SUCCESS;
455
456 error:
457
458   free (regression.vars);
459   free (regression.dep_vars);
460   return CMD_FAILURE;
461 }
462
463 /* Return the size of the union of dependent and independent variables */
464 static size_t
465 get_n_all_vars (const struct regression *cmd)
466 {
467   size_t result = cmd->n_vars;
468   size_t i;
469   size_t j;
470
471   result += cmd->n_dep_vars;
472   for (i = 0; i < cmd->n_dep_vars; i++)
473     {
474       for (j = 0; j < cmd->n_vars; j++)
475         {
476           if (cmd->vars[j] == cmd->dep_vars[i])
477             {
478               result--;
479             }
480         }
481     }
482   return result;
483 }
484
485 /* Fill VARS with the union of dependent and independent variables */
486 static void
487 fill_all_vars (const struct variable **vars, const struct regression *cmd)
488 {
489   size_t x = 0;
490   size_t i;
491   for (i = 0; i < cmd->n_vars; i++)
492     {
493       vars[i] = cmd->vars[i];
494     }
495
496   for (i = 0; i < cmd->n_dep_vars; i++)
497     {
498       size_t j;
499       bool absent = true;
500       for (j = 0; j < cmd->n_vars; j++)
501         {
502           if (cmd->dep_vars[i] == cmd->vars[j])
503             {
504               absent = false;
505               break;
506             }
507         }
508       if (absent)
509         {
510           vars[cmd->n_vars + x++] = cmd->dep_vars[i];
511         }
512     }
513 }
514
515 /*
516   Is variable k the dependent variable?
517 */
518 static bool
519 is_depvar (const struct regression *cmd, size_t k, const struct variable *v)
520 {
521   return v == cmd->vars[k];
522 }
523
524
525 /* Identify the explanatory variables in v_variables.  Returns
526    the number of independent variables. */
527 static int
528 identify_indep_vars (const struct regression *cmd,
529                      const struct variable **indep_vars,
530                      const struct variable *depvar)
531 {
532   int n_indep_vars = 0;
533   int i;
534
535   for (i = 0; i < cmd->n_vars; i++)
536     if (!is_depvar (cmd, i, depvar))
537       indep_vars[n_indep_vars++] = cmd->vars[i];
538   if ((n_indep_vars < 1) && is_depvar (cmd, 0, depvar))
539     {
540       /*
541          There is only one independent variable, and it is the same
542          as the dependent variable. Print a warning and continue.
543        */
544       msg (SW,
545            gettext
546            ("The dependent variable is equal to the independent variable. "
547             "The least squares line is therefore Y=X. "
548             "Standard errors and related statistics may be meaningless."));
549       n_indep_vars = 1;
550       indep_vars[0] = cmd->vars[0];
551     }
552   return n_indep_vars;
553 }
554
555 static double
556 fill_covariance (gsl_matrix * cov, struct covariance *all_cov,
557                  const struct variable **vars,
558                  size_t n_vars, const struct variable *dep_var,
559                  const struct variable **all_vars, size_t n_all_vars,
560                  double *means)
561 {
562   size_t i;
563   size_t j;
564   size_t dep_subscript = SIZE_MAX;
565   size_t *rows;
566   const gsl_matrix *ssizes;
567   const gsl_matrix *mean_matrix;
568   const gsl_matrix *ssize_matrix;
569   double result = 0.0;
570
571   const gsl_matrix *cm = covariance_calculate_unnormalized (all_cov);
572
573   if (cm == NULL)
574     return 0;
575
576   rows = xnmalloc (cov->size1 - 1, sizeof (*rows));
577
578   for (i = 0; i < n_all_vars; i++)
579     {
580       for (j = 0; j < n_vars; j++)
581         {
582           if (vars[j] == all_vars[i])
583             {
584               rows[j] = i;
585             }
586         }
587       if (all_vars[i] == dep_var)
588         {
589           dep_subscript = i;
590         }
591     }
592   assert (dep_subscript != SIZE_MAX);
593
594   mean_matrix = covariance_moments (all_cov, MOMENT_MEAN);
595   ssize_matrix = covariance_moments (all_cov, MOMENT_NONE);
596   for (i = 0; i < cov->size1 - 1; i++)
597     {
598       means[i] = gsl_matrix_get (mean_matrix, rows[i], 0)
599         / gsl_matrix_get (ssize_matrix, rows[i], 0);
600       for (j = 0; j < cov->size2 - 1; j++)
601         {
602           gsl_matrix_set (cov, i, j, gsl_matrix_get (cm, rows[i], rows[j]));
603           gsl_matrix_set (cov, j, i, gsl_matrix_get (cm, rows[j], rows[i]));
604         }
605     }
606   means[cov->size1 - 1] = gsl_matrix_get (mean_matrix, dep_subscript, 0)
607     / gsl_matrix_get (ssize_matrix, dep_subscript, 0);
608   ssizes = covariance_moments (all_cov, MOMENT_NONE);
609   result = gsl_matrix_get (ssizes, dep_subscript, rows[0]);
610   for (i = 0; i < cov->size1 - 1; i++)
611     {
612       gsl_matrix_set (cov, i, cov->size1 - 1,
613                       gsl_matrix_get (cm, rows[i], dep_subscript));
614       gsl_matrix_set (cov, cov->size1 - 1, i,
615                       gsl_matrix_get (cm, rows[i], dep_subscript));
616       if (result > gsl_matrix_get (ssizes, rows[i], dep_subscript))
617         {
618           result = gsl_matrix_get (ssizes, rows[i], dep_subscript);
619         }
620     }
621   gsl_matrix_set (cov, cov->size1 - 1, cov->size1 - 1,
622                   gsl_matrix_get (cm, dep_subscript, dep_subscript));
623   free (rows);
624   return result;
625 }
626
627 \f
628
629 /*
630   STATISTICS subcommand output functions.
631 */
632 static void reg_stats_r (const struct linreg *,     const struct variable *);
633 static void reg_stats_coeff (const struct linreg *, const gsl_matrix *, const struct variable *, const struct regression *);
634 static void reg_stats_anova (const struct linreg *, const struct variable *);
635 static void reg_stats_bcov (const struct linreg *,  const struct variable *);
636
637
638 static void
639 subcommand_statistics (const struct regression *cmd, const struct linreg * c, const gsl_matrix * cm,
640                        const struct variable *var)
641 {
642   if (cmd->stats & STATS_R)
643     reg_stats_r     (c, var);
644
645   if (cmd->stats & STATS_ANOVA)
646     reg_stats_anova (c, var);
647
648   if (cmd->stats & STATS_COEFF)
649     reg_stats_coeff (c, cm, var, cmd);
650
651   if (cmd->stats & STATS_BCOV)
652     reg_stats_bcov  (c, var);
653 }
654
655
656 static void
657 run_regression (const struct regression *cmd,
658                 struct regression_workspace *ws,
659                 struct casereader *input)
660 {
661   size_t i;
662   struct linreg **models;
663
664   int k;
665   struct ccase *c;
666   struct covariance *cov;
667   struct casereader *reader;
668   size_t n_all_vars = get_n_all_vars (cmd);
669   const struct variable **all_vars = xnmalloc (n_all_vars, sizeof (*all_vars));
670
671   double *means = xnmalloc (n_all_vars, sizeof (*means));
672
673   fill_all_vars (all_vars, cmd);
674   cov = covariance_1pass_create (n_all_vars, all_vars,
675                                  dict_get_weight (dataset_dict (cmd->ds)),
676                                  MV_ANY, cmd->origin == false);
677
678   reader = casereader_clone (input);
679   reader = casereader_create_filter_missing (reader, all_vars, n_all_vars,
680                                              MV_ANY, NULL, NULL);
681
682
683   {
684     struct casereader *r = casereader_clone (reader);
685
686     for (; (c = casereader_read (r)) != NULL; case_unref (c))
687       {
688         covariance_accumulate (cov, c);
689       }
690     casereader_destroy (r);
691   }
692
693   models = xcalloc (cmd->n_dep_vars, sizeof (*models));
694   for (k = 0; k < cmd->n_dep_vars; k++)
695     {
696       const struct variable **vars = xnmalloc (cmd->n_vars, sizeof (*vars));
697       const struct variable *dep_var = cmd->dep_vars[k];
698       int n_indep = identify_indep_vars (cmd, vars, dep_var);
699       gsl_matrix *this_cm = gsl_matrix_alloc (n_indep + 1, n_indep + 1);
700       double n_data = fill_covariance (this_cm, cov, vars, n_indep,
701                                 dep_var, all_vars, n_all_vars, means);
702       models[k] = linreg_alloc (dep_var, vars,  n_data, n_indep, cmd->origin);
703       for (i = 0; i < n_indep; i++)
704         {
705           linreg_set_indep_variable_mean (models[k], i, means[i]);
706         }
707       linreg_set_depvar_mean (models[k], means[i]);
708       if (n_data > 0)
709         {
710           /*
711              Find the least-squares estimates and other statistics.
712            */
713           linreg_fit (this_cm, models[k]);
714
715           if (!taint_has_tainted_successor (casereader_get_taint (input)))
716             {
717               subcommand_statistics (cmd, models[k], this_cm, dep_var);
718             }
719         }
720       else
721         {
722           msg (SE, _("No valid data found. This command was skipped."));
723         }
724       gsl_matrix_free (this_cm);
725       free (vars);
726     }
727
728
729   if (ws->extras > 0)
730    {
731       struct casereader *r = casereader_clone (reader);
732
733       for (; (c = casereader_read (r)) != NULL; case_unref (c))
734         {
735           struct ccase *outc = case_create (casewriter_get_proto (ws->writer));
736           for (k = 0; k < cmd->n_dep_vars; k++)
737             {
738               const struct variable **vars = xnmalloc (cmd->n_vars, sizeof (*vars));
739               const struct variable *dep_var = cmd->dep_vars[k];
740               int n_indep = identify_indep_vars (cmd, vars, dep_var);
741               double *vals = xnmalloc (n_indep, sizeof (*vals));
742               for (i = 0; i < n_indep; i++)
743                 {
744                   const union value *tmp = case_data (c, vars[i]);
745                   vals[i] = tmp->f;
746                 }
747
748               if (cmd->pred)
749                 {
750                   double pred = linreg_predict (models[k], vals, n_indep);
751                   case_data_rw_idx (outc, k * ws->extras + ws->pred_idx)->f = pred;
752                 }
753
754               if (cmd->resid)
755                 {
756                   double obs = case_data (c, linreg_dep_var (models[k]))->f;
757                   double res = linreg_residual (models[k], obs,  vals, n_indep);
758                   case_data_rw_idx (outc, k * ws->extras + ws->res_idx)->f = res;
759                 }
760               free (vals);
761               free (vars);
762             }
763           casewriter_write (ws->writer, outc);
764         }
765       casereader_destroy (r);
766     }
767
768   casereader_destroy (reader);
769
770   for (k = 0; k < cmd->n_dep_vars; k++)
771     {
772       linreg_unref (models[k]);
773     }
774   free (models);
775
776   free (all_vars);
777   free (means);
778   casereader_destroy (input);
779   covariance_destroy (cov);
780 }
781
782 \f
783
784
785 static void
786 reg_stats_r (const struct linreg * c, const struct variable *var)
787 {
788   struct pivot_table *table = pivot_table_create__ (
789     pivot_value_new_text_format (N_("Model Summary (%s)"),
790                                  var_to_string (var)));
791
792   pivot_dimension_create (table, PIVOT_AXIS_COLUMN, N_("Statistics"),
793                           N_("R"), N_("R Square"), N_("Adjusted R Square"),
794                           N_("Std. Error of the Estimate"));
795
796   double rsq = linreg_ssreg (c) / linreg_sst (c);
797   double adjrsq = (rsq -
798                    (1.0 - rsq) * linreg_n_coeffs (c)
799                    / (linreg_n_obs (c) - linreg_n_coeffs (c) - 1));
800   double std_error = sqrt (linreg_mse (c));
801
802   double entries[] = {
803     sqrt (rsq), rsq, adjrsq, std_error
804   };
805   for (size_t i = 0; i < sizeof entries / sizeof *entries; i++)
806     pivot_table_put1 (table, i, pivot_value_new_number (entries[i]));
807
808   pivot_table_submit (table);
809 }
810
811 /*
812   Table showing estimated regression coefficients.
813 */
814 static void
815 reg_stats_coeff (const struct linreg * c, const gsl_matrix *cov, const struct variable *var, const struct regression *cmd)
816 {
817   struct pivot_table *table = pivot_table_create__ (
818     pivot_value_new_text_format (N_("Coefficients (%s)"),
819                                  var_to_string (var)));
820
821   struct pivot_dimension *statistics = pivot_dimension_create (
822     table, PIVOT_AXIS_COLUMN, N_("Statistics"));
823   pivot_category_create_group (statistics->root,
824                                N_("Unstandardized Coefficients"),
825                                N_("B"), N_("Std. Error"));
826   pivot_category_create_group (statistics->root,
827                                N_("Standardized Coefficients"), N_("Beta"));
828   pivot_category_create_leaves (statistics->root, N_("t"),
829                                 N_("Sig."), PIVOT_RC_SIGNIFICANCE);
830   if (cmd->stats & STATS_CI)
831     {
832       struct pivot_category *interval = pivot_category_create_group__ (
833         statistics->root, pivot_value_new_text_format (
834           N_("%g%% Confidence Interval for B"),
835           cmd->ci * 100.0));
836       pivot_category_create_leaves (interval, N_("Lower Bound"),
837                                     N_("Upper Bound"));
838     }
839
840   struct pivot_dimension *variables = pivot_dimension_create (
841     table, PIVOT_AXIS_ROW, N_("Variables"));
842
843   double df = linreg_n_obs (c) - linreg_n_coeffs (c) - 1;
844   double q = (1 - cmd->ci) / 2.0;  /* 2-tailed test */
845   double tval = gsl_cdf_tdist_Qinv (q, df);
846
847   if (!cmd->origin)
848     {
849       int var_idx = pivot_category_create_leaf (
850         variables->root, pivot_value_new_text (N_("(Constant)")));
851
852       double std_err = sqrt (gsl_matrix_get (linreg_cov (c), 0, 0));
853       double t_stat = linreg_intercept (c) / std_err;
854       double entries[] = {
855         linreg_intercept (c),
856         std_err,
857         0.0,
858         t_stat,
859         2.0 * gsl_cdf_tdist_Q (fabs (t_stat),
860                                linreg_n_obs (c) - linreg_n_coeffs (c)),
861         linreg_intercept (c) - tval * std_err,
862         linreg_intercept (c) + tval * std_err,
863       };
864       for (size_t i = 0; i < sizeof entries / sizeof *entries; i++)
865         pivot_table_put2 (table, i, var_idx,
866                           pivot_value_new_number (entries[i]));
867     }
868
869   for (size_t j = 0; j < linreg_n_coeffs (c); j++)
870     {
871       const struct variable *v = linreg_indep_var (c, j);
872       int var_idx = pivot_category_create_leaf (
873         variables->root, pivot_value_new_variable (v));
874
875       double std_err = sqrt (gsl_matrix_get (linreg_cov (c), j + 1, j + 1));
876       double t_stat = linreg_coeff (c, j) / std_err;
877       double entries[] = {
878         linreg_coeff (c, j),
879         sqrt (gsl_matrix_get (linreg_cov (c), j + 1, j + 1)),
880         (sqrt (gsl_matrix_get (cov, j, j)) * linreg_coeff (c, j) /
881          sqrt (gsl_matrix_get (cov, cov->size1 - 1, cov->size2 - 1))),
882         t_stat,
883         2 * gsl_cdf_tdist_Q (fabs (t_stat), df),
884         linreg_coeff (c, j)  - tval * std_err,
885         linreg_coeff (c, j)  + tval * std_err,
886       };
887       for (size_t i = 0; i < sizeof entries / sizeof *entries; i++)
888         pivot_table_put2 (table, i, var_idx,
889                           pivot_value_new_number (entries[i]));
890     }
891
892   pivot_table_submit (table);
893 }
894
895 /*
896   Display the ANOVA table.
897 */
898 static void
899 reg_stats_anova (const struct linreg * c, const struct variable *var)
900 {
901   struct pivot_table *table = pivot_table_create__ (
902     pivot_value_new_text_format (N_("ANOVA (%s)"), var_to_string (var)));
903
904   pivot_dimension_create (table, PIVOT_AXIS_COLUMN, N_("Statistics"),
905                           N_("Sum of Squares"), PIVOT_RC_OTHER,
906                           N_("df"), PIVOT_RC_INTEGER,
907                           N_("Mean Square"), PIVOT_RC_OTHER,
908                           N_("F"), PIVOT_RC_OTHER,
909                           N_("Sig."), PIVOT_RC_SIGNIFICANCE);
910
911   pivot_dimension_create (table, PIVOT_AXIS_ROW, N_("Source"),
912                           N_("Regression"), N_("Residual"), N_("Total"));
913
914   double msm = linreg_ssreg (c) / linreg_dfmodel (c);
915   double mse = linreg_mse (c);
916   double F = msm / mse;
917
918   struct entry
919     {
920       int stat_idx;
921       int source_idx;
922       double x;
923     }
924   entries[] = {
925     /* Sums of Squares. */
926     { 0, 0, linreg_ssreg (c) },
927     { 0, 1, linreg_sse (c) },
928     { 0, 2, linreg_sst (c) },
929     /* Degrees of freedom. */
930     { 1, 0, linreg_dfmodel (c) },
931     { 1, 1, linreg_dferror (c) },
932     { 1, 2, linreg_dftotal (c) },
933     /* Mean Squares. */
934     { 2, 0, msm },
935     { 2, 1, mse },
936     /* F */
937     { 3, 0, F },
938     /* Significance. */
939     { 4, 0, gsl_cdf_fdist_Q (F, linreg_dfmodel (c), linreg_dferror (c)) },
940   };
941   for (size_t i = 0; i < sizeof entries / sizeof *entries; i++)
942     {
943       const struct entry *e = &entries[i];
944       pivot_table_put2 (table, e->stat_idx, e->source_idx,
945                         pivot_value_new_number (e->x));
946     }
947
948   pivot_table_submit (table);
949 }
950
951
952 static void
953 reg_stats_bcov (const struct linreg * c, const struct variable *var)
954 {
955   struct pivot_table *table = pivot_table_create__ (
956     pivot_value_new_text_format (N_("Coefficient Correlations (%s)"),
957                                  var_to_string (var)));
958
959   for (size_t i = 0; i < 2; i++)
960     {
961       struct pivot_dimension *models = pivot_dimension_create (
962         table, i ? PIVOT_AXIS_ROW : PIVOT_AXIS_COLUMN, N_("Models"));
963       for (size_t j = 0; j < linreg_n_coeffs (c); j++)
964         pivot_category_create_leaf (
965           models->root, pivot_value_new_variable (
966             linreg_indep_var (c, j)));
967     }
968
969   pivot_dimension_create (table, PIVOT_AXIS_ROW, N_("Statistics"),
970                           N_("Covariances"));
971
972   for (size_t i = 0; i < linreg_n_coeffs (c); i++)
973     for (size_t k = 0; k < linreg_n_coeffs (c); k++)
974       {
975         double cov = gsl_matrix_get (linreg_cov (c), MIN (i, k), MAX (i, k));
976         pivot_table_put3 (table, k, i, 0, pivot_value_new_number (cov));
977       }
978
979   pivot_table_submit (table);
980 }
981