FACTOR: Added "Scree Plots"
[pspp] / src / language / stats / OChangeLog
1 2008-07-24  Jason H Stover  <jhs@math.gcsu.edu>
2
3         * glm.q (run_glm): Dropped weight argument.
4
5 2008-07-22  Jason H Stover  <jhs@math.gcsu.edu>
6
7         * glm.q (run_glm): Re-written to form covariance matrix rather
8         than store entire data set in memory.
9
10         * glm.q (data_pass_one): Renamed prepare_categories() to
11         data_pass_one(). Accumulate mean and variance.
12
13 2008-06-21  Jason Stover  <jhs@math.gcsu.edu>
14
15         * regression.q (reg_stats_coeff): Use new accessor function
16         pspp_coeff_get_sd. Fixed bug 23567. No longer call compute_moments
17         in run_regression. Pass entire design_matrix to pspp_linreg ().
18
19 2008-05-29  John Darrington <john@darrington.wattle.id.au>
20
21         * examine.q: Fixed bug where incorrect levels of dereferencing
22         were applied to pointers.
23
24 2008-04-09  John Darrington <john@darrington.wattle.id.au>
25
26         * regression.q: Fix display of degrees of freedom.
27
28 2008-04-08  Jason Stover  <jhs@math.gcsu.edu>
29
30         * regression.q (identify_indep_vars): Don't panic unless
31         n_indep_vars is 0.
32
33 2008-03-16  Ben Pfaff  <blp@gnu.org>
34
35         Bug #22037.  Thanks to John Darrington for reporting this bug.
36         
37         * crosstabs.q (calc_general): Only the short string prefix of long
38         string variables are tabulated, so we must not copy or zero out
39         more data than that.
40
41 2008-03-10  Jason Stover  <jhs@math.gcsu.edu>
42
43         * regression.q (run_regression): Removed code for EXPORT
44         subcommand. Remove use of coefficient 0 as the intercept.
45
46 2008-02-14  John Darrington <john@darrington.wattle.id.au>
47
48         * examine.q: Fixed counts of missing variables.  Thanks to 
49         Jason Stover for reporting this problem.
50
51 2008-01-02  John Darrington <john@darrington.wattle.id.au>
52
53         *  binomial.c chisquare.c examine.q frequencies.q oneway.q regression.q : updated
54         all users of var_get_value_name to use replacement function var_append_value_name.
55
56 2007-12-07  Ben Pfaff  <blp@gnu.org>
57
58         Patch #6302.
59
60         * crosstabs.q (precalc): Initialize data structures even if the
61         first case cannot be read.  
62
63         * frequencies.q (precalc): Ditto.
64
65 2007-11-03  Ben Pfaff  <blp@gnu.org>
66
67         Allow output files to overwrite input files (bug #21280).
68
69         * aggregate.c (cmd_aggregate): Manage file handle reference
70         counts.
71
72         * correlations.q (internal_cmd_frequencies): Ditto.
73         (cor_custom_matrix): Ditto.
74
75         * regression.q (regression_custom_export): Ditto.
76         (cmd_regression): Ditto.
77
78 2007-10-12  Ben Pfaff  <blp@gnu.org>
79
80         * flip.c (flip_file): No need to conditionally substitute for
81         "fseeko" and "off_t" manually anymore, as gnulib takes care of it
82         for us.
83
84 2007-09-21  Jason Stover  <jhs@wonko.gcsu.edu>
85
86         * regression.q (run_regression): Partial fix of memory leak, bug
87         21056.
88
89 2007-09-19  Ben Pfaff  <blp@gnu.org>
90
91         Fix bug #21108.
92         
93         * aggregate.c (cmd_aggregate): Destroy casereader consistently,
94         even if casereader fails.
95
96         * examine.q (run_examine): Ditto.
97          
98         * glm.q (run_glm): Ditto.
99
100         * oneway.q (run_oneway): Ditto.
101
102         * regression.q (run_regression): Ditto.
103
104         * t-test.q (calculate): Ditto.
105
106         * descriptives.c (calc_descriptives): Ditto.  Also avoid
107         gratuitous casereader_clone.
108
109 2007-09-13  Jason Stover  <jhs@math.gcsu.edu>
110
111         * regression.q (cmd_regression): Move declaration of models in to
112         definition of cmd_regression.
113
114         * regression.q (run_regression): Free mom to fix memory leak.
115
116 2007-09-12  Ben Pfaff  <blp@gnu.org>
117
118         * crosstabs.q (postcalc): Free sorted_tab and the structures that
119         it points to, to plug a memory leak.  Fixes bug #20910.  Thanks to
120         John Darrington for reporting this bug and for review.
121
122 2007-09-04  Ben Pfaff  <blp@gnu.org>
123
124         * crosstabs.q (cmd_crosstabs): Free xtab and the structures that
125         it points to, to plug a memory leak.  Fixes bug #18315.
126
127 2007-08-15  Jason Stover  <jhs@wonko.gcsu.edu>
128
129         * regression.q (identify_indep_vars): Print an error if dependent
130         and independent variables are the same. Fixes bug 19819.
131
132 2007-08-12  Ben Pfaff  <blp@gnu.org>
133
134         * flip.c: Drop use of dict_get_compacted_dict_index_to_case_index
135         and just use the ordinary case indexes.  There seemed to be no
136         reason for the former method.
137
138 2007-08-03  Ben Pfaff  <blp@gnu.org>
139
140         * rank.q (rank_cmd): Instead of sorting by SPLIT FILE vars, group
141         by them.  Fixes bug #17239.
142         Reviewed by John Darrington.
143
144 2007-08-01  Ben Pfaff  <blp@gnu.org>
145
146         Clean up handling of median, by treating it almost like any other
147         percentile.  Fixes bug #17424.  Thanks to John Darrington for
148         review.
149         * frequencies.q (internal_cmd_frequencies): Fix handling of bit
150         masks for `stats' variable.  If median is selected, turn it off
151         and add a 50th percentile.
152         (add_percentile): Simplify code a little.
153         (calc_stats): Drop special casing of median.
154         (dump_statistics): Ditto, except that we label the 50th percentile
155         as "50 (Median)" to make it clear that it's also the median.    
156
157 2007-07-31  Ben Pfaff  <blp@gnu.org>
158
159         Remove integer mode from FREQUENCIES and incidentally fix bug
160         #17421.  Reviewed by John Darrington.
161         * frequencies.q (int_pool): Rename data_pool.
162         (gen_pool): Rename syntax_pool.
163         (enum FRQM_*): Removed.
164         (struct freq_tab): Removed `mode', `vector', `min', `max',
165         `out_of_range', `sysmis' members.
166         (calc): Delete support for integer mode.
167         (precalc): Ditto.
168         (postprocess_freq_tab): Ditto.
169         (cleanup_freq_tab): Ditto.
170         (frq_custom_variables): Ditto.
171
172 2007-07-28 John Darrington <john@darrington.wattle.id.au>
173
174         * t-test.q: Moved the order in which groups are displayed in the 
175         independent samples case, where a cut point is given.
176
177 2007-07-27  Ben Pfaff  <blp@gnu.org>
178
179         * regression.q (run_regression): Move casereader_destroy call so
180         that it always gets called, not just if there was some valid
181         data.  Fixes bug #19581.
182         Reviewed by Jason Stover.
183
184 2007-07-24  Ben Pfaff  <blp@gnu.org>
185
186         * flip.c (struct flip_pgm): Remove `case_size' member (now
187         unused).
188         (cmd_flip): Pass var_cnt as number of cases instead of case_cnt,
189         to fix bug #20494.  Don't assign to `case_size' member, which was
190         unused after assignment.
191         (build_dictionary): When NEWNAMES not used, get the number of
192         variables right, to fix bug #20493.
193
194 2007-07-10  Jason Stover  <jhs@math.gcsu.edu>
195
196         * glm.q: Initial version of the GLM procedure.
197
198 2007-06-06  Ben Pfaff  <blp@gnu.org>
199
200         Adapt case sources, sinks, and clients of procedure code to the
201         new infrastructure.
202         
203         * aggregate.c: Simplify greatly since everything is more uniform
204         now.
205
206         * autorecode.c: Adapt to new procedure code.
207         * binomial.c: Ditto.
208         * chisquare.c: Ditto.
209         * crosstabs.q: Ditto.
210         * descriptives.c: Ditto.
211         * examine.q: Ditto.
212         * npar-summary.c: Ditto.
213         * frequencies.q: Ditto.
214         * npar.q: Ditto.
215         * oneway.q: Ditto.
216         * regression.q: Ditto.
217         * sort-cases.c: Ditto.
218         * t-test.c: Ditto.
219
220         * sort-criteria.c: Rewrite to output a struct case_ordering.
221         
222         * flip.c: Rewrite to be a casereader.
223
224         * rank.q: Simplify greatly since casereaders are much more
225         flexible than what we had before.
226         
227 2007-05-15  Jason Stover  <jhs@math.gcsu.edu>
228
229         * regression.q (run_regression): Tell the user when the data
230         contain no valid cases.
231
232 2007-05-08  Jason Stover  <jhs@math.gcsu.edu>
233
234         * regression.q: Partial fix of bug which caused a crash if
235         dependent variable and independent variable were the same.
236
237 2007-04-16 John Darrington <john@darrington.wattle.id.au>
238
239         * t-test.q: Changed the output width of reported counts and 
240         degrees of freedom, to avoid truncating these values.  Thanks
241         to Seth Woolley for reporting this problem.  A proper fix involves
242         re-thinking the output driver.
243
244 2007-04-12  Jason Stover  <jhs@math.gcsu.edu>
245
246         * regression.q (run_regression): Added if (n_data >0) to fix bug
247         19581.
248
249 2007-03-29  Jason Stover  <jhs@math.gcsu.edu>
250
251         * regression.q (prepare_data): New function.
252
253         * regression.q (compute_moments): New function.
254
255 2007-03-18  Ben Pfaff  <blp@gnu.org>
256
257         * crosstabs.q (static var write): Rename write_style to avoid
258         conflict with POSIX function of same name.
259
260 2007-03-16  Jason Stover  <jhs@math.gcsu.edu>
261
262         * regression.q (run_regression): Added support for moments.
263
264 Sat Feb 17 08:16:00 2007  Ben Pfaff  <blp@gnu.org>
265
266         * flip.c (flip_sink_create): Improve error message when temporary
267         file cannot be created.
268
269 Tue Feb  6 19:58:03 2007  Ben Pfaff  <blp@gnu.org>
270
271         * flip.c (flip_file): Give better error message on end-of-file.
272
273 2007-02-04  Jason Stover  <jhs@math.gcsu.edu>
274
275         * regression.q: Fixed p-value computation in the test for
276         individual regression coefficients.
277
278 Mon Jan 15 11:03:20 2007  Ben Pfaff  <blp@gnu.org>
279
280         Fix bugs found by valgrind when --enable-debug is used with the
281         new case code.  These bugs are hidden when the data set is small
282         enough to find in memory; if a bigger data set that would overflow
283         to disk were used, then data corruption would occur.
284
285         * chisquare.c (create_freq_hash): Pass free_freq_mutable_hash to
286         hsh_create as free function.  Make copy of data put into hash.
287
288         * oneway.q (free_value): New function.
289         (run_oneway): Use free_value as arg to hsh_create.  Make copy of
290         data put into hash.
291
292         * rank.q (rank_cases): Don't access data in case after we've given
293         away the case.
294
295 Tue Jan  9 19:16:11 2007  Ben Pfaff  <blp@gnu.org>
296
297         Fix bug #18739.
298         
299         * aggregate.c (parse_aggregate_functions) Initialize
300         function_name.
301
302 Fri Dec 22 14:04:09 2006  Ben Pfaff  <blp@gnu.org>
303
304         Simplify missing value handling.
305         
306         * aggregate.c (struct agr_var): Remove `bool include_missing', add
307         `enum mv_class exclude'.  Remove `int missing', add `bool
308         saw_missing'.  Update users.
309
310         * descriptives.c (struct dsc_trns): Removed `int
311         include_user_missing', add `enum mv_class exclude'.  Update users.
312         (struct dsc_proc): Ditto.
313
314         * examine.q: (static var value_is_missing): Rename
315         `exclude_values', change type to `enum mv_class'.  Update users.
316
317         * rank.q: Ditto.
318
319 Fri Dec 22 19:22:18 WST 2006 John Darrington <john@darrington.wattle.id.au>
320
321         * frequencies.q : Fixed bug #17420, where the table bounds were overun
322         when /FORMAT=nolabels was given.
323
324 Wed Dec 20 18:45:31 WST 2006 John Darrington <john@darrington.wattle.id.au>
325
326         * binomial.c binomial.h : New files.  Thanks to Jason Stover 
327           for assistance with these.
328
329         * chisquare.c chisquare.h freq.c freq.h npar-summary.c npar-summary.h 
330           npar.h npar.q: New files.  Implementing NPAR TESTS.
331
332         * frequencies.q  : Moved  structure definitions into freq.[ch]
333
334 Sat Dec 16 22:26:44 2006  Ben Pfaff  <blp@gnu.org>
335
336         Make it possible to pull cases from the active file with a
337         function call, instead of requiring indirection through a callback
338         function.
339
340         * aggregate.c (cmd_aggregate): Take advantage of new procedure
341         interface.
342         (agr_to_active_file): Removed.
343         (presorted_agr_to_sysfile): Removed.
344
345         * autorecode.c (cmd_autorecode): Take advantage of new procedure
346         interface.
347         (autorecode_proc_func): Removed.
348
349         * flip.c (struct flip_pgm): New members to allow conformance with
350         new case_source_class interface.
351         (cmd_flip): Adapt to new case_source_class interface.
352         (flip_source_read): Ditto.
353         (flip_source_destroy): Ditto.
354
355 Sat Dec 16 12:54:27 2006  Ben Pfaff  <blp@gnu.org>
356
357         * rank.q (rank_custom_variables): Allow grouping variables to be
358         strings.  Fixes bug #18533.  Thanks to John Darrington for review.
359
360 Sat Dec  9 18:47:51 2006  Ben Pfaff  <blp@gnu.org>
361
362         * regression.q (is_depvar): Compare variable pointers instead of
363         variable names.
364
365 Thu Dec  7 15:26:25 WST 2006 John Darrington <john@darrington.wattle.id.au>
366
367         * examine.q: Allocated the categorical values for the dependent and 
368         independent variables, on the heap.  Hence they can be of any width.
369
370 Wed Dec  6 21:14:26 2006  Ben Pfaff  <blp@gnu.org>
371
372         * regression.q (reg_inserted): Compare variable pointers instead
373         of variable indexes.
374
375 Mon Dec  4 22:33:46 2006  Ben Pfaff  <blp@gnu.org>
376
377         * crosstabs.q (insert_summary): Use var_to_string for labeling.
378         (output_pivot_table) Ditto.
379         (submit) Ditto.
380
381         * frequencies.q (setup_z_trns): Ditto.
382         (dump_full) Ditto.
383         (dump_condensed) Ditto.
384         (dump_statistics) Ditto.
385         
386
387 Sun Nov  5 08:31:42 WST 2006 John Darrington <john@darrington.wattle.id.au>
388
389         * t-test.q, oneway.q: Changed to use the new casefilter structure.
390
391 Sat Oct 14 16:52:28 2006  Ben Pfaff  <blp@gnu.org>
392
393         * rank.q: (rank_sorted_casefile) Add some missing case_destroy()
394         calls to fix a memory leak.
395
396 Sun Oct  8 09:45:40 WST 2006 John Darrington <john@darrington.wattle.id.au>
397
398         * rank.q: Plugged a small memory leak which occurred under error
399         conditions.
400         
401 Sat Oct  7 11:06:01 WST 2006 John Darrington <john@darrington.wattle.id.au>
402
403         * rank.q: Implemented most of the RANK command.
404
405 2006-07-14  Jason Stover  <jhs@math.gcsu.edu>
406
407         * regression.q (run_regression): New function to move knowledge of
408         pspp_linreg_cache out of math/coefficient.[ch].
409
410 Sat Jul  1 17:41:46 2006  Ben Pfaff  <blp@gnu.org>
411
412         Fix bug #11612, "q2c documentation does not agree with code".
413         
414         * examine.q: Audit use of q2c "+" prefixes that indicate that a
415         command may appear multiple times.
416
417         * frequencies.q: Ditto.
418
419         * oneway.q: Ditto.
420
421         * regression.q: Ditto.
422
423         * t-test.q: Ditto.
424
425 Fri Jun 23 14:18:22 2006  Ben Pfaff  <blp@gnu.org>
426
427         Support long string variables on FREQUENCIES, as
428         an extension when in enhanced algorithms mode.  For Greg Hunt
429         <greg@firmansyah.com>.
430         
431         * frequencies.q: (struct freq) Change `v' member from union value
432         to union value *.  Update all references.
433         (struct var_freqs) Add width, print members to represent effective
434         variable width and display format.
435         (calc) Copy entire long string value into the hash table.
436         (frq_custom_variables) Set new width, print members.
437         (hash_value_alpha) Get width from var_freqs.
438         (compare_value_alpha_a) Ditto.
439         (compare_freq_alpha_a) Ditto.
440         (compare_freq_alpha_d) Ditto.
441         (dump_full) Get display format from var_freqs.
442         (dump_condensed) Ditto.
443
444 Mon Jun 19 22:07:13 2006  Ben Pfaff  <blp@gnu.org>
445
446         * frequencies.q: (dump_full) Only put the first MAX_SHORT_STRING
447         bytes of string variables into the output cells, seeing as we only
448         copy that many.
449         (dump_condensed) Ditto.
450
451 Mon Jun 19 21:52:05 2006  Ben Pfaff  <blp@gnu.org>
452
453         Fixes a bug reported by Greg Hunt <greg@firmansyah.com>.
454         
455         * frequencies.q: (hsh_hash_bytes) We only copy the first
456         MAX_SHORT_STRING bytes of string variables, so we must only
457         compare that many bytes, even if the string variable is longer.
458         (compare_value_alpha_a) Ditto.
459         (compare_freq_alpha_a) Ditto.
460         (compare_freq_alpha_d) Ditto.
461
462 2006-05-11  Jason Stover  <jhs@math.gcsu.edu>
463
464         * regression.q: Adjusted code to account for cache->coeff being a
465         pspp_linreg_coeff **.
466
467 Sun May  7 18:31:25 2006  Ben Pfaff  <blp@gnu.org>
468
469         Fix memory leak.
470         
471         * aggregate.c (cmd_aggregate): Free default_dict before replacing
472         it.
473
474 Sun May  7 17:09:19 2006  Ben Pfaff  <blp@gnu.org>
475
476         * flip.c (flip_file): Check return value of pool_fclose().
477
478 Sat May  6 16:00:13 2006  Ben Pfaff  <blp@gnu.org>
479
480         Get rid of `char *c' member in union value, for cleanliness.
481         
482         * aggregate.c: (union agr_argument) New union.
483         (struct agr_var) Change element type of arg[] from union value to
484         union agr_argument.
485         (parse_aggregate_functions) Change local variable types likewise.
486
487         * autorecode.c: (union arc_value) New union.
488         (struct arc_item) Change "from" from union value to union
489         arc_value.
490         (recode) Change local variable from union value to union
491         arc_value.
492         (autorecode_trns_proc) Ditto.
493         (compare_alpha_value) Ditto.
494         (hash_alpha_value) Ditto.
495         (compare_numeric_value) Ditto.
496         (hash_numeric_value) Ditto.
497         (autorecode_proc_func) Ditto.
498
499 Sat May  6 10:43:33 2006  Ben Pfaff  <blp@gnu.org>
500
501         Continue reforming procedure execution.  In this phase, get rid of
502         the output code for SPLIT FILE groups in procedure.c, which really
503         shouldn't be doing any output.  Move it into the individual
504         procedures instead.  This also adds some flexibility.
505
506         * crosstabs.q (precalc): Call output_split_file_values().
507
508         * descriptives.c (calc_descriptives): Ditto.
509
510         * examine.q (run_examine): Ditto.
511         
512         * frequencies.q (precalc): Ditto.
513
514         * oneway.q (run_oneway): Ditto.
515
516         * regression.q (run_regression): Ditto.
517
518         * t-test.q (calculate): Ditto.
519
520 Wed May  3 23:05:31 2006  Ben Pfaff  <blp@gnu.org>
521
522         Continue reforming procedure execution.  In this phase, get rid of
523         many global variables, consolidating procedure execution in
524         procedure.c.  Encapsulate transformations in new "struct
525         trns_chain".  Also, change implementation of N OF CASES, FILTER,
526         and PROCESS IF from special cases to transformations.
527          
528         * aggregate.c (cmd_aggregate) Use discard_variables().
529         
530 2006-04-28  Jason Stover  <jhs@math.gcsu.edu>
531
532         * regression.q (regression_trns_resid_proc): Pass only the
533         variables used in the model to (*model->residual)().
534
535         * regression.q (regression_trns_pred_proc): Pass only the
536         variables used in the model to (*model->pred)().
537
538 2006-04-26  Jason Stover  <jhs@math.gcsu.edu>
539
540         * regression.q: Added support for multiple transformations.
541         
542         * regression.q (regression_trns_resid_proc): New function.
543
544         * regression.q (regression_trns_pred_proc): New function.
545
546         * regression.q (subcommand_save): Added support for saving
547         predicted values.
548
549         * regression.q (regression_trns_free): New function. 
550
551         * regression.q (reg_get_name): New function.
552
553         * regression.q (reg_save_var): New function.
554
555 Tue Apr 25 13:18:56 2006  Ben Pfaff  <blp@gnu.org>
556
557         * rank.q (parse_rank_function): Use SE instead of ME for parse
558         errors.
559
560 Tue Apr 25 13:16:28 2006  Ben Pfaff  <blp@gnu.org>
561
562         * flip.c (flip_sink_write): Use snprintf() to simplify a bit of
563         code.
564
565 2006-04-21  Jason Stover  <jhs@math.gcsu.edu>
566
567         * regression.q (try_name): New function. (Partly copied from
568         try_name in descriptives.c.)
569
570         * regression.q (subcommand_save): Choose residual variable names
571         correctly. 
572
573 2006-04-20  Jason Stover  <jhs@math.gcsu.edu>
574
575         * regression.q (cmd_regression): Moved call to subcommand_save()
576         outside multipass_procedure_with_splits().
577         
578         * regression.q (regression_trns_proc): Fixed value counter n_vals
579         before calling *model->residual().
580
581 2006-04-19  Jason Stover  <jhs@math.gcsu.edu>
582
583         * regression.q (regression_trns_proc): Fixed the look-up of the
584         number of variables.
585
586 2006-04-18  Jason Stover  <jhs@math.gcsu.edu>
587
588         * regression.q (regression_trns_proc): Look up the residual
589         variable in the linear regression cache.
590
591         * regression.q (subcommand_save): Set the residual variable in the
592         linear regression cache.
593
594 2006-04-17  Jason Stover  <jason@wonko.gcsu.edu>
595
596         * regression.q (regression_trns_proc): Accept case_idx as an int
597         to match the definition of trns_proc_func.
598
599 2006-04-17  Jason Stover  <jhs@math.gcsu.edu>
600
601         * regression.q (regression_trns_proc): New function.
602
603         * regression.q (subcommand_save): Create variable residuals and
604         add a transformation to assign values to them. Also free the
605         linreg_cache if the SAVE command was not called. Removed the
606         casereading loop. Placed actual computation of residuals in
607         regression_trns_proc.
608
609         * regression.q (run_regression): Moved call to free
610         pspp_linreg_cache to subcommand_save.
611
612 Sat Apr 15 18:01:03 2006  Ben Pfaff  <blp@gnu.org>
613
614         * examine.q (output_examine): Add casts to fix warnings.
615
616 2006-04-07  Jason Stover  <jhs@math.gcsu.edu>
617
618         * regression.q (subcommand_save): New function.
619
620 2006-04-04  Jason Stover  <jhs@math.gcsu.edu>
621
622         * regression.q: New function reg_has_categorical () to tell
623         whether a pspp_linreg_struct was made with any variables of type
624         ALPHA.
625
626         * regression.q: (subcommand_export): Call
627         reg_print_categorical_encoding() only if the model uses any
628         categorical variables.
629
630 Mon Mar 27 16:00:42 2006  Ben Pfaff  <blp@gnu.org>
631
632         * crosstabs.q: (output_pivot_table) Drop spurious space from
633         message.
634
635 2006-03-15  Jason Stover  <jhs@math.gcsu.edu>
636
637         * regression.q: Added custom syntax parser for VARIABLES subcommand
638
639         * regression.q: Moved most instructions for run_regression ()
640         inside the loop over dependent variables.
641
642 Thu Mar  2 08:40:33 WST 2006 John Darrington <john@darrington.wattle.id.au>
643         
644         * Moved files from src directory