No longer store entire data set in memory.
[pspp-builds.git] / src / language / stats / ChangeLog
1 2008-07-22  Jason H Stover  <jhs@math.gcsu.edu>
2
3         * glm.q (run_glm): Re-written to form covariance matrix rather
4         than store entire data set in memory.
5
6         * glm.q (data_pass_one): Renamed prepare_categories() to
7         data_pass_one(). Accumulate mean and variance.
8
9 2008-06-21  Jason Stover  <jhs@math.gcsu.edu>
10
11         * regression.q (reg_stats_coeff): Use new accessor function
12         pspp_coeff_get_sd. Fixed bug 23567. No longer call compute_moments
13         in run_regression. Pass entire design_matrix to pspp_linreg ().
14
15 2008-05-29  John Darrington <john@darrington.wattle.id.au>
16
17         * examine.q: Fixed bug where incorrect levels of dereferencing
18         were applied to pointers.
19
20 2008-04-09  John Darrington <john@darrington.wattle.id.au>
21
22         * regression.q: Fix display of degrees of freedom.
23
24 2008-04-08  Jason Stover  <jhs@math.gcsu.edu>
25
26         * regression.q (identify_indep_vars): Don't panic unless
27         n_indep_vars is 0.
28
29 2008-03-16  Ben Pfaff  <blp@gnu.org>
30
31         Bug #22037.  Thanks to John Darrington for reporting this bug.
32         
33         * crosstabs.q (calc_general): Only the short string prefix of long
34         string variables are tabulated, so we must not copy or zero out
35         more data than that.
36
37 2008-03-10  Jason Stover  <jhs@math.gcsu.edu>
38
39         * regression.q (run_regression): Removed code for EXPORT
40         subcommand. Remove use of coefficient 0 as the intercept.
41
42 2008-02-14  John Darrington <john@darrington.wattle.id.au>
43
44         * examine.q: Fixed counts of missing variables.  Thanks to 
45         Jason Stover for reporting this problem.
46
47 2008-01-02  John Darrington <john@darrington.wattle.id.au>
48
49         *  binomial.c chisquare.c examine.q frequencies.q oneway.q regression.q : updated
50         all users of var_get_value_name to use replacement function var_append_value_name.
51
52 2007-12-07  Ben Pfaff  <blp@gnu.org>
53
54         Patch #6302.
55
56         * crosstabs.q (precalc): Initialize data structures even if the
57         first case cannot be read.  
58
59         * frequencies.q (precalc): Ditto.
60
61 2007-11-03  Ben Pfaff  <blp@gnu.org>
62
63         Allow output files to overwrite input files (bug #21280).
64
65         * aggregate.c (cmd_aggregate): Manage file handle reference
66         counts.
67
68         * correlations.q (internal_cmd_frequencies): Ditto.
69         (cor_custom_matrix): Ditto.
70
71         * regression.q (regression_custom_export): Ditto.
72         (cmd_regression): Ditto.
73
74 2007-10-12  Ben Pfaff  <blp@gnu.org>
75
76         * flip.c (flip_file): No need to conditionally substitute for
77         "fseeko" and "off_t" manually anymore, as gnulib takes care of it
78         for us.
79
80 2007-09-21  Jason Stover  <jhs@wonko.gcsu.edu>
81
82         * regression.q (run_regression): Partial fix of memory leak, bug
83         21056.
84
85 2007-09-19  Ben Pfaff  <blp@gnu.org>
86
87         Fix bug #21108.
88         
89         * aggregate.c (cmd_aggregate): Destroy casereader consistently,
90         even if casereader fails.
91
92         * examine.q (run_examine): Ditto.
93          
94         * glm.q (run_glm): Ditto.
95
96         * oneway.q (run_oneway): Ditto.
97
98         * regression.q (run_regression): Ditto.
99
100         * t-test.q (calculate): Ditto.
101
102         * descriptives.c (calc_descriptives): Ditto.  Also avoid
103         gratuitous casereader_clone.
104
105 2007-09-13  Jason Stover  <jhs@math.gcsu.edu>
106
107         * regression.q (cmd_regression): Move declaration of models in to
108         definition of cmd_regression.
109
110         * regression.q (run_regression): Free mom to fix memory leak.
111
112 2007-09-12  Ben Pfaff  <blp@gnu.org>
113
114         * crosstabs.q (postcalc): Free sorted_tab and the structures that
115         it points to, to plug a memory leak.  Fixes bug #20910.  Thanks to
116         John Darrington for reporting this bug and for review.
117
118 2007-09-04  Ben Pfaff  <blp@gnu.org>
119
120         * crosstabs.q (cmd_crosstabs): Free xtab and the structures that
121         it points to, to plug a memory leak.  Fixes bug #18315.
122
123 2007-08-15  Jason Stover  <jhs@wonko.gcsu.edu>
124
125         * regression.q (identify_indep_vars): Print an error if dependent
126         and independent variables are the same. Fixes bug 19819.
127
128 2007-08-12  Ben Pfaff  <blp@gnu.org>
129
130         * flip.c: Drop use of dict_get_compacted_dict_index_to_case_index
131         and just use the ordinary case indexes.  There seemed to be no
132         reason for the former method.
133
134 2007-08-03  Ben Pfaff  <blp@gnu.org>
135
136         * rank.q (rank_cmd): Instead of sorting by SPLIT FILE vars, group
137         by them.  Fixes bug #17239.
138         Reviewed by John Darrington.
139
140 2007-08-01  Ben Pfaff  <blp@gnu.org>
141
142         Clean up handling of median, by treating it almost like any other
143         percentile.  Fixes bug #17424.  Thanks to John Darrington for
144         review.
145         * frequencies.q (internal_cmd_frequencies): Fix handling of bit
146         masks for `stats' variable.  If median is selected, turn it off
147         and add a 50th percentile.
148         (add_percentile): Simplify code a little.
149         (calc_stats): Drop special casing of median.
150         (dump_statistics): Ditto, except that we label the 50th percentile
151         as "50 (Median)" to make it clear that it's also the median.    
152
153 2007-07-31  Ben Pfaff  <blp@gnu.org>
154
155         Remove integer mode from FREQUENCIES and incidentally fix bug
156         #17421.  Reviewed by John Darrington.
157         * frequencies.q (int_pool): Rename data_pool.
158         (gen_pool): Rename syntax_pool.
159         (enum FRQM_*): Removed.
160         (struct freq_tab): Removed `mode', `vector', `min', `max',
161         `out_of_range', `sysmis' members.
162         (calc): Delete support for integer mode.
163         (precalc): Ditto.
164         (postprocess_freq_tab): Ditto.
165         (cleanup_freq_tab): Ditto.
166         (frq_custom_variables): Ditto.
167
168 2007-07-28 John Darrington <john@darrington.wattle.id.au>
169
170         * t-test.q: Moved the order in which groups are displayed in the 
171         independent samples case, where a cut point is given.
172
173 2007-07-27  Ben Pfaff  <blp@gnu.org>
174
175         * regression.q (run_regression): Move casereader_destroy call so
176         that it always gets called, not just if there was some valid
177         data.  Fixes bug #19581.
178         Reviewed by Jason Stover.
179
180 2007-07-24  Ben Pfaff  <blp@gnu.org>
181
182         * flip.c (struct flip_pgm): Remove `case_size' member (now
183         unused).
184         (cmd_flip): Pass var_cnt as number of cases instead of case_cnt,
185         to fix bug #20494.  Don't assign to `case_size' member, which was
186         unused after assignment.
187         (build_dictionary): When NEWNAMES not used, get the number of
188         variables right, to fix bug #20493.
189
190 2007-07-10  Jason Stover  <jhs@math.gcsu.edu>
191
192         * glm.q: Initial version of the GLM procedure.
193
194 2007-06-06  Ben Pfaff  <blp@gnu.org>
195
196         Adapt case sources, sinks, and clients of procedure code to the
197         new infrastructure.
198         
199         * aggregate.c: Simplify greatly since everything is more uniform
200         now.
201
202         * autorecode.c: Adapt to new procedure code.
203         * binomial.c: Ditto.
204         * chisquare.c: Ditto.
205         * crosstabs.q: Ditto.
206         * descriptives.c: Ditto.
207         * examine.q: Ditto.
208         * npar-summary.c: Ditto.
209         * frequencies.q: Ditto.
210         * npar.q: Ditto.
211         * oneway.q: Ditto.
212         * regression.q: Ditto.
213         * sort-cases.c: Ditto.
214         * t-test.c: Ditto.
215
216         * sort-criteria.c: Rewrite to output a struct case_ordering.
217         
218         * flip.c: Rewrite to be a casereader.
219
220         * rank.q: Simplify greatly since casereaders are much more
221         flexible than what we had before.
222         
223 2007-05-15  Jason Stover  <jhs@math.gcsu.edu>
224
225         * regression.q (run_regression): Tell the user when the data
226         contain no valid cases.
227
228 2007-05-08  Jason Stover  <jhs@math.gcsu.edu>
229
230         * regression.q: Partial fix of bug which caused a crash if
231         dependent variable and independent variable were the same.
232
233 2007-04-16 John Darrington <john@darrington.wattle.id.au>
234
235         * t-test.q: Changed the output width of reported counts and 
236         degrees of freedom, to avoid truncating these values.  Thanks
237         to Seth Woolley for reporting this problem.  A proper fix involves
238         re-thinking the output driver.
239
240 2007-04-12  Jason Stover  <jhs@math.gcsu.edu>
241
242         * regression.q (run_regression): Added if (n_data >0) to fix bug
243         19581.
244
245 2007-03-29  Jason Stover  <jhs@math.gcsu.edu>
246
247         * regression.q (prepare_data): New function.
248
249         * regression.q (compute_moments): New function.
250
251 2007-03-18  Ben Pfaff  <blp@gnu.org>
252
253         * crosstabs.q (static var write): Rename write_style to avoid
254         conflict with POSIX function of same name.
255
256 2007-03-16  Jason Stover  <jhs@math.gcsu.edu>
257
258         * regression.q (run_regression): Added support for moments.
259
260 Sat Feb 17 08:16:00 2007  Ben Pfaff  <blp@gnu.org>
261
262         * flip.c (flip_sink_create): Improve error message when temporary
263         file cannot be created.
264
265 Tue Feb  6 19:58:03 2007  Ben Pfaff  <blp@gnu.org>
266
267         * flip.c (flip_file): Give better error message on end-of-file.
268
269 2007-02-04  Jason Stover  <jhs@math.gcsu.edu>
270
271         * regression.q: Fixed p-value computation in the test for
272         individual regression coefficients.
273
274 Mon Jan 15 11:03:20 2007  Ben Pfaff  <blp@gnu.org>
275
276         Fix bugs found by valgrind when --enable-debug is used with the
277         new case code.  These bugs are hidden when the data set is small
278         enough to find in memory; if a bigger data set that would overflow
279         to disk were used, then data corruption would occur.
280
281         * chisquare.c (create_freq_hash): Pass free_freq_mutable_hash to
282         hsh_create as free function.  Make copy of data put into hash.
283
284         * oneway.q (free_value): New function.
285         (run_oneway): Use free_value as arg to hsh_create.  Make copy of
286         data put into hash.
287
288         * rank.q (rank_cases): Don't access data in case after we've given
289         away the case.
290
291 Tue Jan  9 19:16:11 2007  Ben Pfaff  <blp@gnu.org>
292
293         Fix bug #18739.
294         
295         * aggregate.c (parse_aggregate_functions) Initialize
296         function_name.
297
298 Fri Dec 22 14:04:09 2006  Ben Pfaff  <blp@gnu.org>
299
300         Simplify missing value handling.
301         
302         * aggregate.c (struct agr_var): Remove `bool include_missing', add
303         `enum mv_class exclude'.  Remove `int missing', add `bool
304         saw_missing'.  Update users.
305
306         * descriptives.c (struct dsc_trns): Removed `int
307         include_user_missing', add `enum mv_class exclude'.  Update users.
308         (struct dsc_proc): Ditto.
309
310         * examine.q: (static var value_is_missing): Rename
311         `exclude_values', change type to `enum mv_class'.  Update users.
312
313         * rank.q: Ditto.
314
315 Fri Dec 22 19:22:18 WST 2006 John Darrington <john@darrington.wattle.id.au>
316
317         * frequencies.q : Fixed bug #17420, where the table bounds were overun
318         when /FORMAT=nolabels was given.
319
320 Wed Dec 20 18:45:31 WST 2006 John Darrington <john@darrington.wattle.id.au>
321
322         * binomial.c binomial.h : New files.  Thanks to Jason Stover 
323           for assistance with these.
324
325         * chisquare.c chisquare.h freq.c freq.h npar-summary.c npar-summary.h 
326           npar.h npar.q: New files.  Implementing NPAR TESTS.
327
328         * frequencies.q  : Moved  structure definitions into freq.[ch]
329
330 Sat Dec 16 22:26:44 2006  Ben Pfaff  <blp@gnu.org>
331
332         Make it possible to pull cases from the active file with a
333         function call, instead of requiring indirection through a callback
334         function.
335
336         * aggregate.c (cmd_aggregate): Take advantage of new procedure
337         interface.
338         (agr_to_active_file): Removed.
339         (presorted_agr_to_sysfile): Removed.
340
341         * autorecode.c (cmd_autorecode): Take advantage of new procedure
342         interface.
343         (autorecode_proc_func): Removed.
344
345         * flip.c (struct flip_pgm): New members to allow conformance with
346         new case_source_class interface.
347         (cmd_flip): Adapt to new case_source_class interface.
348         (flip_source_read): Ditto.
349         (flip_source_destroy): Ditto.
350
351 Sat Dec 16 12:54:27 2006  Ben Pfaff  <blp@gnu.org>
352
353         * rank.q (rank_custom_variables): Allow grouping variables to be
354         strings.  Fixes bug #18533.  Thanks to John Darrington for review.
355
356 Sat Dec  9 18:47:51 2006  Ben Pfaff  <blp@gnu.org>
357
358         * regression.q (is_depvar): Compare variable pointers instead of
359         variable names.
360
361 Thu Dec  7 15:26:25 WST 2006 John Darrington <john@darrington.wattle.id.au>
362
363         * examine.q: Allocated the categorical values for the dependent and 
364         independent variables, on the heap.  Hence they can be of any width.
365
366 Wed Dec  6 21:14:26 2006  Ben Pfaff  <blp@gnu.org>
367
368         * regression.q (reg_inserted): Compare variable pointers instead
369         of variable indexes.
370
371 Mon Dec  4 22:33:46 2006  Ben Pfaff  <blp@gnu.org>
372
373         * crosstabs.q (insert_summary): Use var_to_string for labeling.
374         (output_pivot_table) Ditto.
375         (submit) Ditto.
376
377         * frequencies.q (setup_z_trns): Ditto.
378         (dump_full) Ditto.
379         (dump_condensed) Ditto.
380         (dump_statistics) Ditto.
381         
382
383 Sun Nov  5 08:31:42 WST 2006 John Darrington <john@darrington.wattle.id.au>
384
385         * t-test.q, oneway.q: Changed to use the new casefilter structure.
386
387 Sat Oct 14 16:52:28 2006  Ben Pfaff  <blp@gnu.org>
388
389         * rank.q: (rank_sorted_casefile) Add some missing case_destroy()
390         calls to fix a memory leak.
391
392 Sun Oct  8 09:45:40 WST 2006 John Darrington <john@darrington.wattle.id.au>
393
394         * rank.q: Plugged a small memory leak which occurred under error
395         conditions.
396         
397 Sat Oct  7 11:06:01 WST 2006 John Darrington <john@darrington.wattle.id.au>
398
399         * rank.q: Implemented most of the RANK command.
400
401 2006-07-14  Jason Stover  <jhs@math.gcsu.edu>
402
403         * regression.q (run_regression): New function to move knowledge of
404         pspp_linreg_cache out of math/coefficient.[ch].
405
406 Sat Jul  1 17:41:46 2006  Ben Pfaff  <blp@gnu.org>
407
408         Fix bug #11612, "q2c documentation does not agree with code".
409         
410         * examine.q: Audit use of q2c "+" prefixes that indicate that a
411         command may appear multiple times.
412
413         * frequencies.q: Ditto.
414
415         * oneway.q: Ditto.
416
417         * regression.q: Ditto.
418
419         * t-test.q: Ditto.
420
421 Fri Jun 23 14:18:22 2006  Ben Pfaff  <blp@gnu.org>
422
423         Support long string variables on FREQUENCIES, as
424         an extension when in enhanced algorithms mode.  For Greg Hunt
425         <greg@firmansyah.com>.
426         
427         * frequencies.q: (struct freq) Change `v' member from union value
428         to union value *.  Update all references.
429         (struct var_freqs) Add width, print members to represent effective
430         variable width and display format.
431         (calc) Copy entire long string value into the hash table.
432         (frq_custom_variables) Set new width, print members.
433         (hash_value_alpha) Get width from var_freqs.
434         (compare_value_alpha_a) Ditto.
435         (compare_freq_alpha_a) Ditto.
436         (compare_freq_alpha_d) Ditto.
437         (dump_full) Get display format from var_freqs.
438         (dump_condensed) Ditto.
439
440 Mon Jun 19 22:07:13 2006  Ben Pfaff  <blp@gnu.org>
441
442         * frequencies.q: (dump_full) Only put the first MAX_SHORT_STRING
443         bytes of string variables into the output cells, seeing as we only
444         copy that many.
445         (dump_condensed) Ditto.
446
447 Mon Jun 19 21:52:05 2006  Ben Pfaff  <blp@gnu.org>
448
449         Fixes a bug reported by Greg Hunt <greg@firmansyah.com>.
450         
451         * frequencies.q: (hsh_hash_bytes) We only copy the first
452         MAX_SHORT_STRING bytes of string variables, so we must only
453         compare that many bytes, even if the string variable is longer.
454         (compare_value_alpha_a) Ditto.
455         (compare_freq_alpha_a) Ditto.
456         (compare_freq_alpha_d) Ditto.
457
458 2006-05-11  Jason Stover  <jhs@math.gcsu.edu>
459
460         * regression.q: Adjusted code to account for cache->coeff being a
461         pspp_linreg_coeff **.
462
463 Sun May  7 18:31:25 2006  Ben Pfaff  <blp@gnu.org>
464
465         Fix memory leak.
466         
467         * aggregate.c (cmd_aggregate): Free default_dict before replacing
468         it.
469
470 Sun May  7 17:09:19 2006  Ben Pfaff  <blp@gnu.org>
471
472         * flip.c (flip_file): Check return value of pool_fclose().
473
474 Sat May  6 16:00:13 2006  Ben Pfaff  <blp@gnu.org>
475
476         Get rid of `char *c' member in union value, for cleanliness.
477         
478         * aggregate.c: (union agr_argument) New union.
479         (struct agr_var) Change element type of arg[] from union value to
480         union agr_argument.
481         (parse_aggregate_functions) Change local variable types likewise.
482
483         * autorecode.c: (union arc_value) New union.
484         (struct arc_item) Change "from" from union value to union
485         arc_value.
486         (recode) Change local variable from union value to union
487         arc_value.
488         (autorecode_trns_proc) Ditto.
489         (compare_alpha_value) Ditto.
490         (hash_alpha_value) Ditto.
491         (compare_numeric_value) Ditto.
492         (hash_numeric_value) Ditto.
493         (autorecode_proc_func) Ditto.
494
495 Sat May  6 10:43:33 2006  Ben Pfaff  <blp@gnu.org>
496
497         Continue reforming procedure execution.  In this phase, get rid of
498         the output code for SPLIT FILE groups in procedure.c, which really
499         shouldn't be doing any output.  Move it into the individual
500         procedures instead.  This also adds some flexibility.
501
502         * crosstabs.q (precalc): Call output_split_file_values().
503
504         * descriptives.c (calc_descriptives): Ditto.
505
506         * examine.q (run_examine): Ditto.
507         
508         * frequencies.q (precalc): Ditto.
509
510         * oneway.q (run_oneway): Ditto.
511
512         * regression.q (run_regression): Ditto.
513
514         * t-test.q (calculate): Ditto.
515
516 Wed May  3 23:05:31 2006  Ben Pfaff  <blp@gnu.org>
517
518         Continue reforming procedure execution.  In this phase, get rid of
519         many global variables, consolidating procedure execution in
520         procedure.c.  Encapsulate transformations in new "struct
521         trns_chain".  Also, change implementation of N OF CASES, FILTER,
522         and PROCESS IF from special cases to transformations.
523          
524         * aggregate.c (cmd_aggregate) Use discard_variables().
525         
526 2006-04-28  Jason Stover  <jhs@math.gcsu.edu>
527
528         * regression.q (regression_trns_resid_proc): Pass only the
529         variables used in the model to (*model->residual)().
530
531         * regression.q (regression_trns_pred_proc): Pass only the
532         variables used in the model to (*model->pred)().
533
534 2006-04-26  Jason Stover  <jhs@math.gcsu.edu>
535
536         * regression.q: Added support for multiple transformations.
537         
538         * regression.q (regression_trns_resid_proc): New function.
539
540         * regression.q (regression_trns_pred_proc): New function.
541
542         * regression.q (subcommand_save): Added support for saving
543         predicted values.
544
545         * regression.q (regression_trns_free): New function. 
546
547         * regression.q (reg_get_name): New function.
548
549         * regression.q (reg_save_var): New function.
550
551 Tue Apr 25 13:18:56 2006  Ben Pfaff  <blp@gnu.org>
552
553         * rank.q (parse_rank_function): Use SE instead of ME for parse
554         errors.
555
556 Tue Apr 25 13:16:28 2006  Ben Pfaff  <blp@gnu.org>
557
558         * flip.c (flip_sink_write): Use snprintf() to simplify a bit of
559         code.
560
561 2006-04-21  Jason Stover  <jhs@math.gcsu.edu>
562
563         * regression.q (try_name): New function. (Partly copied from
564         try_name in descriptives.c.)
565
566         * regression.q (subcommand_save): Choose residual variable names
567         correctly. 
568
569 2006-04-20  Jason Stover  <jhs@math.gcsu.edu>
570
571         * regression.q (cmd_regression): Moved call to subcommand_save()
572         outside multipass_procedure_with_splits().
573         
574         * regression.q (regression_trns_proc): Fixed value counter n_vals
575         before calling *model->residual().
576
577 2006-04-19  Jason Stover  <jhs@math.gcsu.edu>
578
579         * regression.q (regression_trns_proc): Fixed the look-up of the
580         number of variables.
581
582 2006-04-18  Jason Stover  <jhs@math.gcsu.edu>
583
584         * regression.q (regression_trns_proc): Look up the residual
585         variable in the linear regression cache.
586
587         * regression.q (subcommand_save): Set the residual variable in the
588         linear regression cache.
589
590 2006-04-17  Jason Stover  <jason@wonko.gcsu.edu>
591
592         * regression.q (regression_trns_proc): Accept case_idx as an int
593         to match the definition of trns_proc_func.
594
595 2006-04-17  Jason Stover  <jhs@math.gcsu.edu>
596
597         * regression.q (regression_trns_proc): New function.
598
599         * regression.q (subcommand_save): Create variable residuals and
600         add a transformation to assign values to them. Also free the
601         linreg_cache if the SAVE command was not called. Removed the
602         casereading loop. Placed actual computation of residuals in
603         regression_trns_proc.
604
605         * regression.q (run_regression): Moved call to free
606         pspp_linreg_cache to subcommand_save.
607
608 Sat Apr 15 18:01:03 2006  Ben Pfaff  <blp@gnu.org>
609
610         * examine.q (output_examine): Add casts to fix warnings.
611
612 2006-04-07  Jason Stover  <jhs@math.gcsu.edu>
613
614         * regression.q (subcommand_save): New function.
615
616 2006-04-04  Jason Stover  <jhs@math.gcsu.edu>
617
618         * regression.q: New function reg_has_categorical () to tell
619         whether a pspp_linreg_struct was made with any variables of type
620         ALPHA.
621
622         * regression.q: (subcommand_export): Call
623         reg_print_categorical_encoding() only if the model uses any
624         categorical variables.
625
626 Mon Mar 27 16:00:42 2006  Ben Pfaff  <blp@gnu.org>
627
628         * crosstabs.q: (output_pivot_table) Drop spurious space from
629         message.
630
631 2006-03-15  Jason Stover  <jhs@math.gcsu.edu>
632
633         * regression.q: Added custom syntax parser for VARIABLES subcommand
634
635         * regression.q: Moved most instructions for run_regression ()
636         inside the loop over dependent variables.
637
638 Thu Mar  2 08:40:33 WST 2006 John Darrington <john@darrington.wattle.id.au>
639         
640         * Moved files from src directory