Closes patch #6359
[pspp-builds.git] / src / language / stats / ChangeLog
1 2008-01-02  John Darrington <john@darrington.wattle.id.au>
2
3         *  binomial.c chisquare.c examine.q frequencies.q oneway.q regression.q : updated
4         all users of var_get_value_name to use replacement function var_append_value_name.
5
6 2007-12-07  Ben Pfaff  <blp@gnu.org>
7
8         Patch #6302.
9
10         * crosstabs.q (precalc): Initialize data structures even if the
11         first case cannot be read.  
12
13         * frequencies.q (precalc): Ditto.
14
15 2007-11-03  Ben Pfaff  <blp@gnu.org>
16
17         Allow output files to overwrite input files (bug #21280).
18
19         * aggregate.c (cmd_aggregate): Manage file handle reference
20         counts.
21
22         * correlations.q (internal_cmd_frequencies): Ditto.
23         (cor_custom_matrix): Ditto.
24
25         * regression.q (regression_custom_export): Ditto.
26         (cmd_regression): Ditto.
27
28 2007-10-12  Ben Pfaff  <blp@gnu.org>
29
30         * flip.c (flip_file): No need to conditionally substitute for
31         "fseeko" and "off_t" manually anymore, as gnulib takes care of it
32         for us.
33
34 2007-09-21  Jason Stover  <jhs@wonko.gcsu.edu>
35
36         * regression.q (run_regression): Partial fix of memory leak, bug
37         21056.
38
39 2007-09-19  Ben Pfaff  <blp@gnu.org>
40
41         Fix bug #21108.
42         
43         * aggregate.c (cmd_aggregate): Destroy casereader consistently,
44         even if casereader fails.
45
46         * examine.q (run_examine): Ditto.
47          
48         * glm.q (run_glm): Ditto.
49
50         * oneway.q (run_oneway): Ditto.
51
52         * regression.q (run_regression): Ditto.
53
54         * t-test.q (calculate): Ditto.
55
56         * descriptives.c (calc_descriptives): Ditto.  Also avoid
57         gratuitous casereader_clone.
58
59 2007-09-13  Jason Stover  <jhs@debs.hoobahooba.net>
60
61         * regression.q (cmd_regression): Move declaration of models in to
62         definition of cmd_regression.
63
64         * regression.q (run_regression): Free mom to fix memory leak.
65
66 2007-09-12  Ben Pfaff  <blp@gnu.org>
67
68         * crosstabs.q (postcalc): Free sorted_tab and the structures that
69         it points to, to plug a memory leak.  Fixes bug #20910.  Thanks to
70         John Darrington for reporting this bug and for review.
71
72 2007-09-04  Ben Pfaff  <blp@gnu.org>
73
74         * crosstabs.q (cmd_crosstabs): Free xtab and the structures that
75         it points to, to plug a memory leak.  Fixes bug #18315.
76
77 2007-08-15  Jason Stover  <jhs@wonko.gcsu.edu>
78
79         * regression.q (identify_indep_vars): Print an error if dependent
80         and independent variables are the same. Fixes bug 19819.
81
82 2007-08-12  Ben Pfaff  <blp@gnu.org>
83
84         * flip.c: Drop use of dict_get_compacted_dict_index_to_case_index
85         and just use the ordinary case indexes.  There seemed to be no
86         reason for the former method.
87
88 2007-08-03  Ben Pfaff  <blp@gnu.org>
89
90         * rank.q (rank_cmd): Instead of sorting by SPLIT FILE vars, group
91         by them.  Fixes bug #17239.
92         Reviewed by John Darrington.
93
94 2007-08-01  Ben Pfaff  <blp@gnu.org>
95
96         Clean up handling of median, by treating it almost like any other
97         percentile.  Fixes bug #17424.  Thanks to John Darrington for
98         review.
99         * frequencies.q (internal_cmd_frequencies): Fix handling of bit
100         masks for `stats' variable.  If median is selected, turn it off
101         and add a 50th percentile.
102         (add_percentile): Simplify code a little.
103         (calc_stats): Drop special casing of median.
104         (dump_statistics): Ditto, except that we label the 50th percentile
105         as "50 (Median)" to make it clear that it's also the median.    
106
107 2007-07-31  Ben Pfaff  <blp@gnu.org>
108
109         Remove integer mode from FREQUENCIES and incidentally fix bug
110         #17421.  Reviewed by John Darrington.
111         * frequencies.q (int_pool): Rename data_pool.
112         (gen_pool): Rename syntax_pool.
113         (enum FRQM_*): Removed.
114         (struct freq_tab): Removed `mode', `vector', `min', `max',
115         `out_of_range', `sysmis' members.
116         (calc): Delete support for integer mode.
117         (precalc): Ditto.
118         (postprocess_freq_tab): Ditto.
119         (cleanup_freq_tab): Ditto.
120         (frq_custom_variables): Ditto.
121
122 2007-07-28 John Darrington <john@darrington.wattle.id.au>
123
124         * t-test.q: Moved the order in which groups are displayed in the 
125         independent samples case, where a cut point is given.
126
127 2007-07-27  Ben Pfaff  <blp@gnu.org>
128
129         * regression.q (run_regression): Move casereader_destroy call so
130         that it always gets called, not just if there was some valid
131         data.  Fixes bug #19581.
132         Reviewed by Jason Stover.
133
134 2007-07-24  Ben Pfaff  <blp@gnu.org>
135
136         * flip.c (struct flip_pgm): Remove `case_size' member (now
137         unused).
138         (cmd_flip): Pass var_cnt as number of cases instead of case_cnt,
139         to fix bug #20494.  Don't assign to `case_size' member, which was
140         unused after assignment.
141         (build_dictionary): When NEWNAMES not used, get the number of
142         variables right, to fix bug #20493.
143
144 2007-07-10  Jason Stover  <jhs@math.gcsu.edu>
145
146         * glm.q: Initial version of the GLM procedure.
147
148 2007-06-06  Ben Pfaff  <blp@gnu.org>
149
150         Adapt case sources, sinks, and clients of procedure code to the
151         new infrastructure.
152         
153         * aggregate.c: Simplify greatly since everything is more uniform
154         now.
155
156         * autorecode.c: Adapt to new procedure code.
157         * binomial.c: Ditto.
158         * chisquare.c: Ditto.
159         * crosstabs.q: Ditto.
160         * descriptives.c: Ditto.
161         * examine.q: Ditto.
162         * npar-summary.c: Ditto.
163         * frequencies.q: Ditto.
164         * npar.q: Ditto.
165         * oneway.q: Ditto.
166         * regression.q: Ditto.
167         * sort-cases.c: Ditto.
168         * t-test.c: Ditto.
169
170         * sort-criteria.c: Rewrite to output a struct case_ordering.
171         
172         * flip.c: Rewrite to be a casereader.
173
174         * rank.q: Simplify greatly since casereaders are much more
175         flexible than what we had before.
176         
177 2007-05-15  Jason Stover  <jhs@math.gcsu.edu>
178
179         * regression.q (run_regression): Tell the user when the data
180         contain no valid cases.
181
182 2007-05-08  Jason Stover  <jhs@math.gcsu.edu>
183
184         * regression.q: Partial fix of bug which caused a crash if
185         dependent variable and independent variable were the same.
186
187 2007-04-16 John Darrington <john@darrington.wattle.id.au>
188
189         * t-test.q: Changed the output width of reported counts and 
190         degrees of freedom, to avoid truncating these values.  Thanks
191         to Seth Woolley for reporting this problem.  A proper fix involves
192         re-thinking the output driver.
193
194 2007-04-12  Jason Stover  <jhs@math.gcsu.edu>
195
196         * regression.q (run_regression): Added if (n_data >0) to fix bug
197         19581.
198
199 2007-03-29  Jason Stover  <jhs@math.gcsu.edu>
200
201         * regression.q (prepare_data): New function.
202
203         * regression.q (compute_moments): New function.
204
205 2007-03-18  Ben Pfaff  <blp@gnu.org>
206
207         * crosstabs.q (static var write): Rename write_style to avoid
208         conflict with POSIX function of same name.
209
210 2007-03-16  Jason Stover  <jhs@math.gcsu.edu>
211
212         * regression.q (run_regression): Added support for moments.
213
214 Sat Feb 17 08:16:00 2007  Ben Pfaff  <blp@gnu.org>
215
216         * flip.c (flip_sink_create): Improve error message when temporary
217         file cannot be created.
218
219 Tue Feb  6 19:58:03 2007  Ben Pfaff  <blp@gnu.org>
220
221         * flip.c (flip_file): Give better error message on end-of-file.
222
223 2007-02-04  Jason Stover  <jhs@math.gcsu.edu>
224
225         * regression.q: Fixed p-value computation in the test for
226         individual regression coefficients.
227
228 Mon Jan 15 11:03:20 2007  Ben Pfaff  <blp@gnu.org>
229
230         Fix bugs found by valgrind when --enable-debug is used with the
231         new case code.  These bugs are hidden when the data set is small
232         enough to find in memory; if a bigger data set that would overflow
233         to disk were used, then data corruption would occur.
234
235         * chisquare.c (create_freq_hash): Pass free_freq_mutable_hash to
236         hsh_create as free function.  Make copy of data put into hash.
237
238         * oneway.q (free_value): New function.
239         (run_oneway): Use free_value as arg to hsh_create.  Make copy of
240         data put into hash.
241
242         * rank.q (rank_cases): Don't access data in case after we've given
243         away the case.
244
245 Tue Jan  9 19:16:11 2007  Ben Pfaff  <blp@gnu.org>
246
247         Fix bug #18739.
248         
249         * aggregate.c (parse_aggregate_functions) Initialize
250         function_name.
251
252 Fri Dec 22 14:04:09 2006  Ben Pfaff  <blp@gnu.org>
253
254         Simplify missing value handling.
255         
256         * aggregate.c (struct agr_var): Remove `bool include_missing', add
257         `enum mv_class exclude'.  Remove `int missing', add `bool
258         saw_missing'.  Update users.
259
260         * descriptives.c (struct dsc_trns): Removed `int
261         include_user_missing', add `enum mv_class exclude'.  Update users.
262         (struct dsc_proc): Ditto.
263
264         * examine.q: (static var value_is_missing): Rename
265         `exclude_values', change type to `enum mv_class'.  Update users.
266
267         * rank.q: Ditto.
268
269 Fri Dec 22 19:22:18 WST 2006 John Darrington <john@darrington.wattle.id.au>
270
271         * frequencies.q : Fixed bug #17420, where the table bounds were overun
272         when /FORMAT=nolabels was given.
273
274 Wed Dec 20 18:45:31 WST 2006 John Darrington <john@darrington.wattle.id.au>
275
276         * binomial.c binomial.h : New files.  Thanks to Jason Stover 
277           for assistance with these.
278
279         * chisquare.c chisquare.h freq.c freq.h npar-summary.c npar-summary.h 
280           npar.h npar.q: New files.  Implementing NPAR TESTS.
281
282         * frequencies.q  : Moved  structure definitions into freq.[ch]
283
284 Sat Dec 16 22:26:44 2006  Ben Pfaff  <blp@gnu.org>
285
286         Make it possible to pull cases from the active file with a
287         function call, instead of requiring indirection through a callback
288         function.
289
290         * aggregate.c (cmd_aggregate): Take advantage of new procedure
291         interface.
292         (agr_to_active_file): Removed.
293         (presorted_agr_to_sysfile): Removed.
294
295         * autorecode.c (cmd_autorecode): Take advantage of new procedure
296         interface.
297         (autorecode_proc_func): Removed.
298
299         * flip.c (struct flip_pgm): New members to allow conformance with
300         new case_source_class interface.
301         (cmd_flip): Adapt to new case_source_class interface.
302         (flip_source_read): Ditto.
303         (flip_source_destroy): Ditto.
304
305 Sat Dec 16 12:54:27 2006  Ben Pfaff  <blp@gnu.org>
306
307         * rank.q (rank_custom_variables): Allow grouping variables to be
308         strings.  Fixes bug #18533.  Thanks to John Darrington for review.
309
310 Sat Dec  9 18:47:51 2006  Ben Pfaff  <blp@gnu.org>
311
312         * regression.q (is_depvar): Compare variable pointers instead of
313         variable names.
314
315 Thu Dec  7 15:26:25 WST 2006 John Darrington <john@darrington.wattle.id.au>
316
317         * examine.q: Allocated the categorical values for the dependent and 
318         independent variables, on the heap.  Hence they can be of any width.
319
320 Wed Dec  6 21:14:26 2006  Ben Pfaff  <blp@gnu.org>
321
322         * regression.q (reg_inserted): Compare variable pointers instead
323         of variable indexes.
324
325 Mon Dec  4 22:33:46 2006  Ben Pfaff  <blp@gnu.org>
326
327         * crosstabs.q (insert_summary): Use var_to_string for labeling.
328         (output_pivot_table) Ditto.
329         (submit) Ditto.
330
331         * frequencies.q (setup_z_trns): Ditto.
332         (dump_full) Ditto.
333         (dump_condensed) Ditto.
334         (dump_statistics) Ditto.
335         
336
337 Sun Nov  5 08:31:42 WST 2006 John Darrington <john@darrington.wattle.id.au>
338
339         * t-test.q, oneway.q: Changed to use the new casefilter structure.
340
341 Sat Oct 14 16:52:28 2006  Ben Pfaff  <blp@gnu.org>
342
343         * rank.q: (rank_sorted_casefile) Add some missing case_destroy()
344         calls to fix a memory leak.
345
346 Sun Oct  8 09:45:40 WST 2006 John Darrington <john@darrington.wattle.id.au>
347
348         * rank.q: Plugged a small memory leak which occurred under error
349         conditions.
350         
351 Sat Oct  7 11:06:01 WST 2006 John Darrington <john@darrington.wattle.id.au>
352
353         * rank.q: Implemented most of the RANK command.
354
355 2006-07-14  Jason Stover  <jhs@math.gcsu.edu>
356
357         * regression.q (run_regression): New function to move knowledge of
358         pspp_linreg_cache out of math/coefficient.[ch].
359
360 Sat Jul  1 17:41:46 2006  Ben Pfaff  <blp@gnu.org>
361
362         Fix bug #11612, "q2c documentation does not agree with code".
363         
364         * examine.q: Audit use of q2c "+" prefixes that indicate that a
365         command may appear multiple times.
366
367         * frequencies.q: Ditto.
368
369         * oneway.q: Ditto.
370
371         * regression.q: Ditto.
372
373         * t-test.q: Ditto.
374
375 Fri Jun 23 14:18:22 2006  Ben Pfaff  <blp@gnu.org>
376
377         Support long string variables on FREQUENCIES, as
378         an extension when in enhanced algorithms mode.  For Greg Hunt
379         <greg@firmansyah.com>.
380         
381         * frequencies.q: (struct freq) Change `v' member from union value
382         to union value *.  Update all references.
383         (struct var_freqs) Add width, print members to represent effective
384         variable width and display format.
385         (calc) Copy entire long string value into the hash table.
386         (frq_custom_variables) Set new width, print members.
387         (hash_value_alpha) Get width from var_freqs.
388         (compare_value_alpha_a) Ditto.
389         (compare_freq_alpha_a) Ditto.
390         (compare_freq_alpha_d) Ditto.
391         (dump_full) Get display format from var_freqs.
392         (dump_condensed) Ditto.
393
394 Mon Jun 19 22:07:13 2006  Ben Pfaff  <blp@gnu.org>
395
396         * frequencies.q: (dump_full) Only put the first MAX_SHORT_STRING
397         bytes of string variables into the output cells, seeing as we only
398         copy that many.
399         (dump_condensed) Ditto.
400
401 Mon Jun 19 21:52:05 2006  Ben Pfaff  <blp@gnu.org>
402
403         Fixes a bug reported by Greg Hunt <greg@firmansyah.com>.
404         
405         * frequencies.q: (hsh_hash_bytes) We only copy the first
406         MAX_SHORT_STRING bytes of string variables, so we must only
407         compare that many bytes, even if the string variable is longer.
408         (compare_value_alpha_a) Ditto.
409         (compare_freq_alpha_a) Ditto.
410         (compare_freq_alpha_d) Ditto.
411
412 2006-05-11  Jason Stover  <jhs@math.gcsu.edu>
413
414         * regression.q: Adjusted code to account for cache->coeff being a
415         pspp_linreg_coeff **.
416
417 Sun May  7 18:31:25 2006  Ben Pfaff  <blp@gnu.org>
418
419         Fix memory leak.
420         
421         * aggregate.c (cmd_aggregate): Free default_dict before replacing
422         it.
423
424 Sun May  7 17:09:19 2006  Ben Pfaff  <blp@gnu.org>
425
426         * flip.c (flip_file): Check return value of pool_fclose().
427
428 Sat May  6 16:00:13 2006  Ben Pfaff  <blp@gnu.org>
429
430         Get rid of `char *c' member in union value, for cleanliness.
431         
432         * aggregate.c: (union agr_argument) New union.
433         (struct agr_var) Change element type of arg[] from union value to
434         union agr_argument.
435         (parse_aggregate_functions) Change local variable types likewise.
436
437         * autorecode.c: (union arc_value) New union.
438         (struct arc_item) Change "from" from union value to union
439         arc_value.
440         (recode) Change local variable from union value to union
441         arc_value.
442         (autorecode_trns_proc) Ditto.
443         (compare_alpha_value) Ditto.
444         (hash_alpha_value) Ditto.
445         (compare_numeric_value) Ditto.
446         (hash_numeric_value) Ditto.
447         (autorecode_proc_func) Ditto.
448
449 Sat May  6 10:43:33 2006  Ben Pfaff  <blp@gnu.org>
450
451         Continue reforming procedure execution.  In this phase, get rid of
452         the output code for SPLIT FILE groups in procedure.c, which really
453         shouldn't be doing any output.  Move it into the individual
454         procedures instead.  This also adds some flexibility.
455
456         * crosstabs.q (precalc): Call output_split_file_values().
457
458         * descriptives.c (calc_descriptives): Ditto.
459
460         * examine.q (run_examine): Ditto.
461         
462         * frequencies.q (precalc): Ditto.
463
464         * oneway.q (run_oneway): Ditto.
465
466         * regression.q (run_regression): Ditto.
467
468         * t-test.q (calculate): Ditto.
469
470 Wed May  3 23:05:31 2006  Ben Pfaff  <blp@gnu.org>
471
472         Continue reforming procedure execution.  In this phase, get rid of
473         many global variables, consolidating procedure execution in
474         procedure.c.  Encapsulate transformations in new "struct
475         trns_chain".  Also, change implementation of N OF CASES, FILTER,
476         and PROCESS IF from special cases to transformations.
477          
478         * aggregate.c (cmd_aggregate) Use discard_variables().
479         
480 2006-04-28  Jason Stover  <jhs@math.gcsu.edu>
481
482         * regression.q (regression_trns_resid_proc): Pass only the
483         variables used in the model to (*model->residual)().
484
485         * regression.q (regression_trns_pred_proc): Pass only the
486         variables used in the model to (*model->pred)().
487
488 2006-04-26  Jason Stover  <jhs@math.gcsu.edu>
489
490         * regression.q: Added support for multiple transformations.
491         
492         * regression.q (regression_trns_resid_proc): New function.
493
494         * regression.q (regression_trns_pred_proc): New function.
495
496         * regression.q (subcommand_save): Added support for saving
497         predicted values.
498
499         * regression.q (regression_trns_free): New function. 
500
501         * regression.q (reg_get_name): New function.
502
503         * regression.q (reg_save_var): New function.
504
505 Tue Apr 25 13:18:56 2006  Ben Pfaff  <blp@gnu.org>
506
507         * rank.q (parse_rank_function): Use SE instead of ME for parse
508         errors.
509
510 Tue Apr 25 13:16:28 2006  Ben Pfaff  <blp@gnu.org>
511
512         * flip.c (flip_sink_write): Use snprintf() to simplify a bit of
513         code.
514
515 2006-04-21  Jason Stover  <jhs@math.gcsu.edu>
516
517         * regression.q (try_name): New function. (Partly copied from
518         try_name in descriptives.c.)
519
520         * regression.q (subcommand_save): Choose residual variable names
521         correctly. 
522
523 2006-04-20  Jason Stover  <jhs@math.gcsu.edu>
524
525         * regression.q (cmd_regression): Moved call to subcommand_save()
526         outside multipass_procedure_with_splits().
527         
528         * regression.q (regression_trns_proc): Fixed value counter n_vals
529         before calling *model->residual().
530
531 2006-04-19  Jason Stover  <jhs@math.gcsu.edu>
532
533         * regression.q (regression_trns_proc): Fixed the look-up of the
534         number of variables.
535
536 2006-04-18  Jason Stover  <jhs@math.gcsu.edu>
537
538         * regression.q (regression_trns_proc): Look up the residual
539         variable in the linear regression cache.
540
541         * regression.q (subcommand_save): Set the residual variable in the
542         linear regression cache.
543
544 2006-04-17  Jason Stover  <jason@wonko.gcsu.edu>
545
546         * regression.q (regression_trns_proc): Accept case_idx as an int
547         to match the definition of trns_proc_func.
548
549 2006-04-17  Jason Stover  <jhs@math.gcsu.edu>
550
551         * regression.q (regression_trns_proc): New function.
552
553         * regression.q (subcommand_save): Create variable residuals and
554         add a transformation to assign values to them. Also free the
555         linreg_cache if the SAVE command was not called. Removed the
556         casereading loop. Placed actual computation of residuals in
557         regression_trns_proc.
558
559         * regression.q (run_regression): Moved call to free
560         pspp_linreg_cache to subcommand_save.
561
562 Sat Apr 15 18:01:03 2006  Ben Pfaff  <blp@gnu.org>
563
564         * examine.q (output_examine): Add casts to fix warnings.
565
566 2006-04-07  Jason Stover  <jhs@math.gcsu.edu>
567
568         * regression.q (subcommand_save): New function.
569
570 2006-04-04  Jason Stover  <jhs@math.gcsu.edu>
571
572         * regression.q: New function reg_has_categorical () to tell
573         whether a pspp_linreg_struct was made with any variables of type
574         ALPHA.
575
576         * regression.q: (subcommand_export): Call
577         reg_print_categorical_encoding() only if the model uses any
578         categorical variables.
579
580 Mon Mar 27 16:00:42 2006  Ben Pfaff  <blp@gnu.org>
581
582         * crosstabs.q: (output_pivot_table) Drop spurious space from
583         message.
584
585 2006-03-15  Jason Stover  <jhs@math.gcsu.edu>
586
587         * regression.q: Added custom syntax parser for VARIABLES subcommand
588
589         * regression.q: Moved most instructions for run_regression ()
590         inside the loop over dependent variables.
591
592 Thu Mar  2 08:40:33 WST 2006 John Darrington <john@darrington.wattle.id.au>
593         
594         * Moved files from src directory