fda8c9356b103eba9325904b5baebb039c9421e5
[pspp-builds.git] / src / language / stats / ChangeLog
1 2007-12-07  Ben Pfaff  <blp@gnu.org>
2
3         Patch #6302.
4
5         * crosstabs.q (precalc): Initialize data structures even if the
6         first case cannot be read.  
7
8         * frequencies.q (precalc): Ditto.
9
10 2007-11-03  Ben Pfaff  <blp@gnu.org>
11
12         Allow output files to overwrite input files (bug #21280).
13
14         * aggregate.c (cmd_aggregate): Manage file handle reference
15         counts.
16
17         * correlations.q (internal_cmd_frequencies): Ditto.
18         (cor_custom_matrix): Ditto.
19
20         * regression.q (regression_custom_export): Ditto.
21         (cmd_regression): Ditto.
22
23 2007-10-12  Ben Pfaff  <blp@gnu.org>
24
25         * flip.c (flip_file): No need to conditionally substitute for
26         "fseeko" and "off_t" manually anymore, as gnulib takes care of it
27         for us.
28
29 2007-09-21  Jason Stover  <jhs@wonko.gcsu.edu>
30
31         * regression.q (run_regression): Partial fix of memory leak, bug
32         21056.
33
34 2007-09-19  Ben Pfaff  <blp@gnu.org>
35
36         Fix bug #21108.
37         
38         * aggregate.c (cmd_aggregate): Destroy casereader consistently,
39         even if casereader fails.
40
41         * examine.q (run_examine): Ditto.
42          
43         * glm.q (run_glm): Ditto.
44
45         * oneway.q (run_oneway): Ditto.
46
47         * regression.q (run_regression): Ditto.
48
49         * t-test.q (calculate): Ditto.
50
51         * descriptives.c (calc_descriptives): Ditto.  Also avoid
52         gratuitous casereader_clone.
53
54 2007-09-13  Jason Stover  <jhs@debs.hoobahooba.net>
55
56         * regression.q (cmd_regression): Move declaration of models in to
57         definition of cmd_regression.
58
59         * regression.q (run_regression): Free mom to fix memory leak.
60
61 2007-09-12  Ben Pfaff  <blp@gnu.org>
62
63         * crosstabs.q (postcalc): Free sorted_tab and the structures that
64         it points to, to plug a memory leak.  Fixes bug #20910.  Thanks to
65         John Darrington for reporting this bug and for review.
66
67 2007-09-04  Ben Pfaff  <blp@gnu.org>
68
69         * crosstabs.q (cmd_crosstabs): Free xtab and the structures that
70         it points to, to plug a memory leak.  Fixes bug #18315.
71
72 2007-08-15  Jason Stover  <jhs@wonko.gcsu.edu>
73
74         * regression.q (identify_indep_vars): Print an error if dependent
75         and independent variables are the same. Fixes bug 19819.
76
77 2007-08-12  Ben Pfaff  <blp@gnu.org>
78
79         * flip.c: Drop use of dict_get_compacted_dict_index_to_case_index
80         and just use the ordinary case indexes.  There seemed to be no
81         reason for the former method.
82
83 2007-08-03  Ben Pfaff  <blp@gnu.org>
84
85         * rank.q (rank_cmd): Instead of sorting by SPLIT FILE vars, group
86         by them.  Fixes bug #17239.
87         Reviewed by John Darrington.
88
89 2007-08-01  Ben Pfaff  <blp@gnu.org>
90
91         Clean up handling of median, by treating it almost like any other
92         percentile.  Fixes bug #17424.  Thanks to John Darrington for
93         review.
94         * frequencies.q (internal_cmd_frequencies): Fix handling of bit
95         masks for `stats' variable.  If median is selected, turn it off
96         and add a 50th percentile.
97         (add_percentile): Simplify code a little.
98         (calc_stats): Drop special casing of median.
99         (dump_statistics): Ditto, except that we label the 50th percentile
100         as "50 (Median)" to make it clear that it's also the median.    
101
102 2007-07-31  Ben Pfaff  <blp@gnu.org>
103
104         Remove integer mode from FREQUENCIES and incidentally fix bug
105         #17421.  Reviewed by John Darrington.
106         * frequencies.q (int_pool): Rename data_pool.
107         (gen_pool): Rename syntax_pool.
108         (enum FRQM_*): Removed.
109         (struct freq_tab): Removed `mode', `vector', `min', `max',
110         `out_of_range', `sysmis' members.
111         (calc): Delete support for integer mode.
112         (precalc): Ditto.
113         (postprocess_freq_tab): Ditto.
114         (cleanup_freq_tab): Ditto.
115         (frq_custom_variables): Ditto.
116
117 2007-07-28 John Darrington <john@darrington.wattle.id.au>
118
119         * t-test.q: Moved the order in which groups are displayed in the 
120         independent samples case, where a cut point is given.
121
122 2007-07-27  Ben Pfaff  <blp@gnu.org>
123
124         * regression.q (run_regression): Move casereader_destroy call so
125         that it always gets called, not just if there was some valid
126         data.  Fixes bug #19581.
127         Reviewed by Jason Stover.
128
129 2007-07-24  Ben Pfaff  <blp@gnu.org>
130
131         * flip.c (struct flip_pgm): Remove `case_size' member (now
132         unused).
133         (cmd_flip): Pass var_cnt as number of cases instead of case_cnt,
134         to fix bug #20494.  Don't assign to `case_size' member, which was
135         unused after assignment.
136         (build_dictionary): When NEWNAMES not used, get the number of
137         variables right, to fix bug #20493.
138
139 2007-07-10  Jason Stover  <jhs@math.gcsu.edu>
140
141         * glm.q: Initial version of the GLM procedure.
142
143 2007-06-06  Ben Pfaff  <blp@gnu.org>
144
145         Adapt case sources, sinks, and clients of procedure code to the
146         new infrastructure.
147         
148         * aggregate.c: Simplify greatly since everything is more uniform
149         now.
150
151         * autorecode.c: Adapt to new procedure code.
152         * binomial.c: Ditto.
153         * chisquare.c: Ditto.
154         * crosstabs.q: Ditto.
155         * descriptives.c: Ditto.
156         * examine.q: Ditto.
157         * npar-summary.c: Ditto.
158         * frequencies.q: Ditto.
159         * npar.q: Ditto.
160         * oneway.q: Ditto.
161         * regression.q: Ditto.
162         * sort-cases.c: Ditto.
163         * t-test.c: Ditto.
164
165         * sort-criteria.c: Rewrite to output a struct case_ordering.
166         
167         * flip.c: Rewrite to be a casereader.
168
169         * rank.q: Simplify greatly since casereaders are much more
170         flexible than what we had before.
171         
172 2007-05-15  Jason Stover  <jhs@math.gcsu.edu>
173
174         * regression.q (run_regression): Tell the user when the data
175         contain no valid cases.
176
177 2007-05-08  Jason Stover  <jhs@math.gcsu.edu>
178
179         * regression.q: Partial fix of bug which caused a crash if
180         dependent variable and independent variable were the same.
181
182 2007-04-16 John Darrington <john@darrington.wattle.id.au>
183
184         * t-test.q: Changed the output width of reported counts and 
185         degrees of freedom, to avoid truncating these values.  Thanks
186         to Seth Woolley for reporting this problem.  A proper fix involves
187         re-thinking the output driver.
188
189 2007-04-12  Jason Stover  <jhs@math.gcsu.edu>
190
191         * regression.q (run_regression): Added if (n_data >0) to fix bug
192         19581.
193
194 2007-03-29  Jason Stover  <jhs@math.gcsu.edu>
195
196         * regression.q (prepare_data): New function.
197
198         * regression.q (compute_moments): New function.
199
200 2007-03-18  Ben Pfaff  <blp@gnu.org>
201
202         * crosstabs.q (static var write): Rename write_style to avoid
203         conflict with POSIX function of same name.
204
205 2007-03-16  Jason Stover  <jhs@math.gcsu.edu>
206
207         * regression.q (run_regression): Added support for moments.
208
209 Sat Feb 17 08:16:00 2007  Ben Pfaff  <blp@gnu.org>
210
211         * flip.c (flip_sink_create): Improve error message when temporary
212         file cannot be created.
213
214 Tue Feb  6 19:58:03 2007  Ben Pfaff  <blp@gnu.org>
215
216         * flip.c (flip_file): Give better error message on end-of-file.
217
218 2007-02-04  Jason Stover  <jhs@math.gcsu.edu>
219
220         * regression.q: Fixed p-value computation in the test for
221         individual regression coefficients.
222
223 Mon Jan 15 11:03:20 2007  Ben Pfaff  <blp@gnu.org>
224
225         Fix bugs found by valgrind when --enable-debug is used with the
226         new case code.  These bugs are hidden when the data set is small
227         enough to find in memory; if a bigger data set that would overflow
228         to disk were used, then data corruption would occur.
229
230         * chisquare.c (create_freq_hash): Pass free_freq_mutable_hash to
231         hsh_create as free function.  Make copy of data put into hash.
232
233         * oneway.q (free_value): New function.
234         (run_oneway): Use free_value as arg to hsh_create.  Make copy of
235         data put into hash.
236
237         * rank.q (rank_cases): Don't access data in case after we've given
238         away the case.
239
240 Tue Jan  9 19:16:11 2007  Ben Pfaff  <blp@gnu.org>
241
242         Fix bug #18739.
243         
244         * aggregate.c (parse_aggregate_functions) Initialize
245         function_name.
246
247 Fri Dec 22 14:04:09 2006  Ben Pfaff  <blp@gnu.org>
248
249         Simplify missing value handling.
250         
251         * aggregate.c (struct agr_var): Remove `bool include_missing', add
252         `enum mv_class exclude'.  Remove `int missing', add `bool
253         saw_missing'.  Update users.
254
255         * descriptives.c (struct dsc_trns): Removed `int
256         include_user_missing', add `enum mv_class exclude'.  Update users.
257         (struct dsc_proc): Ditto.
258
259         * examine.q: (static var value_is_missing): Rename
260         `exclude_values', change type to `enum mv_class'.  Update users.
261
262         * rank.q: Ditto.
263
264 Fri Dec 22 19:22:18 WST 2006 John Darrington <john@darrington.wattle.id.au>
265
266         * frequencies.q : Fixed bug #17420, where the table bounds were overun
267         when /FORMAT=nolabels was given.
268
269 Wed Dec 20 18:45:31 WST 2006 John Darrington <john@darrington.wattle.id.au>
270
271         * binomial.c binomial.h : New files.  Thanks to Jason Stover 
272           for assistance with these.
273
274         * chisquare.c chisquare.h freq.c freq.h npar-summary.c npar-summary.h 
275           npar.h npar.q: New files.  Implementing NPAR TESTS.
276
277         * frequencies.q  : Moved  structure definitions into freq.[ch]
278
279 Sat Dec 16 22:26:44 2006  Ben Pfaff  <blp@gnu.org>
280
281         Make it possible to pull cases from the active file with a
282         function call, instead of requiring indirection through a callback
283         function.
284
285         * aggregate.c (cmd_aggregate): Take advantage of new procedure
286         interface.
287         (agr_to_active_file): Removed.
288         (presorted_agr_to_sysfile): Removed.
289
290         * autorecode.c (cmd_autorecode): Take advantage of new procedure
291         interface.
292         (autorecode_proc_func): Removed.
293
294         * flip.c (struct flip_pgm): New members to allow conformance with
295         new case_source_class interface.
296         (cmd_flip): Adapt to new case_source_class interface.
297         (flip_source_read): Ditto.
298         (flip_source_destroy): Ditto.
299
300 Sat Dec 16 12:54:27 2006  Ben Pfaff  <blp@gnu.org>
301
302         * rank.q (rank_custom_variables): Allow grouping variables to be
303         strings.  Fixes bug #18533.  Thanks to John Darrington for review.
304
305 Sat Dec  9 18:47:51 2006  Ben Pfaff  <blp@gnu.org>
306
307         * regression.q (is_depvar): Compare variable pointers instead of
308         variable names.
309
310 Thu Dec  7 15:26:25 WST 2006 John Darrington <john@darrington.wattle.id.au>
311
312         * examine.q: Allocated the categorical values for the dependent and 
313         independent variables, on the heap.  Hence they can be of any width.
314
315 Wed Dec  6 21:14:26 2006  Ben Pfaff  <blp@gnu.org>
316
317         * regression.q (reg_inserted): Compare variable pointers instead
318         of variable indexes.
319
320 Mon Dec  4 22:33:46 2006  Ben Pfaff  <blp@gnu.org>
321
322         * crosstabs.q (insert_summary): Use var_to_string for labeling.
323         (output_pivot_table) Ditto.
324         (submit) Ditto.
325
326         * frequencies.q (setup_z_trns): Ditto.
327         (dump_full) Ditto.
328         (dump_condensed) Ditto.
329         (dump_statistics) Ditto.
330         
331
332 Sun Nov  5 08:31:42 WST 2006 John Darrington <john@darrington.wattle.id.au>
333
334         * t-test.q, oneway.q: Changed to use the new casefilter structure.
335
336 Sat Oct 14 16:52:28 2006  Ben Pfaff  <blp@gnu.org>
337
338         * rank.q: (rank_sorted_casefile) Add some missing case_destroy()
339         calls to fix a memory leak.
340
341 Sun Oct  8 09:45:40 WST 2006 John Darrington <john@darrington.wattle.id.au>
342
343         * rank.q: Plugged a small memory leak which occurred under error
344         conditions.
345         
346 Sat Oct  7 11:06:01 WST 2006 John Darrington <john@darrington.wattle.id.au>
347
348         * rank.q: Implemented most of the RANK command.
349
350 2006-07-14  Jason Stover  <jhs@math.gcsu.edu>
351
352         * regression.q (run_regression): New function to move knowledge of
353         pspp_linreg_cache out of math/coefficient.[ch].
354
355 Sat Jul  1 17:41:46 2006  Ben Pfaff  <blp@gnu.org>
356
357         Fix bug #11612, "q2c documentation does not agree with code".
358         
359         * examine.q: Audit use of q2c "+" prefixes that indicate that a
360         command may appear multiple times.
361
362         * frequencies.q: Ditto.
363
364         * oneway.q: Ditto.
365
366         * regression.q: Ditto.
367
368         * t-test.q: Ditto.
369
370 Fri Jun 23 14:18:22 2006  Ben Pfaff  <blp@gnu.org>
371
372         Support long string variables on FREQUENCIES, as
373         an extension when in enhanced algorithms mode.  For Greg Hunt
374         <greg@firmansyah.com>.
375         
376         * frequencies.q: (struct freq) Change `v' member from union value
377         to union value *.  Update all references.
378         (struct var_freqs) Add width, print members to represent effective
379         variable width and display format.
380         (calc) Copy entire long string value into the hash table.
381         (frq_custom_variables) Set new width, print members.
382         (hash_value_alpha) Get width from var_freqs.
383         (compare_value_alpha_a) Ditto.
384         (compare_freq_alpha_a) Ditto.
385         (compare_freq_alpha_d) Ditto.
386         (dump_full) Get display format from var_freqs.
387         (dump_condensed) Ditto.
388
389 Mon Jun 19 22:07:13 2006  Ben Pfaff  <blp@gnu.org>
390
391         * frequencies.q: (dump_full) Only put the first MAX_SHORT_STRING
392         bytes of string variables into the output cells, seeing as we only
393         copy that many.
394         (dump_condensed) Ditto.
395
396 Mon Jun 19 21:52:05 2006  Ben Pfaff  <blp@gnu.org>
397
398         Fixes a bug reported by Greg Hunt <greg@firmansyah.com>.
399         
400         * frequencies.q: (hsh_hash_bytes) We only copy the first
401         MAX_SHORT_STRING bytes of string variables, so we must only
402         compare that many bytes, even if the string variable is longer.
403         (compare_value_alpha_a) Ditto.
404         (compare_freq_alpha_a) Ditto.
405         (compare_freq_alpha_d) Ditto.
406
407 2006-05-11  Jason Stover  <jhs@math.gcsu.edu>
408
409         * regression.q: Adjusted code to account for cache->coeff being a
410         pspp_linreg_coeff **.
411
412 Sun May  7 18:31:25 2006  Ben Pfaff  <blp@gnu.org>
413
414         Fix memory leak.
415         
416         * aggregate.c (cmd_aggregate): Free default_dict before replacing
417         it.
418
419 Sun May  7 17:09:19 2006  Ben Pfaff  <blp@gnu.org>
420
421         * flip.c (flip_file): Check return value of pool_fclose().
422
423 Sat May  6 16:00:13 2006  Ben Pfaff  <blp@gnu.org>
424
425         Get rid of `char *c' member in union value, for cleanliness.
426         
427         * aggregate.c: (union agr_argument) New union.
428         (struct agr_var) Change element type of arg[] from union value to
429         union agr_argument.
430         (parse_aggregate_functions) Change local variable types likewise.
431
432         * autorecode.c: (union arc_value) New union.
433         (struct arc_item) Change "from" from union value to union
434         arc_value.
435         (recode) Change local variable from union value to union
436         arc_value.
437         (autorecode_trns_proc) Ditto.
438         (compare_alpha_value) Ditto.
439         (hash_alpha_value) Ditto.
440         (compare_numeric_value) Ditto.
441         (hash_numeric_value) Ditto.
442         (autorecode_proc_func) Ditto.
443
444 Sat May  6 10:43:33 2006  Ben Pfaff  <blp@gnu.org>
445
446         Continue reforming procedure execution.  In this phase, get rid of
447         the output code for SPLIT FILE groups in procedure.c, which really
448         shouldn't be doing any output.  Move it into the individual
449         procedures instead.  This also adds some flexibility.
450
451         * crosstabs.q (precalc): Call output_split_file_values().
452
453         * descriptives.c (calc_descriptives): Ditto.
454
455         * examine.q (run_examine): Ditto.
456         
457         * frequencies.q (precalc): Ditto.
458
459         * oneway.q (run_oneway): Ditto.
460
461         * regression.q (run_regression): Ditto.
462
463         * t-test.q (calculate): Ditto.
464
465 Wed May  3 23:05:31 2006  Ben Pfaff  <blp@gnu.org>
466
467         Continue reforming procedure execution.  In this phase, get rid of
468         many global variables, consolidating procedure execution in
469         procedure.c.  Encapsulate transformations in new "struct
470         trns_chain".  Also, change implementation of N OF CASES, FILTER,
471         and PROCESS IF from special cases to transformations.
472          
473         * aggregate.c (cmd_aggregate) Use discard_variables().
474         
475 2006-04-28  Jason Stover  <jhs@math.gcsu.edu>
476
477         * regression.q (regression_trns_resid_proc): Pass only the
478         variables used in the model to (*model->residual)().
479
480         * regression.q (regression_trns_pred_proc): Pass only the
481         variables used in the model to (*model->pred)().
482
483 2006-04-26  Jason Stover  <jhs@math.gcsu.edu>
484
485         * regression.q: Added support for multiple transformations.
486         
487         * regression.q (regression_trns_resid_proc): New function.
488
489         * regression.q (regression_trns_pred_proc): New function.
490
491         * regression.q (subcommand_save): Added support for saving
492         predicted values.
493
494         * regression.q (regression_trns_free): New function. 
495
496         * regression.q (reg_get_name): New function.
497
498         * regression.q (reg_save_var): New function.
499
500 Tue Apr 25 13:18:56 2006  Ben Pfaff  <blp@gnu.org>
501
502         * rank.q (parse_rank_function): Use SE instead of ME for parse
503         errors.
504
505 Tue Apr 25 13:16:28 2006  Ben Pfaff  <blp@gnu.org>
506
507         * flip.c (flip_sink_write): Use snprintf() to simplify a bit of
508         code.
509
510 2006-04-21  Jason Stover  <jhs@math.gcsu.edu>
511
512         * regression.q (try_name): New function. (Partly copied from
513         try_name in descriptives.c.)
514
515         * regression.q (subcommand_save): Choose residual variable names
516         correctly. 
517
518 2006-04-20  Jason Stover  <jhs@math.gcsu.edu>
519
520         * regression.q (cmd_regression): Moved call to subcommand_save()
521         outside multipass_procedure_with_splits().
522         
523         * regression.q (regression_trns_proc): Fixed value counter n_vals
524         before calling *model->residual().
525
526 2006-04-19  Jason Stover  <jhs@math.gcsu.edu>
527
528         * regression.q (regression_trns_proc): Fixed the look-up of the
529         number of variables.
530
531 2006-04-18  Jason Stover  <jhs@math.gcsu.edu>
532
533         * regression.q (regression_trns_proc): Look up the residual
534         variable in the linear regression cache.
535
536         * regression.q (subcommand_save): Set the residual variable in the
537         linear regression cache.
538
539 2006-04-17  Jason Stover  <jason@wonko.gcsu.edu>
540
541         * regression.q (regression_trns_proc): Accept case_idx as an int
542         to match the definition of trns_proc_func.
543
544 2006-04-17  Jason Stover  <jhs@math.gcsu.edu>
545
546         * regression.q (regression_trns_proc): New function.
547
548         * regression.q (subcommand_save): Create variable residuals and
549         add a transformation to assign values to them. Also free the
550         linreg_cache if the SAVE command was not called. Removed the
551         casereading loop. Placed actual computation of residuals in
552         regression_trns_proc.
553
554         * regression.q (run_regression): Moved call to free
555         pspp_linreg_cache to subcommand_save.
556
557 Sat Apr 15 18:01:03 2006  Ben Pfaff  <blp@gnu.org>
558
559         * examine.q (output_examine): Add casts to fix warnings.
560
561 2006-04-07  Jason Stover  <jhs@math.gcsu.edu>
562
563         * regression.q (subcommand_save): New function.
564
565 2006-04-04  Jason Stover  <jhs@math.gcsu.edu>
566
567         * regression.q: New function reg_has_categorical () to tell
568         whether a pspp_linreg_struct was made with any variables of type
569         ALPHA.
570
571         * regression.q: (subcommand_export): Call
572         reg_print_categorical_encoding() only if the model uses any
573         categorical variables.
574
575 Mon Mar 27 16:00:42 2006  Ben Pfaff  <blp@gnu.org>
576
577         * crosstabs.q: (output_pivot_table) Drop spurious space from
578         message.
579
580 2006-03-15  Jason Stover  <jhs@math.gcsu.edu>
581
582         * regression.q: Added custom syntax parser for VARIABLES subcommand
583
584         * regression.q: Moved most instructions for run_regression ()
585         inside the loop over dependent variables.
586
587 Thu Mar  2 08:40:33 WST 2006 John Darrington <john@darrington.wattle.id.au>
588         
589         * Moved files from src directory