92a01000496f5c00b1eda3ef6feafc7716876cbd
[pspp-builds.git] / src / language / stats / ChangeLog
1 2008-03-16  Ben Pfaff  <blp@gnu.org>
2
3         Bug #22037.  Thanks to John Darrington for reporting this bug.
4         
5         * crosstabs.q (calc_general): Only the short string prefix of long
6         string variables are tabulated, so we must not copy or zero out
7         more data than that.
8
9 2008-03-10  Jason Stover  <jhs@debs.hoobahooba.net>
10
11         * regression.q (run_regression): Removed code for EXPORT
12         subcommand. Remove use of coefficient 0 as the intercept.
13
14 2008-02-14  John Darrington <john@darrington.wattle.id.au>
15
16         * examine.q: Fixed counts of missing variables.  Thanks to 
17         Jason Stover for reporting this problem.
18
19 2008-01-02  John Darrington <john@darrington.wattle.id.au>
20
21         *  binomial.c chisquare.c examine.q frequencies.q oneway.q regression.q : updated
22         all users of var_get_value_name to use replacement function var_append_value_name.
23
24 2007-12-07  Ben Pfaff  <blp@gnu.org>
25
26         Patch #6302.
27
28         * crosstabs.q (precalc): Initialize data structures even if the
29         first case cannot be read.  
30
31         * frequencies.q (precalc): Ditto.
32
33 2007-11-03  Ben Pfaff  <blp@gnu.org>
34
35         Allow output files to overwrite input files (bug #21280).
36
37         * aggregate.c (cmd_aggregate): Manage file handle reference
38         counts.
39
40         * correlations.q (internal_cmd_frequencies): Ditto.
41         (cor_custom_matrix): Ditto.
42
43         * regression.q (regression_custom_export): Ditto.
44         (cmd_regression): Ditto.
45
46 2007-10-12  Ben Pfaff  <blp@gnu.org>
47
48         * flip.c (flip_file): No need to conditionally substitute for
49         "fseeko" and "off_t" manually anymore, as gnulib takes care of it
50         for us.
51
52 2007-09-21  Jason Stover  <jhs@wonko.gcsu.edu>
53
54         * regression.q (run_regression): Partial fix of memory leak, bug
55         21056.
56
57 2007-09-19  Ben Pfaff  <blp@gnu.org>
58
59         Fix bug #21108.
60         
61         * aggregate.c (cmd_aggregate): Destroy casereader consistently,
62         even if casereader fails.
63
64         * examine.q (run_examine): Ditto.
65          
66         * glm.q (run_glm): Ditto.
67
68         * oneway.q (run_oneway): Ditto.
69
70         * regression.q (run_regression): Ditto.
71
72         * t-test.q (calculate): Ditto.
73
74         * descriptives.c (calc_descriptives): Ditto.  Also avoid
75         gratuitous casereader_clone.
76
77 2007-09-13  Jason Stover  <jhs@debs.hoobahooba.net>
78
79         * regression.q (cmd_regression): Move declaration of models in to
80         definition of cmd_regression.
81
82         * regression.q (run_regression): Free mom to fix memory leak.
83
84 2007-09-12  Ben Pfaff  <blp@gnu.org>
85
86         * crosstabs.q (postcalc): Free sorted_tab and the structures that
87         it points to, to plug a memory leak.  Fixes bug #20910.  Thanks to
88         John Darrington for reporting this bug and for review.
89
90 2007-09-04  Ben Pfaff  <blp@gnu.org>
91
92         * crosstabs.q (cmd_crosstabs): Free xtab and the structures that
93         it points to, to plug a memory leak.  Fixes bug #18315.
94
95 2007-08-15  Jason Stover  <jhs@wonko.gcsu.edu>
96
97         * regression.q (identify_indep_vars): Print an error if dependent
98         and independent variables are the same. Fixes bug 19819.
99
100 2007-08-12  Ben Pfaff  <blp@gnu.org>
101
102         * flip.c: Drop use of dict_get_compacted_dict_index_to_case_index
103         and just use the ordinary case indexes.  There seemed to be no
104         reason for the former method.
105
106 2007-08-03  Ben Pfaff  <blp@gnu.org>
107
108         * rank.q (rank_cmd): Instead of sorting by SPLIT FILE vars, group
109         by them.  Fixes bug #17239.
110         Reviewed by John Darrington.
111
112 2007-08-01  Ben Pfaff  <blp@gnu.org>
113
114         Clean up handling of median, by treating it almost like any other
115         percentile.  Fixes bug #17424.  Thanks to John Darrington for
116         review.
117         * frequencies.q (internal_cmd_frequencies): Fix handling of bit
118         masks for `stats' variable.  If median is selected, turn it off
119         and add a 50th percentile.
120         (add_percentile): Simplify code a little.
121         (calc_stats): Drop special casing of median.
122         (dump_statistics): Ditto, except that we label the 50th percentile
123         as "50 (Median)" to make it clear that it's also the median.    
124
125 2007-07-31  Ben Pfaff  <blp@gnu.org>
126
127         Remove integer mode from FREQUENCIES and incidentally fix bug
128         #17421.  Reviewed by John Darrington.
129         * frequencies.q (int_pool): Rename data_pool.
130         (gen_pool): Rename syntax_pool.
131         (enum FRQM_*): Removed.
132         (struct freq_tab): Removed `mode', `vector', `min', `max',
133         `out_of_range', `sysmis' members.
134         (calc): Delete support for integer mode.
135         (precalc): Ditto.
136         (postprocess_freq_tab): Ditto.
137         (cleanup_freq_tab): Ditto.
138         (frq_custom_variables): Ditto.
139
140 2007-07-28 John Darrington <john@darrington.wattle.id.au>
141
142         * t-test.q: Moved the order in which groups are displayed in the 
143         independent samples case, where a cut point is given.
144
145 2007-07-27  Ben Pfaff  <blp@gnu.org>
146
147         * regression.q (run_regression): Move casereader_destroy call so
148         that it always gets called, not just if there was some valid
149         data.  Fixes bug #19581.
150         Reviewed by Jason Stover.
151
152 2007-07-24  Ben Pfaff  <blp@gnu.org>
153
154         * flip.c (struct flip_pgm): Remove `case_size' member (now
155         unused).
156         (cmd_flip): Pass var_cnt as number of cases instead of case_cnt,
157         to fix bug #20494.  Don't assign to `case_size' member, which was
158         unused after assignment.
159         (build_dictionary): When NEWNAMES not used, get the number of
160         variables right, to fix bug #20493.
161
162 2007-07-10  Jason Stover  <jhs@math.gcsu.edu>
163
164         * glm.q: Initial version of the GLM procedure.
165
166 2007-06-06  Ben Pfaff  <blp@gnu.org>
167
168         Adapt case sources, sinks, and clients of procedure code to the
169         new infrastructure.
170         
171         * aggregate.c: Simplify greatly since everything is more uniform
172         now.
173
174         * autorecode.c: Adapt to new procedure code.
175         * binomial.c: Ditto.
176         * chisquare.c: Ditto.
177         * crosstabs.q: Ditto.
178         * descriptives.c: Ditto.
179         * examine.q: Ditto.
180         * npar-summary.c: Ditto.
181         * frequencies.q: Ditto.
182         * npar.q: Ditto.
183         * oneway.q: Ditto.
184         * regression.q: Ditto.
185         * sort-cases.c: Ditto.
186         * t-test.c: Ditto.
187
188         * sort-criteria.c: Rewrite to output a struct case_ordering.
189         
190         * flip.c: Rewrite to be a casereader.
191
192         * rank.q: Simplify greatly since casereaders are much more
193         flexible than what we had before.
194         
195 2007-05-15  Jason Stover  <jhs@math.gcsu.edu>
196
197         * regression.q (run_regression): Tell the user when the data
198         contain no valid cases.
199
200 2007-05-08  Jason Stover  <jhs@math.gcsu.edu>
201
202         * regression.q: Partial fix of bug which caused a crash if
203         dependent variable and independent variable were the same.
204
205 2007-04-16 John Darrington <john@darrington.wattle.id.au>
206
207         * t-test.q: Changed the output width of reported counts and 
208         degrees of freedom, to avoid truncating these values.  Thanks
209         to Seth Woolley for reporting this problem.  A proper fix involves
210         re-thinking the output driver.
211
212 2007-04-12  Jason Stover  <jhs@math.gcsu.edu>
213
214         * regression.q (run_regression): Added if (n_data >0) to fix bug
215         19581.
216
217 2007-03-29  Jason Stover  <jhs@math.gcsu.edu>
218
219         * regression.q (prepare_data): New function.
220
221         * regression.q (compute_moments): New function.
222
223 2007-03-18  Ben Pfaff  <blp@gnu.org>
224
225         * crosstabs.q (static var write): Rename write_style to avoid
226         conflict with POSIX function of same name.
227
228 2007-03-16  Jason Stover  <jhs@math.gcsu.edu>
229
230         * regression.q (run_regression): Added support for moments.
231
232 Sat Feb 17 08:16:00 2007  Ben Pfaff  <blp@gnu.org>
233
234         * flip.c (flip_sink_create): Improve error message when temporary
235         file cannot be created.
236
237 Tue Feb  6 19:58:03 2007  Ben Pfaff  <blp@gnu.org>
238
239         * flip.c (flip_file): Give better error message on end-of-file.
240
241 2007-02-04  Jason Stover  <jhs@math.gcsu.edu>
242
243         * regression.q: Fixed p-value computation in the test for
244         individual regression coefficients.
245
246 Mon Jan 15 11:03:20 2007  Ben Pfaff  <blp@gnu.org>
247
248         Fix bugs found by valgrind when --enable-debug is used with the
249         new case code.  These bugs are hidden when the data set is small
250         enough to find in memory; if a bigger data set that would overflow
251         to disk were used, then data corruption would occur.
252
253         * chisquare.c (create_freq_hash): Pass free_freq_mutable_hash to
254         hsh_create as free function.  Make copy of data put into hash.
255
256         * oneway.q (free_value): New function.
257         (run_oneway): Use free_value as arg to hsh_create.  Make copy of
258         data put into hash.
259
260         * rank.q (rank_cases): Don't access data in case after we've given
261         away the case.
262
263 Tue Jan  9 19:16:11 2007  Ben Pfaff  <blp@gnu.org>
264
265         Fix bug #18739.
266         
267         * aggregate.c (parse_aggregate_functions) Initialize
268         function_name.
269
270 Fri Dec 22 14:04:09 2006  Ben Pfaff  <blp@gnu.org>
271
272         Simplify missing value handling.
273         
274         * aggregate.c (struct agr_var): Remove `bool include_missing', add
275         `enum mv_class exclude'.  Remove `int missing', add `bool
276         saw_missing'.  Update users.
277
278         * descriptives.c (struct dsc_trns): Removed `int
279         include_user_missing', add `enum mv_class exclude'.  Update users.
280         (struct dsc_proc): Ditto.
281
282         * examine.q: (static var value_is_missing): Rename
283         `exclude_values', change type to `enum mv_class'.  Update users.
284
285         * rank.q: Ditto.
286
287 Fri Dec 22 19:22:18 WST 2006 John Darrington <john@darrington.wattle.id.au>
288
289         * frequencies.q : Fixed bug #17420, where the table bounds were overun
290         when /FORMAT=nolabels was given.
291
292 Wed Dec 20 18:45:31 WST 2006 John Darrington <john@darrington.wattle.id.au>
293
294         * binomial.c binomial.h : New files.  Thanks to Jason Stover 
295           for assistance with these.
296
297         * chisquare.c chisquare.h freq.c freq.h npar-summary.c npar-summary.h 
298           npar.h npar.q: New files.  Implementing NPAR TESTS.
299
300         * frequencies.q  : Moved  structure definitions into freq.[ch]
301
302 Sat Dec 16 22:26:44 2006  Ben Pfaff  <blp@gnu.org>
303
304         Make it possible to pull cases from the active file with a
305         function call, instead of requiring indirection through a callback
306         function.
307
308         * aggregate.c (cmd_aggregate): Take advantage of new procedure
309         interface.
310         (agr_to_active_file): Removed.
311         (presorted_agr_to_sysfile): Removed.
312
313         * autorecode.c (cmd_autorecode): Take advantage of new procedure
314         interface.
315         (autorecode_proc_func): Removed.
316
317         * flip.c (struct flip_pgm): New members to allow conformance with
318         new case_source_class interface.
319         (cmd_flip): Adapt to new case_source_class interface.
320         (flip_source_read): Ditto.
321         (flip_source_destroy): Ditto.
322
323 Sat Dec 16 12:54:27 2006  Ben Pfaff  <blp@gnu.org>
324
325         * rank.q (rank_custom_variables): Allow grouping variables to be
326         strings.  Fixes bug #18533.  Thanks to John Darrington for review.
327
328 Sat Dec  9 18:47:51 2006  Ben Pfaff  <blp@gnu.org>
329
330         * regression.q (is_depvar): Compare variable pointers instead of
331         variable names.
332
333 Thu Dec  7 15:26:25 WST 2006 John Darrington <john@darrington.wattle.id.au>
334
335         * examine.q: Allocated the categorical values for the dependent and 
336         independent variables, on the heap.  Hence they can be of any width.
337
338 Wed Dec  6 21:14:26 2006  Ben Pfaff  <blp@gnu.org>
339
340         * regression.q (reg_inserted): Compare variable pointers instead
341         of variable indexes.
342
343 Mon Dec  4 22:33:46 2006  Ben Pfaff  <blp@gnu.org>
344
345         * crosstabs.q (insert_summary): Use var_to_string for labeling.
346         (output_pivot_table) Ditto.
347         (submit) Ditto.
348
349         * frequencies.q (setup_z_trns): Ditto.
350         (dump_full) Ditto.
351         (dump_condensed) Ditto.
352         (dump_statistics) Ditto.
353         
354
355 Sun Nov  5 08:31:42 WST 2006 John Darrington <john@darrington.wattle.id.au>
356
357         * t-test.q, oneway.q: Changed to use the new casefilter structure.
358
359 Sat Oct 14 16:52:28 2006  Ben Pfaff  <blp@gnu.org>
360
361         * rank.q: (rank_sorted_casefile) Add some missing case_destroy()
362         calls to fix a memory leak.
363
364 Sun Oct  8 09:45:40 WST 2006 John Darrington <john@darrington.wattle.id.au>
365
366         * rank.q: Plugged a small memory leak which occurred under error
367         conditions.
368         
369 Sat Oct  7 11:06:01 WST 2006 John Darrington <john@darrington.wattle.id.au>
370
371         * rank.q: Implemented most of the RANK command.
372
373 2006-07-14  Jason Stover  <jhs@math.gcsu.edu>
374
375         * regression.q (run_regression): New function to move knowledge of
376         pspp_linreg_cache out of math/coefficient.[ch].
377
378 Sat Jul  1 17:41:46 2006  Ben Pfaff  <blp@gnu.org>
379
380         Fix bug #11612, "q2c documentation does not agree with code".
381         
382         * examine.q: Audit use of q2c "+" prefixes that indicate that a
383         command may appear multiple times.
384
385         * frequencies.q: Ditto.
386
387         * oneway.q: Ditto.
388
389         * regression.q: Ditto.
390
391         * t-test.q: Ditto.
392
393 Fri Jun 23 14:18:22 2006  Ben Pfaff  <blp@gnu.org>
394
395         Support long string variables on FREQUENCIES, as
396         an extension when in enhanced algorithms mode.  For Greg Hunt
397         <greg@firmansyah.com>.
398         
399         * frequencies.q: (struct freq) Change `v' member from union value
400         to union value *.  Update all references.
401         (struct var_freqs) Add width, print members to represent effective
402         variable width and display format.
403         (calc) Copy entire long string value into the hash table.
404         (frq_custom_variables) Set new width, print members.
405         (hash_value_alpha) Get width from var_freqs.
406         (compare_value_alpha_a) Ditto.
407         (compare_freq_alpha_a) Ditto.
408         (compare_freq_alpha_d) Ditto.
409         (dump_full) Get display format from var_freqs.
410         (dump_condensed) Ditto.
411
412 Mon Jun 19 22:07:13 2006  Ben Pfaff  <blp@gnu.org>
413
414         * frequencies.q: (dump_full) Only put the first MAX_SHORT_STRING
415         bytes of string variables into the output cells, seeing as we only
416         copy that many.
417         (dump_condensed) Ditto.
418
419 Mon Jun 19 21:52:05 2006  Ben Pfaff  <blp@gnu.org>
420
421         Fixes a bug reported by Greg Hunt <greg@firmansyah.com>.
422         
423         * frequencies.q: (hsh_hash_bytes) We only copy the first
424         MAX_SHORT_STRING bytes of string variables, so we must only
425         compare that many bytes, even if the string variable is longer.
426         (compare_value_alpha_a) Ditto.
427         (compare_freq_alpha_a) Ditto.
428         (compare_freq_alpha_d) Ditto.
429
430 2006-05-11  Jason Stover  <jhs@math.gcsu.edu>
431
432         * regression.q: Adjusted code to account for cache->coeff being a
433         pspp_linreg_coeff **.
434
435 Sun May  7 18:31:25 2006  Ben Pfaff  <blp@gnu.org>
436
437         Fix memory leak.
438         
439         * aggregate.c (cmd_aggregate): Free default_dict before replacing
440         it.
441
442 Sun May  7 17:09:19 2006  Ben Pfaff  <blp@gnu.org>
443
444         * flip.c (flip_file): Check return value of pool_fclose().
445
446 Sat May  6 16:00:13 2006  Ben Pfaff  <blp@gnu.org>
447
448         Get rid of `char *c' member in union value, for cleanliness.
449         
450         * aggregate.c: (union agr_argument) New union.
451         (struct agr_var) Change element type of arg[] from union value to
452         union agr_argument.
453         (parse_aggregate_functions) Change local variable types likewise.
454
455         * autorecode.c: (union arc_value) New union.
456         (struct arc_item) Change "from" from union value to union
457         arc_value.
458         (recode) Change local variable from union value to union
459         arc_value.
460         (autorecode_trns_proc) Ditto.
461         (compare_alpha_value) Ditto.
462         (hash_alpha_value) Ditto.
463         (compare_numeric_value) Ditto.
464         (hash_numeric_value) Ditto.
465         (autorecode_proc_func) Ditto.
466
467 Sat May  6 10:43:33 2006  Ben Pfaff  <blp@gnu.org>
468
469         Continue reforming procedure execution.  In this phase, get rid of
470         the output code for SPLIT FILE groups in procedure.c, which really
471         shouldn't be doing any output.  Move it into the individual
472         procedures instead.  This also adds some flexibility.
473
474         * crosstabs.q (precalc): Call output_split_file_values().
475
476         * descriptives.c (calc_descriptives): Ditto.
477
478         * examine.q (run_examine): Ditto.
479         
480         * frequencies.q (precalc): Ditto.
481
482         * oneway.q (run_oneway): Ditto.
483
484         * regression.q (run_regression): Ditto.
485
486         * t-test.q (calculate): Ditto.
487
488 Wed May  3 23:05:31 2006  Ben Pfaff  <blp@gnu.org>
489
490         Continue reforming procedure execution.  In this phase, get rid of
491         many global variables, consolidating procedure execution in
492         procedure.c.  Encapsulate transformations in new "struct
493         trns_chain".  Also, change implementation of N OF CASES, FILTER,
494         and PROCESS IF from special cases to transformations.
495          
496         * aggregate.c (cmd_aggregate) Use discard_variables().
497         
498 2006-04-28  Jason Stover  <jhs@math.gcsu.edu>
499
500         * regression.q (regression_trns_resid_proc): Pass only the
501         variables used in the model to (*model->residual)().
502
503         * regression.q (regression_trns_pred_proc): Pass only the
504         variables used in the model to (*model->pred)().
505
506 2006-04-26  Jason Stover  <jhs@math.gcsu.edu>
507
508         * regression.q: Added support for multiple transformations.
509         
510         * regression.q (regression_trns_resid_proc): New function.
511
512         * regression.q (regression_trns_pred_proc): New function.
513
514         * regression.q (subcommand_save): Added support for saving
515         predicted values.
516
517         * regression.q (regression_trns_free): New function. 
518
519         * regression.q (reg_get_name): New function.
520
521         * regression.q (reg_save_var): New function.
522
523 Tue Apr 25 13:18:56 2006  Ben Pfaff  <blp@gnu.org>
524
525         * rank.q (parse_rank_function): Use SE instead of ME for parse
526         errors.
527
528 Tue Apr 25 13:16:28 2006  Ben Pfaff  <blp@gnu.org>
529
530         * flip.c (flip_sink_write): Use snprintf() to simplify a bit of
531         code.
532
533 2006-04-21  Jason Stover  <jhs@math.gcsu.edu>
534
535         * regression.q (try_name): New function. (Partly copied from
536         try_name in descriptives.c.)
537
538         * regression.q (subcommand_save): Choose residual variable names
539         correctly. 
540
541 2006-04-20  Jason Stover  <jhs@math.gcsu.edu>
542
543         * regression.q (cmd_regression): Moved call to subcommand_save()
544         outside multipass_procedure_with_splits().
545         
546         * regression.q (regression_trns_proc): Fixed value counter n_vals
547         before calling *model->residual().
548
549 2006-04-19  Jason Stover  <jhs@math.gcsu.edu>
550
551         * regression.q (regression_trns_proc): Fixed the look-up of the
552         number of variables.
553
554 2006-04-18  Jason Stover  <jhs@math.gcsu.edu>
555
556         * regression.q (regression_trns_proc): Look up the residual
557         variable in the linear regression cache.
558
559         * regression.q (subcommand_save): Set the residual variable in the
560         linear regression cache.
561
562 2006-04-17  Jason Stover  <jason@wonko.gcsu.edu>
563
564         * regression.q (regression_trns_proc): Accept case_idx as an int
565         to match the definition of trns_proc_func.
566
567 2006-04-17  Jason Stover  <jhs@math.gcsu.edu>
568
569         * regression.q (regression_trns_proc): New function.
570
571         * regression.q (subcommand_save): Create variable residuals and
572         add a transformation to assign values to them. Also free the
573         linreg_cache if the SAVE command was not called. Removed the
574         casereading loop. Placed actual computation of residuals in
575         regression_trns_proc.
576
577         * regression.q (run_regression): Moved call to free
578         pspp_linreg_cache to subcommand_save.
579
580 Sat Apr 15 18:01:03 2006  Ben Pfaff  <blp@gnu.org>
581
582         * examine.q (output_examine): Add casts to fix warnings.
583
584 2006-04-07  Jason Stover  <jhs@math.gcsu.edu>
585
586         * regression.q (subcommand_save): New function.
587
588 2006-04-04  Jason Stover  <jhs@math.gcsu.edu>
589
590         * regression.q: New function reg_has_categorical () to tell
591         whether a pspp_linreg_struct was made with any variables of type
592         ALPHA.
593
594         * regression.q: (subcommand_export): Call
595         reg_print_categorical_encoding() only if the model uses any
596         categorical variables.
597
598 Mon Mar 27 16:00:42 2006  Ben Pfaff  <blp@gnu.org>
599
600         * crosstabs.q: (output_pivot_table) Drop spurious space from
601         message.
602
603 2006-03-15  Jason Stover  <jhs@math.gcsu.edu>
604
605         * regression.q: Added custom syntax parser for VARIABLES subcommand
606
607         * regression.q: Moved most instructions for run_regression ()
608         inside the loop over dependent variables.
609
610 Thu Mar  2 08:40:33 WST 2006 John Darrington <john@darrington.wattle.id.au>
611         
612         * Moved files from src directory