fixed check for equality of explanatory and predictor variables
[pspp-builds.git] / src / language / stats / ChangeLog
1 2008-04-08  Jason Stover  <jhs@math.gcsu.edu>
2
3         * regression.q (identify_indep_vars): Don't panic unless
4         n_indep_vars is 0.
5
6 2008-03-16  Ben Pfaff  <blp@gnu.org>
7
8         Bug #22037.  Thanks to John Darrington for reporting this bug.
9         
10         * crosstabs.q (calc_general): Only the short string prefix of long
11         string variables are tabulated, so we must not copy or zero out
12         more data than that.
13
14 2008-03-10  Jason Stover  <jhs@debs.hoobahooba.net>
15
16         * regression.q (run_regression): Removed code for EXPORT
17         subcommand. Remove use of coefficient 0 as the intercept.
18
19 2008-02-14  John Darrington <john@darrington.wattle.id.au>
20
21         * examine.q: Fixed counts of missing variables.  Thanks to 
22         Jason Stover for reporting this problem.
23
24 2008-01-02  John Darrington <john@darrington.wattle.id.au>
25
26         *  binomial.c chisquare.c examine.q frequencies.q oneway.q regression.q : updated
27         all users of var_get_value_name to use replacement function var_append_value_name.
28
29 2007-12-07  Ben Pfaff  <blp@gnu.org>
30
31         Patch #6302.
32
33         * crosstabs.q (precalc): Initialize data structures even if the
34         first case cannot be read.  
35
36         * frequencies.q (precalc): Ditto.
37
38 2007-11-03  Ben Pfaff  <blp@gnu.org>
39
40         Allow output files to overwrite input files (bug #21280).
41
42         * aggregate.c (cmd_aggregate): Manage file handle reference
43         counts.
44
45         * correlations.q (internal_cmd_frequencies): Ditto.
46         (cor_custom_matrix): Ditto.
47
48         * regression.q (regression_custom_export): Ditto.
49         (cmd_regression): Ditto.
50
51 2007-10-12  Ben Pfaff  <blp@gnu.org>
52
53         * flip.c (flip_file): No need to conditionally substitute for
54         "fseeko" and "off_t" manually anymore, as gnulib takes care of it
55         for us.
56
57 2007-09-21  Jason Stover  <jhs@wonko.gcsu.edu>
58
59         * regression.q (run_regression): Partial fix of memory leak, bug
60         21056.
61
62 2007-09-19  Ben Pfaff  <blp@gnu.org>
63
64         Fix bug #21108.
65         
66         * aggregate.c (cmd_aggregate): Destroy casereader consistently,
67         even if casereader fails.
68
69         * examine.q (run_examine): Ditto.
70          
71         * glm.q (run_glm): Ditto.
72
73         * oneway.q (run_oneway): Ditto.
74
75         * regression.q (run_regression): Ditto.
76
77         * t-test.q (calculate): Ditto.
78
79         * descriptives.c (calc_descriptives): Ditto.  Also avoid
80         gratuitous casereader_clone.
81
82 2007-09-13  Jason Stover  <jhs@debs.hoobahooba.net>
83
84         * regression.q (cmd_regression): Move declaration of models in to
85         definition of cmd_regression.
86
87         * regression.q (run_regression): Free mom to fix memory leak.
88
89 2007-09-12  Ben Pfaff  <blp@gnu.org>
90
91         * crosstabs.q (postcalc): Free sorted_tab and the structures that
92         it points to, to plug a memory leak.  Fixes bug #20910.  Thanks to
93         John Darrington for reporting this bug and for review.
94
95 2007-09-04  Ben Pfaff  <blp@gnu.org>
96
97         * crosstabs.q (cmd_crosstabs): Free xtab and the structures that
98         it points to, to plug a memory leak.  Fixes bug #18315.
99
100 2007-08-15  Jason Stover  <jhs@wonko.gcsu.edu>
101
102         * regression.q (identify_indep_vars): Print an error if dependent
103         and independent variables are the same. Fixes bug 19819.
104
105 2007-08-12  Ben Pfaff  <blp@gnu.org>
106
107         * flip.c: Drop use of dict_get_compacted_dict_index_to_case_index
108         and just use the ordinary case indexes.  There seemed to be no
109         reason for the former method.
110
111 2007-08-03  Ben Pfaff  <blp@gnu.org>
112
113         * rank.q (rank_cmd): Instead of sorting by SPLIT FILE vars, group
114         by them.  Fixes bug #17239.
115         Reviewed by John Darrington.
116
117 2007-08-01  Ben Pfaff  <blp@gnu.org>
118
119         Clean up handling of median, by treating it almost like any other
120         percentile.  Fixes bug #17424.  Thanks to John Darrington for
121         review.
122         * frequencies.q (internal_cmd_frequencies): Fix handling of bit
123         masks for `stats' variable.  If median is selected, turn it off
124         and add a 50th percentile.
125         (add_percentile): Simplify code a little.
126         (calc_stats): Drop special casing of median.
127         (dump_statistics): Ditto, except that we label the 50th percentile
128         as "50 (Median)" to make it clear that it's also the median.    
129
130 2007-07-31  Ben Pfaff  <blp@gnu.org>
131
132         Remove integer mode from FREQUENCIES and incidentally fix bug
133         #17421.  Reviewed by John Darrington.
134         * frequencies.q (int_pool): Rename data_pool.
135         (gen_pool): Rename syntax_pool.
136         (enum FRQM_*): Removed.
137         (struct freq_tab): Removed `mode', `vector', `min', `max',
138         `out_of_range', `sysmis' members.
139         (calc): Delete support for integer mode.
140         (precalc): Ditto.
141         (postprocess_freq_tab): Ditto.
142         (cleanup_freq_tab): Ditto.
143         (frq_custom_variables): Ditto.
144
145 2007-07-28 John Darrington <john@darrington.wattle.id.au>
146
147         * t-test.q: Moved the order in which groups are displayed in the 
148         independent samples case, where a cut point is given.
149
150 2007-07-27  Ben Pfaff  <blp@gnu.org>
151
152         * regression.q (run_regression): Move casereader_destroy call so
153         that it always gets called, not just if there was some valid
154         data.  Fixes bug #19581.
155         Reviewed by Jason Stover.
156
157 2007-07-24  Ben Pfaff  <blp@gnu.org>
158
159         * flip.c (struct flip_pgm): Remove `case_size' member (now
160         unused).
161         (cmd_flip): Pass var_cnt as number of cases instead of case_cnt,
162         to fix bug #20494.  Don't assign to `case_size' member, which was
163         unused after assignment.
164         (build_dictionary): When NEWNAMES not used, get the number of
165         variables right, to fix bug #20493.
166
167 2007-07-10  Jason Stover  <jhs@math.gcsu.edu>
168
169         * glm.q: Initial version of the GLM procedure.
170
171 2007-06-06  Ben Pfaff  <blp@gnu.org>
172
173         Adapt case sources, sinks, and clients of procedure code to the
174         new infrastructure.
175         
176         * aggregate.c: Simplify greatly since everything is more uniform
177         now.
178
179         * autorecode.c: Adapt to new procedure code.
180         * binomial.c: Ditto.
181         * chisquare.c: Ditto.
182         * crosstabs.q: Ditto.
183         * descriptives.c: Ditto.
184         * examine.q: Ditto.
185         * npar-summary.c: Ditto.
186         * frequencies.q: Ditto.
187         * npar.q: Ditto.
188         * oneway.q: Ditto.
189         * regression.q: Ditto.
190         * sort-cases.c: Ditto.
191         * t-test.c: Ditto.
192
193         * sort-criteria.c: Rewrite to output a struct case_ordering.
194         
195         * flip.c: Rewrite to be a casereader.
196
197         * rank.q: Simplify greatly since casereaders are much more
198         flexible than what we had before.
199         
200 2007-05-15  Jason Stover  <jhs@math.gcsu.edu>
201
202         * regression.q (run_regression): Tell the user when the data
203         contain no valid cases.
204
205 2007-05-08  Jason Stover  <jhs@math.gcsu.edu>
206
207         * regression.q: Partial fix of bug which caused a crash if
208         dependent variable and independent variable were the same.
209
210 2007-04-16 John Darrington <john@darrington.wattle.id.au>
211
212         * t-test.q: Changed the output width of reported counts and 
213         degrees of freedom, to avoid truncating these values.  Thanks
214         to Seth Woolley for reporting this problem.  A proper fix involves
215         re-thinking the output driver.
216
217 2007-04-12  Jason Stover  <jhs@math.gcsu.edu>
218
219         * regression.q (run_regression): Added if (n_data >0) to fix bug
220         19581.
221
222 2007-03-29  Jason Stover  <jhs@math.gcsu.edu>
223
224         * regression.q (prepare_data): New function.
225
226         * regression.q (compute_moments): New function.
227
228 2007-03-18  Ben Pfaff  <blp@gnu.org>
229
230         * crosstabs.q (static var write): Rename write_style to avoid
231         conflict with POSIX function of same name.
232
233 2007-03-16  Jason Stover  <jhs@math.gcsu.edu>
234
235         * regression.q (run_regression): Added support for moments.
236
237 Sat Feb 17 08:16:00 2007  Ben Pfaff  <blp@gnu.org>
238
239         * flip.c (flip_sink_create): Improve error message when temporary
240         file cannot be created.
241
242 Tue Feb  6 19:58:03 2007  Ben Pfaff  <blp@gnu.org>
243
244         * flip.c (flip_file): Give better error message on end-of-file.
245
246 2007-02-04  Jason Stover  <jhs@math.gcsu.edu>
247
248         * regression.q: Fixed p-value computation in the test for
249         individual regression coefficients.
250
251 Mon Jan 15 11:03:20 2007  Ben Pfaff  <blp@gnu.org>
252
253         Fix bugs found by valgrind when --enable-debug is used with the
254         new case code.  These bugs are hidden when the data set is small
255         enough to find in memory; if a bigger data set that would overflow
256         to disk were used, then data corruption would occur.
257
258         * chisquare.c (create_freq_hash): Pass free_freq_mutable_hash to
259         hsh_create as free function.  Make copy of data put into hash.
260
261         * oneway.q (free_value): New function.
262         (run_oneway): Use free_value as arg to hsh_create.  Make copy of
263         data put into hash.
264
265         * rank.q (rank_cases): Don't access data in case after we've given
266         away the case.
267
268 Tue Jan  9 19:16:11 2007  Ben Pfaff  <blp@gnu.org>
269
270         Fix bug #18739.
271         
272         * aggregate.c (parse_aggregate_functions) Initialize
273         function_name.
274
275 Fri Dec 22 14:04:09 2006  Ben Pfaff  <blp@gnu.org>
276
277         Simplify missing value handling.
278         
279         * aggregate.c (struct agr_var): Remove `bool include_missing', add
280         `enum mv_class exclude'.  Remove `int missing', add `bool
281         saw_missing'.  Update users.
282
283         * descriptives.c (struct dsc_trns): Removed `int
284         include_user_missing', add `enum mv_class exclude'.  Update users.
285         (struct dsc_proc): Ditto.
286
287         * examine.q: (static var value_is_missing): Rename
288         `exclude_values', change type to `enum mv_class'.  Update users.
289
290         * rank.q: Ditto.
291
292 Fri Dec 22 19:22:18 WST 2006 John Darrington <john@darrington.wattle.id.au>
293
294         * frequencies.q : Fixed bug #17420, where the table bounds were overun
295         when /FORMAT=nolabels was given.
296
297 Wed Dec 20 18:45:31 WST 2006 John Darrington <john@darrington.wattle.id.au>
298
299         * binomial.c binomial.h : New files.  Thanks to Jason Stover 
300           for assistance with these.
301
302         * chisquare.c chisquare.h freq.c freq.h npar-summary.c npar-summary.h 
303           npar.h npar.q: New files.  Implementing NPAR TESTS.
304
305         * frequencies.q  : Moved  structure definitions into freq.[ch]
306
307 Sat Dec 16 22:26:44 2006  Ben Pfaff  <blp@gnu.org>
308
309         Make it possible to pull cases from the active file with a
310         function call, instead of requiring indirection through a callback
311         function.
312
313         * aggregate.c (cmd_aggregate): Take advantage of new procedure
314         interface.
315         (agr_to_active_file): Removed.
316         (presorted_agr_to_sysfile): Removed.
317
318         * autorecode.c (cmd_autorecode): Take advantage of new procedure
319         interface.
320         (autorecode_proc_func): Removed.
321
322         * flip.c (struct flip_pgm): New members to allow conformance with
323         new case_source_class interface.
324         (cmd_flip): Adapt to new case_source_class interface.
325         (flip_source_read): Ditto.
326         (flip_source_destroy): Ditto.
327
328 Sat Dec 16 12:54:27 2006  Ben Pfaff  <blp@gnu.org>
329
330         * rank.q (rank_custom_variables): Allow grouping variables to be
331         strings.  Fixes bug #18533.  Thanks to John Darrington for review.
332
333 Sat Dec  9 18:47:51 2006  Ben Pfaff  <blp@gnu.org>
334
335         * regression.q (is_depvar): Compare variable pointers instead of
336         variable names.
337
338 Thu Dec  7 15:26:25 WST 2006 John Darrington <john@darrington.wattle.id.au>
339
340         * examine.q: Allocated the categorical values for the dependent and 
341         independent variables, on the heap.  Hence they can be of any width.
342
343 Wed Dec  6 21:14:26 2006  Ben Pfaff  <blp@gnu.org>
344
345         * regression.q (reg_inserted): Compare variable pointers instead
346         of variable indexes.
347
348 Mon Dec  4 22:33:46 2006  Ben Pfaff  <blp@gnu.org>
349
350         * crosstabs.q (insert_summary): Use var_to_string for labeling.
351         (output_pivot_table) Ditto.
352         (submit) Ditto.
353
354         * frequencies.q (setup_z_trns): Ditto.
355         (dump_full) Ditto.
356         (dump_condensed) Ditto.
357         (dump_statistics) Ditto.
358         
359
360 Sun Nov  5 08:31:42 WST 2006 John Darrington <john@darrington.wattle.id.au>
361
362         * t-test.q, oneway.q: Changed to use the new casefilter structure.
363
364 Sat Oct 14 16:52:28 2006  Ben Pfaff  <blp@gnu.org>
365
366         * rank.q: (rank_sorted_casefile) Add some missing case_destroy()
367         calls to fix a memory leak.
368
369 Sun Oct  8 09:45:40 WST 2006 John Darrington <john@darrington.wattle.id.au>
370
371         * rank.q: Plugged a small memory leak which occurred under error
372         conditions.
373         
374 Sat Oct  7 11:06:01 WST 2006 John Darrington <john@darrington.wattle.id.au>
375
376         * rank.q: Implemented most of the RANK command.
377
378 2006-07-14  Jason Stover  <jhs@math.gcsu.edu>
379
380         * regression.q (run_regression): New function to move knowledge of
381         pspp_linreg_cache out of math/coefficient.[ch].
382
383 Sat Jul  1 17:41:46 2006  Ben Pfaff  <blp@gnu.org>
384
385         Fix bug #11612, "q2c documentation does not agree with code".
386         
387         * examine.q: Audit use of q2c "+" prefixes that indicate that a
388         command may appear multiple times.
389
390         * frequencies.q: Ditto.
391
392         * oneway.q: Ditto.
393
394         * regression.q: Ditto.
395
396         * t-test.q: Ditto.
397
398 Fri Jun 23 14:18:22 2006  Ben Pfaff  <blp@gnu.org>
399
400         Support long string variables on FREQUENCIES, as
401         an extension when in enhanced algorithms mode.  For Greg Hunt
402         <greg@firmansyah.com>.
403         
404         * frequencies.q: (struct freq) Change `v' member from union value
405         to union value *.  Update all references.
406         (struct var_freqs) Add width, print members to represent effective
407         variable width and display format.
408         (calc) Copy entire long string value into the hash table.
409         (frq_custom_variables) Set new width, print members.
410         (hash_value_alpha) Get width from var_freqs.
411         (compare_value_alpha_a) Ditto.
412         (compare_freq_alpha_a) Ditto.
413         (compare_freq_alpha_d) Ditto.
414         (dump_full) Get display format from var_freqs.
415         (dump_condensed) Ditto.
416
417 Mon Jun 19 22:07:13 2006  Ben Pfaff  <blp@gnu.org>
418
419         * frequencies.q: (dump_full) Only put the first MAX_SHORT_STRING
420         bytes of string variables into the output cells, seeing as we only
421         copy that many.
422         (dump_condensed) Ditto.
423
424 Mon Jun 19 21:52:05 2006  Ben Pfaff  <blp@gnu.org>
425
426         Fixes a bug reported by Greg Hunt <greg@firmansyah.com>.
427         
428         * frequencies.q: (hsh_hash_bytes) We only copy the first
429         MAX_SHORT_STRING bytes of string variables, so we must only
430         compare that many bytes, even if the string variable is longer.
431         (compare_value_alpha_a) Ditto.
432         (compare_freq_alpha_a) Ditto.
433         (compare_freq_alpha_d) Ditto.
434
435 2006-05-11  Jason Stover  <jhs@math.gcsu.edu>
436
437         * regression.q: Adjusted code to account for cache->coeff being a
438         pspp_linreg_coeff **.
439
440 Sun May  7 18:31:25 2006  Ben Pfaff  <blp@gnu.org>
441
442         Fix memory leak.
443         
444         * aggregate.c (cmd_aggregate): Free default_dict before replacing
445         it.
446
447 Sun May  7 17:09:19 2006  Ben Pfaff  <blp@gnu.org>
448
449         * flip.c (flip_file): Check return value of pool_fclose().
450
451 Sat May  6 16:00:13 2006  Ben Pfaff  <blp@gnu.org>
452
453         Get rid of `char *c' member in union value, for cleanliness.
454         
455         * aggregate.c: (union agr_argument) New union.
456         (struct agr_var) Change element type of arg[] from union value to
457         union agr_argument.
458         (parse_aggregate_functions) Change local variable types likewise.
459
460         * autorecode.c: (union arc_value) New union.
461         (struct arc_item) Change "from" from union value to union
462         arc_value.
463         (recode) Change local variable from union value to union
464         arc_value.
465         (autorecode_trns_proc) Ditto.
466         (compare_alpha_value) Ditto.
467         (hash_alpha_value) Ditto.
468         (compare_numeric_value) Ditto.
469         (hash_numeric_value) Ditto.
470         (autorecode_proc_func) Ditto.
471
472 Sat May  6 10:43:33 2006  Ben Pfaff  <blp@gnu.org>
473
474         Continue reforming procedure execution.  In this phase, get rid of
475         the output code for SPLIT FILE groups in procedure.c, which really
476         shouldn't be doing any output.  Move it into the individual
477         procedures instead.  This also adds some flexibility.
478
479         * crosstabs.q (precalc): Call output_split_file_values().
480
481         * descriptives.c (calc_descriptives): Ditto.
482
483         * examine.q (run_examine): Ditto.
484         
485         * frequencies.q (precalc): Ditto.
486
487         * oneway.q (run_oneway): Ditto.
488
489         * regression.q (run_regression): Ditto.
490
491         * t-test.q (calculate): Ditto.
492
493 Wed May  3 23:05:31 2006  Ben Pfaff  <blp@gnu.org>
494
495         Continue reforming procedure execution.  In this phase, get rid of
496         many global variables, consolidating procedure execution in
497         procedure.c.  Encapsulate transformations in new "struct
498         trns_chain".  Also, change implementation of N OF CASES, FILTER,
499         and PROCESS IF from special cases to transformations.
500          
501         * aggregate.c (cmd_aggregate) Use discard_variables().
502         
503 2006-04-28  Jason Stover  <jhs@math.gcsu.edu>
504
505         * regression.q (regression_trns_resid_proc): Pass only the
506         variables used in the model to (*model->residual)().
507
508         * regression.q (regression_trns_pred_proc): Pass only the
509         variables used in the model to (*model->pred)().
510
511 2006-04-26  Jason Stover  <jhs@math.gcsu.edu>
512
513         * regression.q: Added support for multiple transformations.
514         
515         * regression.q (regression_trns_resid_proc): New function.
516
517         * regression.q (regression_trns_pred_proc): New function.
518
519         * regression.q (subcommand_save): Added support for saving
520         predicted values.
521
522         * regression.q (regression_trns_free): New function. 
523
524         * regression.q (reg_get_name): New function.
525
526         * regression.q (reg_save_var): New function.
527
528 Tue Apr 25 13:18:56 2006  Ben Pfaff  <blp@gnu.org>
529
530         * rank.q (parse_rank_function): Use SE instead of ME for parse
531         errors.
532
533 Tue Apr 25 13:16:28 2006  Ben Pfaff  <blp@gnu.org>
534
535         * flip.c (flip_sink_write): Use snprintf() to simplify a bit of
536         code.
537
538 2006-04-21  Jason Stover  <jhs@math.gcsu.edu>
539
540         * regression.q (try_name): New function. (Partly copied from
541         try_name in descriptives.c.)
542
543         * regression.q (subcommand_save): Choose residual variable names
544         correctly. 
545
546 2006-04-20  Jason Stover  <jhs@math.gcsu.edu>
547
548         * regression.q (cmd_regression): Moved call to subcommand_save()
549         outside multipass_procedure_with_splits().
550         
551         * regression.q (regression_trns_proc): Fixed value counter n_vals
552         before calling *model->residual().
553
554 2006-04-19  Jason Stover  <jhs@math.gcsu.edu>
555
556         * regression.q (regression_trns_proc): Fixed the look-up of the
557         number of variables.
558
559 2006-04-18  Jason Stover  <jhs@math.gcsu.edu>
560
561         * regression.q (regression_trns_proc): Look up the residual
562         variable in the linear regression cache.
563
564         * regression.q (subcommand_save): Set the residual variable in the
565         linear regression cache.
566
567 2006-04-17  Jason Stover  <jason@wonko.gcsu.edu>
568
569         * regression.q (regression_trns_proc): Accept case_idx as an int
570         to match the definition of trns_proc_func.
571
572 2006-04-17  Jason Stover  <jhs@math.gcsu.edu>
573
574         * regression.q (regression_trns_proc): New function.
575
576         * regression.q (subcommand_save): Create variable residuals and
577         add a transformation to assign values to them. Also free the
578         linreg_cache if the SAVE command was not called. Removed the
579         casereading loop. Placed actual computation of residuals in
580         regression_trns_proc.
581
582         * regression.q (run_regression): Moved call to free
583         pspp_linreg_cache to subcommand_save.
584
585 Sat Apr 15 18:01:03 2006  Ben Pfaff  <blp@gnu.org>
586
587         * examine.q (output_examine): Add casts to fix warnings.
588
589 2006-04-07  Jason Stover  <jhs@math.gcsu.edu>
590
591         * regression.q (subcommand_save): New function.
592
593 2006-04-04  Jason Stover  <jhs@math.gcsu.edu>
594
595         * regression.q: New function reg_has_categorical () to tell
596         whether a pspp_linreg_struct was made with any variables of type
597         ALPHA.
598
599         * regression.q: (subcommand_export): Call
600         reg_print_categorical_encoding() only if the model uses any
601         categorical variables.
602
603 Mon Mar 27 16:00:42 2006  Ben Pfaff  <blp@gnu.org>
604
605         * crosstabs.q: (output_pivot_table) Drop spurious space from
606         message.
607
608 2006-03-15  Jason Stover  <jhs@math.gcsu.edu>
609
610         * regression.q: Added custom syntax parser for VARIABLES subcommand
611
612         * regression.q: Moved most instructions for run_regression ()
613         inside the loop over dependent variables.
614
615 Thu Mar  2 08:40:33 WST 2006 John Darrington <john@darrington.wattle.id.au>
616         
617         * Moved files from src directory