(rank_cmd): Instead of sorting by SPLIT FILE vars, group by them.
[pspp-builds.git] / src / language / stats / ChangeLog
1 2007-08-03  Ben Pfaff  <blp@gnu.org>
2
3         * rank.q (rank_cmd): Instead of sorting by SPLIT FILE vars, group
4         by them.  Fixes bug #17239.
5         Reviewed by John Darrington.
6
7 2007-08-01  Ben Pfaff  <blp@gnu.org>
8
9         Clean up handling of median, by treating it almost like any other
10         percentile.  Fixes bug #17424.  Thanks to John Darrington for
11         review.
12         * frequencies.q (internal_cmd_frequencies): Fix handling of bit
13         masks for `stats' variable.  If median is selected, turn it off
14         and add a 50th percentile.
15         (add_percentile): Simplify code a little.
16         (calc_stats): Drop special casing of median.
17         (dump_statistics): Ditto, except that we label the 50th percentile
18         as "50 (Median)" to make it clear that it's also the median.    
19
20 2007-07-31  Ben Pfaff  <blp@gnu.org>
21
22         Remove integer mode from FREQUENCIES and incidentally fix bug
23         #17421.  Reviewed by John Darrington.
24         * frequencies.q (int_pool): Rename data_pool.
25         (gen_pool): Rename syntax_pool.
26         (enum FRQM_*): Removed.
27         (struct freq_tab): Removed `mode', `vector', `min', `max',
28         `out_of_range', `sysmis' members.
29         (calc): Delete support for integer mode.
30         (precalc): Ditto.
31         (postprocess_freq_tab): Ditto.
32         (cleanup_freq_tab): Ditto.
33         (frq_custom_variables): Ditto.
34
35 2007-07-28 John Darrington <john@darrington.wattle.id.au>
36
37         * t-test.q: Moved the order in which groups are displayed in the 
38         independent samples case, where a cut point is given.
39
40 2007-07-27  Ben Pfaff  <blp@gnu.org>
41
42         * regression.q (run_regression): Move casereader_destroy call so
43         that it always gets called, not just if there was some valid
44         data.  Fixes bug #19581.
45         Reviewed by Jason Stover.
46
47 2007-07-24  Ben Pfaff  <blp@gnu.org>
48
49         * flip.c (struct flip_pgm): Remove `case_size' member (now
50         unused).
51         (cmd_flip): Pass var_cnt as number of cases instead of case_cnt,
52         to fix bug #20494.  Don't assign to `case_size' member, which was
53         unused after assignment.
54         (build_dictionary): When NEWNAMES not used, get the number of
55         variables right, to fix bug #20493.
56
57 2007-07-10  Jason Stover  <jhs@math.gcsu.edu>
58
59         * glm.q: Initial version of the GLM procedure.
60
61 2007-06-06  Ben Pfaff  <blp@gnu.org>
62
63         Adapt case sources, sinks, and clients of procedure code to the
64         new infrastructure.
65         
66         * aggregate.c: Simplify greatly since everything is more uniform
67         now.
68
69         * autorecode.c: Adapt to new procedure code.
70         * binomial.c: Ditto.
71         * chisquare.c: Ditto.
72         * crosstabs.q: Ditto.
73         * descriptives.c: Ditto.
74         * examine.q: Ditto.
75         * npar-summary.c: Ditto.
76         * frequencies.q: Ditto.
77         * npar.q: Ditto.
78         * oneway.q: Ditto.
79         * regression.q: Ditto.
80         * sort-cases.c: Ditto.
81         * t-test.c: Ditto.
82
83         * sort-criteria.c: Rewrite to output a struct case_ordering.
84         
85         * flip.c: Rewrite to be a casereader.
86
87         * rank.q: Simplify greatly since casereaders are much more
88         flexible than what we had before.
89         
90 2007-05-15  Jason Stover  <jhs@math.gcsu.edu>
91
92         * regression.q (run_regression): Tell the user when the data
93         contain no valid cases.
94
95 2007-05-08  Jason Stover  <jhs@math.gcsu.edu>
96
97         * regression.q: Partial fix of bug which caused a crash if
98         dependent variable and independent variable were the same.
99
100 2007-04-16 John Darrington <john@darrington.wattle.id.au>
101
102         * t-test.q: Changed the output width of reported counts and 
103         degrees of freedom, to avoid truncating these values.  Thanks
104         to Seth Woolley for reporting this problem.  A proper fix involves
105         re-thinking the output driver.
106
107 2007-04-12  Jason Stover  <jhs@math.gcsu.edu>
108
109         * regression.q (run_regression): Added if (n_data >0) to fix bug
110         19581.
111
112 2007-03-29  Jason Stover  <jhs@math.gcsu.edu>
113
114         * regression.q (prepare_data): New function.
115
116         * regression.q (compute_moments): New function.
117
118 2007-03-18  Ben Pfaff  <blp@gnu.org>
119
120         * crosstabs.q (static var write): Rename write_style to avoid
121         conflict with POSIX function of same name.
122
123 2007-03-16  Jason Stover  <jhs@math.gcsu.edu>
124
125         * regression.q (run_regression): Added support for moments.
126
127 Sat Feb 17 08:16:00 2007  Ben Pfaff  <blp@gnu.org>
128
129         * flip.c (flip_sink_create): Improve error message when temporary
130         file cannot be created.
131
132 Tue Feb  6 19:58:03 2007  Ben Pfaff  <blp@gnu.org>
133
134         * flip.c (flip_file): Give better error message on end-of-file.
135
136 2007-02-04  Jason Stover  <jhs@math.gcsu.edu>
137
138         * regression.q: Fixed p-value computation in the test for
139         individual regression coefficients.
140
141 Mon Jan 15 11:03:20 2007  Ben Pfaff  <blp@gnu.org>
142
143         Fix bugs found by valgrind when --enable-debug is used with the
144         new case code.  These bugs are hidden when the data set is small
145         enough to find in memory; if a bigger data set that would overflow
146         to disk were used, then data corruption would occur.
147
148         * chisquare.c (create_freq_hash): Pass free_freq_mutable_hash to
149         hsh_create as free function.  Make copy of data put into hash.
150
151         * oneway.q (free_value): New function.
152         (run_oneway): Use free_value as arg to hsh_create.  Make copy of
153         data put into hash.
154
155         * rank.q (rank_cases): Don't access data in case after we've given
156         away the case.
157
158 Tue Jan  9 19:16:11 2007  Ben Pfaff  <blp@gnu.org>
159
160         Fix bug #18739.
161         
162         * aggregate.c (parse_aggregate_functions) Initialize
163         function_name.
164
165 Fri Dec 22 14:04:09 2006  Ben Pfaff  <blp@gnu.org>
166
167         Simplify missing value handling.
168         
169         * aggregate.c (struct agr_var): Remove `bool include_missing', add
170         `enum mv_class exclude'.  Remove `int missing', add `bool
171         saw_missing'.  Update users.
172
173         * descriptives.c (struct dsc_trns): Removed `int
174         include_user_missing', add `enum mv_class exclude'.  Update users.
175         (struct dsc_proc): Ditto.
176
177         * examine.q: (static var value_is_missing): Rename
178         `exclude_values', change type to `enum mv_class'.  Update users.
179
180         * rank.q: Ditto.
181
182 Fri Dec 22 19:22:18 WST 2006 John Darrington <john@darrington.wattle.id.au>
183
184         * frequencies.q : Fixed bug #17420, where the table bounds were overun
185         when /FORMAT=nolabels was given.
186
187 Wed Dec 20 18:45:31 WST 2006 John Darrington <john@darrington.wattle.id.au>
188
189         * binomial.c binomial.h : New files.  Thanks to Jason Stover 
190           for assistance with these.
191
192         * chisquare.c chisquare.h freq.c freq.h npar-summary.c npar-summary.h 
193           npar.h npar.q: New files.  Implementing NPAR TESTS.
194
195         * frequencies.q  : Moved  structure definitions into freq.[ch]
196
197 Sat Dec 16 22:26:44 2006  Ben Pfaff  <blp@gnu.org>
198
199         Make it possible to pull cases from the active file with a
200         function call, instead of requiring indirection through a callback
201         function.
202
203         * aggregate.c (cmd_aggregate): Take advantage of new procedure
204         interface.
205         (agr_to_active_file): Removed.
206         (presorted_agr_to_sysfile): Removed.
207
208         * autorecode.c (cmd_autorecode): Take advantage of new procedure
209         interface.
210         (autorecode_proc_func): Removed.
211
212         * flip.c (struct flip_pgm): New members to allow conformance with
213         new case_source_class interface.
214         (cmd_flip): Adapt to new case_source_class interface.
215         (flip_source_read): Ditto.
216         (flip_source_destroy): Ditto.
217
218 Sat Dec 16 12:54:27 2006  Ben Pfaff  <blp@gnu.org>
219
220         * rank.q (rank_custom_variables): Allow grouping variables to be
221         strings.  Fixes bug #18533.  Thanks to John Darrington for review.
222
223 Sat Dec  9 18:47:51 2006  Ben Pfaff  <blp@gnu.org>
224
225         * regression.q (is_depvar): Compare variable pointers instead of
226         variable names.
227
228 Thu Dec  7 15:26:25 WST 2006 John Darrington <john@darrington.wattle.id.au>
229
230         * examine.q: Allocated the categorical values for the dependent and 
231         independent variables, on the heap.  Hence they can be of any width.
232
233 Wed Dec  6 21:14:26 2006  Ben Pfaff  <blp@gnu.org>
234
235         * regression.q (reg_inserted): Compare variable pointers instead
236         of variable indexes.
237
238 Mon Dec  4 22:33:46 2006  Ben Pfaff  <blp@gnu.org>
239
240         * crosstabs.q (insert_summary): Use var_to_string for labeling.
241         (output_pivot_table) Ditto.
242         (submit) Ditto.
243
244         * frequencies.q (setup_z_trns): Ditto.
245         (dump_full) Ditto.
246         (dump_condensed) Ditto.
247         (dump_statistics) Ditto.
248         
249
250 Sun Nov  5 08:31:42 WST 2006 John Darrington <john@darrington.wattle.id.au>
251
252         * t-test.q, oneway.q: Changed to use the new casefilter structure.
253
254 Sat Oct 14 16:52:28 2006  Ben Pfaff  <blp@gnu.org>
255
256         * rank.q: (rank_sorted_casefile) Add some missing case_destroy()
257         calls to fix a memory leak.
258
259 Sun Oct  8 09:45:40 WST 2006 John Darrington <john@darrington.wattle.id.au>
260
261         * rank.q: Plugged a small memory leak which occurred under error
262         conditions.
263         
264 Sat Oct  7 11:06:01 WST 2006 John Darrington <john@darrington.wattle.id.au>
265
266         * rank.q: Implemented most of the RANK command.
267
268 2006-07-14  Jason Stover  <jhs@math.gcsu.edu>
269
270         * regression.q (run_regression): New function to move knowledge of
271         pspp_linreg_cache out of math/coefficient.[ch].
272
273 Sat Jul  1 17:41:46 2006  Ben Pfaff  <blp@gnu.org>
274
275         Fix bug #11612, "q2c documentation does not agree with code".
276         
277         * examine.q: Audit use of q2c "+" prefixes that indicate that a
278         command may appear multiple times.
279
280         * frequencies.q: Ditto.
281
282         * oneway.q: Ditto.
283
284         * regression.q: Ditto.
285
286         * t-test.q: Ditto.
287
288 Fri Jun 23 14:18:22 2006  Ben Pfaff  <blp@gnu.org>
289
290         Support long string variables on FREQUENCIES, as
291         an extension when in enhanced algorithms mode.  For Greg Hunt
292         <greg@firmansyah.com>.
293         
294         * frequencies.q: (struct freq) Change `v' member from union value
295         to union value *.  Update all references.
296         (struct var_freqs) Add width, print members to represent effective
297         variable width and display format.
298         (calc) Copy entire long string value into the hash table.
299         (frq_custom_variables) Set new width, print members.
300         (hash_value_alpha) Get width from var_freqs.
301         (compare_value_alpha_a) Ditto.
302         (compare_freq_alpha_a) Ditto.
303         (compare_freq_alpha_d) Ditto.
304         (dump_full) Get display format from var_freqs.
305         (dump_condensed) Ditto.
306
307 Mon Jun 19 22:07:13 2006  Ben Pfaff  <blp@gnu.org>
308
309         * frequencies.q: (dump_full) Only put the first MAX_SHORT_STRING
310         bytes of string variables into the output cells, seeing as we only
311         copy that many.
312         (dump_condensed) Ditto.
313
314 Mon Jun 19 21:52:05 2006  Ben Pfaff  <blp@gnu.org>
315
316         Fixes a bug reported by Greg Hunt <greg@firmansyah.com>.
317         
318         * frequencies.q: (hsh_hash_bytes) We only copy the first
319         MAX_SHORT_STRING bytes of string variables, so we must only
320         compare that many bytes, even if the string variable is longer.
321         (compare_value_alpha_a) Ditto.
322         (compare_freq_alpha_a) Ditto.
323         (compare_freq_alpha_d) Ditto.
324
325 2006-05-11  Jason Stover  <jhs@math.gcsu.edu>
326
327         * regression.q: Adjusted code to account for cache->coeff being a
328         pspp_linreg_coeff **.
329
330 Sun May  7 18:31:25 2006  Ben Pfaff  <blp@gnu.org>
331
332         Fix memory leak.
333         
334         * aggregate.c (cmd_aggregate): Free default_dict before replacing
335         it.
336
337 Sun May  7 17:09:19 2006  Ben Pfaff  <blp@gnu.org>
338
339         * flip.c (flip_file): Check return value of pool_fclose().
340
341 Sat May  6 16:00:13 2006  Ben Pfaff  <blp@gnu.org>
342
343         Get rid of `char *c' member in union value, for cleanliness.
344         
345         * aggregate.c: (union agr_argument) New union.
346         (struct agr_var) Change element type of arg[] from union value to
347         union agr_argument.
348         (parse_aggregate_functions) Change local variable types likewise.
349
350         * autorecode.c: (union arc_value) New union.
351         (struct arc_item) Change "from" from union value to union
352         arc_value.
353         (recode) Change local variable from union value to union
354         arc_value.
355         (autorecode_trns_proc) Ditto.
356         (compare_alpha_value) Ditto.
357         (hash_alpha_value) Ditto.
358         (compare_numeric_value) Ditto.
359         (hash_numeric_value) Ditto.
360         (autorecode_proc_func) Ditto.
361
362 Sat May  6 10:43:33 2006  Ben Pfaff  <blp@gnu.org>
363
364         Continue reforming procedure execution.  In this phase, get rid of
365         the output code for SPLIT FILE groups in procedure.c, which really
366         shouldn't be doing any output.  Move it into the individual
367         procedures instead.  This also adds some flexibility.
368
369         * crosstabs.q (precalc): Call output_split_file_values().
370
371         * descriptives.c (calc_descriptives): Ditto.
372
373         * examine.q (run_examine): Ditto.
374         
375         * frequencies.q (precalc): Ditto.
376
377         * oneway.q (run_oneway): Ditto.
378
379         * regression.q (run_regression): Ditto.
380
381         * t-test.q (calculate): Ditto.
382
383 Wed May  3 23:05:31 2006  Ben Pfaff  <blp@gnu.org>
384
385         Continue reforming procedure execution.  In this phase, get rid of
386         many global variables, consolidating procedure execution in
387         procedure.c.  Encapsulate transformations in new "struct
388         trns_chain".  Also, change implementation of N OF CASES, FILTER,
389         and PROCESS IF from special cases to transformations.
390          
391         * aggregate.c (cmd_aggregate) Use discard_variables().
392         
393 2006-04-28  Jason Stover  <jhs@math.gcsu.edu>
394
395         * regression.q (regression_trns_resid_proc): Pass only the
396         variables used in the model to (*model->residual)().
397
398         * regression.q (regression_trns_pred_proc): Pass only the
399         variables used in the model to (*model->pred)().
400
401 2006-04-26  Jason Stover  <jhs@math.gcsu.edu>
402
403         * regression.q: Added support for multiple transformations.
404         
405         * regression.q (regression_trns_resid_proc): New function.
406
407         * regression.q (regression_trns_pred_proc): New function.
408
409         * regression.q (subcommand_save): Added support for saving
410         predicted values.
411
412         * regression.q (regression_trns_free): New function. 
413
414         * regression.q (reg_get_name): New function.
415
416         * regression.q (reg_save_var): New function.
417
418 Tue Apr 25 13:18:56 2006  Ben Pfaff  <blp@gnu.org>
419
420         * rank.q (parse_rank_function): Use SE instead of ME for parse
421         errors.
422
423 Tue Apr 25 13:16:28 2006  Ben Pfaff  <blp@gnu.org>
424
425         * flip.c (flip_sink_write): Use snprintf() to simplify a bit of
426         code.
427
428 2006-04-21  Jason Stover  <jhs@math.gcsu.edu>
429
430         * regression.q (try_name): New function. (Partly copied from
431         try_name in descriptives.c.)
432
433         * regression.q (subcommand_save): Choose residual variable names
434         correctly. 
435
436 2006-04-20  Jason Stover  <jhs@math.gcsu.edu>
437
438         * regression.q (cmd_regression): Moved call to subcommand_save()
439         outside multipass_procedure_with_splits().
440         
441         * regression.q (regression_trns_proc): Fixed value counter n_vals
442         before calling *model->residual().
443
444 2006-04-19  Jason Stover  <jhs@math.gcsu.edu>
445
446         * regression.q (regression_trns_proc): Fixed the look-up of the
447         number of variables.
448
449 2006-04-18  Jason Stover  <jhs@math.gcsu.edu>
450
451         * regression.q (regression_trns_proc): Look up the residual
452         variable in the linear regression cache.
453
454         * regression.q (subcommand_save): Set the residual variable in the
455         linear regression cache.
456
457 2006-04-17  Jason Stover  <jason@wonko.gcsu.edu>
458
459         * regression.q (regression_trns_proc): Accept case_idx as an int
460         to match the definition of trns_proc_func.
461
462 2006-04-17  Jason Stover  <jhs@math.gcsu.edu>
463
464         * regression.q (regression_trns_proc): New function.
465
466         * regression.q (subcommand_save): Create variable residuals and
467         add a transformation to assign values to them. Also free the
468         linreg_cache if the SAVE command was not called. Removed the
469         casereading loop. Placed actual computation of residuals in
470         regression_trns_proc.
471
472         * regression.q (run_regression): Moved call to free
473         pspp_linreg_cache to subcommand_save.
474
475 Sat Apr 15 18:01:03 2006  Ben Pfaff  <blp@gnu.org>
476
477         * examine.q (output_examine): Add casts to fix warnings.
478
479 2006-04-07  Jason Stover  <jhs@math.gcsu.edu>
480
481         * regression.q (subcommand_save): New function.
482
483 2006-04-04  Jason Stover  <jhs@math.gcsu.edu>
484
485         * regression.q: New function reg_has_categorical () to tell
486         whether a pspp_linreg_struct was made with any variables of type
487         ALPHA.
488
489         * regression.q: (subcommand_export): Call
490         reg_print_categorical_encoding() only if the model uses any
491         categorical variables.
492
493 Mon Mar 27 16:00:42 2006  Ben Pfaff  <blp@gnu.org>
494
495         * crosstabs.q: (output_pivot_table) Drop spurious space from
496         message.
497
498 2006-03-15  Jason Stover  <jhs@math.gcsu.edu>
499
500         * regression.q: Added custom syntax parser for VARIABLES subcommand
501
502         * regression.q: Moved most instructions for run_regression ()
503         inside the loop over dependent variables.
504
505 Thu Mar  2 08:40:33 WST 2006 John Darrington <john@darrington.wattle.id.au>
506         
507         * Moved files from src directory