b70ce97c501f7ee29152be1c9088b408a938d507
[pspp] / src / str.c
1 /* PSPP - computes sample statistics.
2    Copyright (C) 1997-9, 2000 Free Software Foundation, Inc.
3    Written by Ben Pfaff <blp@gnu.org>.
4
5    This program is free software; you can redistribute it and/or
6    modify it under the terms of the GNU General Public License as
7    published by the Free Software Foundation; either version 2 of the
8    License, or (at your option) any later version.
9
10    This program is distributed in the hope that it will be useful, but
11    WITHOUT ANY WARRANTY; without even the implied warranty of
12    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13    General Public License for more details.
14
15    You should have received a copy of the GNU General Public License
16    along with this program; if not, write to the Free Software
17    Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
18    02110-1301, USA. */
19
20 #include <config.h>
21 #include "str.h"
22 #include "error.h"
23 #include <ctype.h>
24 #include <limits.h>
25 #include <stdlib.h>
26 #include "alloc.h"
27 #include "error.h"
28 #include "pool.h"
29 \f
30 /* sprintf() wrapper functions for convenience. */
31
32 #if !__GNUC__
33 char *
34 spprintf (char *buf, const char *format,...)
35 {
36 #if HAVE_GOOD_SPRINTF
37   int count;
38 #endif
39   va_list args;
40
41   va_start (args, format);
42 #if HAVE_GOOD_SPRINTF
43   count =
44 #endif
45     vsprintf (buf, format, args);
46   va_end (args);
47
48 #if HAVE_GOOD_SPRINTF
49   return &buf[count];
50 #else
51   return strchr (buf, 0);
52 #endif
53 }
54 #endif /* !__GNUC__ */
55
56 #if !__GNUC__ && !HAVE_GOOD_SPRINTF
57 int
58 nsprintf (char *buf, const char *format,...)
59 {
60   va_list args;
61
62   va_start (args, format);
63   vsprintf (buf, format, args);
64   va_end (args);
65
66   return strlen (buf);
67 }
68
69 int
70 nvsprintf (char *buf, const char *format, va_list args)
71 {
72   vsprintf (buf, format, args);
73   return strlen (buf);
74 }
75 #endif /* Not GNU C and not good sprintf(). */
76 \f
77 /* Reverses the order of NBYTES bytes at address P, thus converting
78    between little- and big-endian byte orders.  */
79 void
80 buf_reverse (char *p, size_t nbytes)
81 {
82   char *h = p, *t = &h[nbytes - 1];
83   char temp;
84
85   nbytes /= 2;
86   while (nbytes--)
87     {
88       temp = *h;
89       *h++ = *t;
90       *t-- = temp;
91     }
92 }
93
94 /* Finds the last NEEDLE of length NEEDLE_LEN in a HAYSTACK of length
95    HAYSTACK_LEN.  Returns a pointer to the needle found. */
96 char *
97 buf_find_reverse (const char *haystack, size_t haystack_len,
98                  const char *needle, size_t needle_len)
99 {
100   int i;
101   for (i = haystack_len - needle_len; i >= 0; i--)
102     if (!memcmp (needle, &haystack[i], needle_len))
103       return (char *) &haystack[i];
104   return 0;
105 }
106
107 /* Compares the SIZE bytes in A to those in B, disregarding case,
108    and returns a strcmp()-type result. */
109 int
110 buf_compare_case (const char *a_, const char *b_, size_t size)
111 {
112   const unsigned char *a = (unsigned char *) a_;
113   const unsigned char *b = (unsigned char *) b_;
114
115   while (size-- > 0) 
116     {
117       unsigned char ac = toupper (*a++);
118       unsigned char bc = toupper (*b++);
119
120       if (ac != bc) 
121         return ac > bc ? 1 : -1;
122     }
123
124   return 0;
125 }
126
127 /* Compares A of length A_LEN to B of length B_LEN.  The shorter
128    string is considered to be padded with spaces to the length of
129    the longer. */
130 int
131 buf_compare_rpad (const char *a, size_t a_len, const char *b, size_t b_len)
132 {
133   size_t min_len;
134   int result;
135
136   min_len = a_len < b_len ? a_len : b_len;
137   result = memcmp (a, b, min_len);
138   if (result != 0)
139     return result;
140   else 
141     {
142       size_t idx;
143       
144       if (a_len < b_len) 
145         {
146           for (idx = min_len; idx < b_len; idx++)
147             if (' ' != b[idx])
148               return ' ' > b[idx] ? 1 : -1;
149         }
150       else 
151         {
152           for (idx = min_len; idx < a_len; idx++)
153             if (a[idx] != ' ')
154               return a[idx] > ' ' ? 1 : -1;
155         }
156       return 0;
157     }
158 }
159
160 /* Compares strin A to string B.  The shorter string is
161    considered to be padded with spaces to the length of the
162    longer. */
163 int
164 str_compare_rpad (const char *a, const char *b)
165 {
166   return buf_compare_rpad (a, strlen (a), b, strlen (b));
167 }
168
169 /* Copies string SRC to buffer DST, of size DST_SIZE bytes.
170    DST is truncated to DST_SIZE bytes or padded on the right with
171    spaces as needed. */
172 void
173 buf_copy_str_rpad (char *dst, size_t dst_size, const char *src)
174 {
175   size_t src_len = strlen (src);
176   if (src_len >= dst_size)
177     memcpy (dst, src, dst_size);
178   else
179     {
180       memcpy (dst, src, src_len);
181       memset (&dst[src_len], ' ', dst_size - src_len);
182     }
183 }
184
185 /* Copies string SRC to buffer DST, of size DST_SIZE bytes.
186    DST is truncated to DST_SIZE bytes or padded on the left with
187    spaces as needed. */
188 void
189 buf_copy_str_lpad (char *dst, size_t dst_size, const char *src)
190 {
191   size_t src_len = strlen (src);
192   if (src_len >= dst_size)
193     memcpy (dst, src, dst_size);
194   else
195     {
196       size_t pad_cnt = dst_size - src_len;
197       memset (&dst[0], ' ', pad_cnt);
198       memcpy (dst + pad_cnt, src, src_len);
199     }
200 }
201
202 /* Copies buffer SRC, of SRC_SIZE bytes, to DST, of DST_SIZE bytes.
203    DST is truncated to DST_SIZE bytes or padded on the right with
204    spaces as needed. */
205 void
206 buf_copy_rpad (char *dst, size_t dst_size,
207                const char *src, size_t src_size)
208 {
209   if (src_size >= dst_size)
210     memmove (dst, src, dst_size);
211   else
212     {
213       memmove (dst, src, src_size);
214       memset (&dst[src_size], ' ', dst_size - src_size);
215     }
216 }
217
218 /* Copies string SRC to string DST, which is in a buffer DST_SIZE
219    bytes long.
220    Truncates DST to DST_SIZE - 1 characters or right-pads with
221    spaces to DST_SIZE - 1 characters if necessary. */
222 void
223 str_copy_rpad (char *dst, size_t dst_size, const char *src)
224 {
225   size_t src_len = strlen (src);
226   if (src_len < dst_size - 1)
227     {
228       memcpy (dst, src, src_len);
229       memset (&dst[src_len], ' ', dst_size - 1 - src_len);
230     }
231   else
232     memcpy (dst, src, dst_size - 1);
233   dst[dst_size - 1] = 0;
234 }
235
236 /* Copies SRC to DST, which is in a buffer DST_SIZE bytes long.
237    Truncates DST to DST_SIZE - 1 characters, if necessary. */
238 void
239 str_copy_trunc (char *dst, size_t dst_size, const char *src) 
240 {
241   size_t src_len = strlen (src);
242   assert (dst_size > 0);
243   if (src_len + 1 < dst_size)
244     memcpy (dst, src, src_len + 1);
245   else 
246     {
247       memcpy (dst, src, dst_size - 1);
248       dst[dst_size - 1] = '\0';
249     }
250 }
251
252 /* Copies buffer SRC, of SRC_LEN bytes,
253    to DST, which is in a buffer DST_SIZE bytes long.
254    Truncates DST to DST_SIZE - 1 characters, if necessary. */
255 void
256 str_copy_buf_trunc (char *dst, size_t dst_size,
257                     const char *src, size_t src_size) 
258 {
259   size_t dst_len;
260   assert (dst_size > 0);
261
262   dst_len = src_size < dst_size ? src_size : dst_size - 1;
263   memcpy (dst, src, dst_len);
264   dst[dst_len] = '\0';
265 }
266
267 /* Converts each character in S to uppercase. */
268 void
269 str_uppercase (char *s) 
270 {
271   for (; *s != '\0'; s++)
272     *s = toupper ((unsigned char) *s);
273 }
274 \f
275 /* Initializes ST with initial contents S. */
276 void
277 ds_create (struct string *st, const char *s)
278 {
279   st->length = strlen (s);
280   st->capacity = 8 + st->length * 2;
281   st->string = xmalloc (st->capacity + 1);
282   strcpy (st->string, s);
283 }
284
285 /* Initializes ST, making room for at least CAPACITY characters. */
286 void
287 ds_init (struct string *st, size_t capacity)
288 {
289   st->length = 0;
290   if (capacity > 8)
291     st->capacity = capacity;
292   else
293     st->capacity = 8;
294   st->string = xmalloc (st->capacity + 1);
295 }
296
297 /* Replaces the contents of ST with STRING.  STRING may overlap with
298    ST. */
299 void
300 ds_replace (struct string *st, const char *string)
301 {
302   size_t new_length = strlen (string);
303   if (new_length > st->capacity) 
304     {
305       /* The new length is longer than the allocated length, so
306          there can be no overlap. */
307       st->length = 0;
308       ds_concat (st, string, new_length);
309     }
310   else
311     {
312       /* Overlap is possible, but the new string will fit in the
313          allocated space, so we can just copy data. */
314       st->length = new_length;
315       memmove (st->string, string, st->length);
316     }
317 }
318
319 /* Frees ST. */
320 void
321 ds_destroy (struct string *st)
322 {
323   free (st->string);
324   st->string = NULL;
325 }
326
327 /* Truncates ST to zero length. */
328 void
329 ds_clear (struct string *st)
330 {
331   st->length = 0;
332 }
333
334 /* Pad ST on the right with copies of PAD until ST is at least
335    LENGTH characters in size.  If ST is initially LENGTH
336    characters or longer, this is a no-op. */
337 void
338 ds_rpad (struct string *st, size_t length, char pad) 
339 {
340   assert (st != NULL);
341   if (st->length < length) 
342     {
343       if (st->capacity < length)
344         ds_extend (st, length);
345       memset (&st->string[st->length], pad, length - st->length);
346       st->length = length;
347     }
348 }
349
350 /* Ensures that ST can hold at least MIN_CAPACITY characters plus a null
351    terminator. */
352 void
353 ds_extend (struct string *st, size_t min_capacity)
354 {
355   if (min_capacity > st->capacity)
356     {
357       st->capacity *= 2;
358       if (st->capacity < min_capacity)
359         st->capacity = min_capacity * 2;
360       
361       st->string = xrealloc (st->string, st->capacity + 1);
362     }
363 }
364
365 /* Shrink ST to the minimum capacity need to contain its content. */
366 void
367 ds_shrink (struct string *st)
368 {
369   if (st->capacity != st->length)
370     {
371       st->capacity = st->length;
372       st->string = xrealloc (st->string, st->capacity + 1);
373     }
374 }
375
376 /* Truncates ST to at most LENGTH characters long. */
377 void
378 ds_truncate (struct string *st, size_t length)
379 {
380   if (length >= st->length)
381     return;
382   st->length = length;
383 }
384
385 /* Returns the length of ST. */
386 size_t
387 ds_length (const struct string *st)
388 {
389   return st->length;
390 }
391
392 /* Returns the allocation size of ST. */
393 size_t
394 ds_capacity (const struct string *st)
395 {
396   return st->capacity;
397 }
398
399 /* Returns the value of ST as a null-terminated string. */
400 char *
401 ds_c_str (const struct string *st)
402 {
403   ((char *) st->string)[st->length] = '\0';
404   return st->string;
405 }
406
407 /* Returns the string data inside ST. */
408 char *
409 ds_data (const struct string *st)
410 {
411   return st->string;
412 }
413
414 /* Returns a pointer to the null terminator ST.
415    This might not be an actual null character unless ds_c_str() has
416    been called since the last modification to ST. */
417 char *
418 ds_end (const struct string *st)
419 {
420   return st->string + st->length;
421 }
422
423 /* Concatenates S onto ST. */
424 void
425 ds_puts (struct string *st, const char *s)
426 {
427   size_t s_len;
428
429   if (!s) return;
430
431   s_len = strlen (s);
432   ds_extend (st, st->length + s_len);
433   strcpy (st->string + st->length, s);
434   st->length += s_len;
435 }
436
437 /* Concatenates LEN characters from BUF onto ST. */
438 void
439 ds_concat (struct string *st, const char *buf, size_t len)
440 {
441   ds_extend (st, st->length + len);
442   memcpy (st->string + st->length, buf, len);
443   st->length += len;
444 }
445
446 void ds_vprintf (struct string *st, const char *format, va_list args);
447
448
449 /* Formats FORMAT as a printf string and appends the result to ST. */
450 void
451 ds_printf (struct string *st, const char *format, ...)
452 {
453   va_list args;
454
455   va_start (args, format);
456   ds_vprintf(st,format,args);
457   va_end (args);
458
459 }
460
461 /* Formats FORMAT as a printf string and appends the result to ST. */
462 void
463 ds_vprintf (struct string *st, const char *format, va_list args)
464 {
465   /* Fscking glibc silently changed behavior between 2.0 and 2.1.
466      Fsck fsck fsck.  Before, it returned -1 on buffer overflow.  Now,
467      it returns the number of characters (not bytes) that would have
468      been written. */
469
470   int avail, needed;
471   va_list a1;
472
473   va_copy(a1, args);
474   avail = st->capacity - st->length + 1;
475   needed = vsnprintf (st->string + st->length, avail, format, args);
476
477
478   if (needed >= avail)
479     {
480       ds_extend (st, st->length + needed);
481       
482       vsprintf (st->string + st->length, format, a1);
483     }
484   else
485     while (needed == -1)
486       {
487         va_list a2;
488         va_copy(a2, a1);
489
490         ds_extend (st, (st->capacity + 1) * 2);
491         avail = st->capacity - st->length + 1;
492
493         needed = vsnprintf (st->string + st->length, avail, format, a2);
494         va_end(a2);
495
496       }
497   va_end(a1);
498
499   st->length += needed;
500 }
501
502 /* Appends character CH to ST. */
503 void
504 ds_putc (struct string *st, int ch)
505 {
506   if (st->length == st->capacity)
507     ds_extend (st, st->length + 1);
508   st->string[st->length++] = ch;
509 }
510
511 /* Appends to ST a newline-terminated line read from STREAM.
512    Newline is the last character of ST on return, unless an I/O error
513    or end of file is encountered after reading some characters.
514    Returns 1 if a line is successfully read, or 0 if no characters at
515    all were read before an I/O error or end of file was
516    encountered. */
517 int
518 ds_gets (struct string *st, FILE *stream)
519 {
520   int c;
521
522   c = getc (stream);
523   if (c == EOF)
524     return 0;
525
526   for (;;)
527     {
528       ds_putc (st, c);
529       if (c == '\n')
530         return 1;
531
532       c = getc (stream);
533       if (c == EOF)
534         return 1;
535     }
536 }
537
538 /* Reads a line from STREAM into ST, then preprocesses as follows:
539
540    - Splices lines terminated with `\'.
541
542    - Deletes comments introduced by `#' outside of single or double
543      quotes.
544
545    - Trailing whitespace will be deleted.  
546
547    Increments cust_ln as appropriate.
548
549    Returns nonzero only if a line was successfully read. */
550 int
551 ds_get_config_line (FILE *stream, struct string *st, struct file_locator *where)
552 {
553   /* Read the first line. */
554   ds_clear (st);
555   where->line_number++;
556   if (!ds_gets (st, stream))
557     return 0;
558
559   /* Read additional lines, if any. */
560   for (;;)
561     {
562       /* Remove trailing whitespace. */
563       {
564         char *s = ds_c_str (st);
565         size_t len = ds_length (st);
566       
567         while (len > 0 && isspace ((unsigned char) s[len - 1]))
568           len--;
569         ds_truncate (st, len);
570       }
571
572       /* Check for trailing \.  Remove if found, bail otherwise. */
573       if (ds_length (st) == 0 || ds_c_str (st)[ds_length (st) - 1] != '\\')
574         break;
575       ds_truncate (st, ds_length (st) - 1);
576
577       /* Append another line and go around again. */
578       {
579         int success = ds_gets (st, stream);
580         where->line_number++;
581         if (!success)
582           return 1;
583       }
584     }
585
586   /* Find a comment and remove. */
587   {
588     char *cp;
589     int quote = 0;
590       
591     for (cp = ds_c_str (st); *cp; cp++)
592       if (quote)
593         {
594           if (*cp == quote)
595             quote = 0;
596           else if (*cp == '\\')
597             cp++;
598         }
599       else if (*cp == '\'' || *cp == '"')
600         quote = *cp;
601       else if (*cp == '#')
602         {
603           ds_truncate (st, cp - ds_c_str (st));
604           break;
605         }
606   }
607
608   return 1;
609 }
610 \f
611 /* Lengthed strings. */
612
613 /* Creates a new lengthed string LS with contents as a copy of
614    S. */
615 void
616 ls_create (struct fixed_string *ls, const char *s)
617 {
618   ls->length = strlen (s);
619   ls->string = xmalloc (ls->length + 1);
620   memcpy (ls->string, s, ls->length + 1);
621 }
622
623 /* Creates a new lengthed string LS with contents as a copy of
624    BUFFER with length LEN. */
625 void
626 ls_create_buffer (struct fixed_string *ls,
627                   const char *buffer, size_t len)
628 {
629   ls->length = len;
630   ls->string = xmalloc (len + 1);
631   memcpy (ls->string, buffer, len);
632   ls->string[len] = '\0';
633 }
634
635 /* Sets the fields of LS to the specified values. */
636 void
637 ls_init (struct fixed_string *ls, const char *string, size_t length)
638 {
639   ls->string = (char *) string;
640   ls->length = length;
641 }
642
643 /* Copies the fields of SRC to DST. */
644 void
645 ls_shallow_copy (struct fixed_string *dst, const struct fixed_string *src)
646 {
647   *dst = *src;
648 }
649
650 /* Frees the memory backing LS. */
651 void
652 ls_destroy (struct fixed_string *ls)
653 {
654   free (ls->string);
655 }
656
657 /* Sets LS to a null pointer value. */
658 void
659 ls_null (struct fixed_string *ls)
660 {
661   ls->string = NULL;
662 }
663
664 /* Returns nonzero only if LS has a null pointer value. */
665 int
666 ls_null_p (const struct fixed_string *ls)
667 {
668   return ls->string == NULL;
669 }
670
671 /* Returns nonzero only if LS is a null pointer or has length 0. */
672 int
673 ls_empty_p (const struct fixed_string *ls)
674 {
675   return ls->string == NULL || ls->length == 0;
676 }
677
678 /* Returns the length of LS, which must not be null. */
679 size_t
680 ls_length (const struct fixed_string *ls)
681 {
682   return ls->length;
683 }
684
685 /* Returns a pointer to the character string in LS. */
686 char *
687 ls_c_str (const struct fixed_string *ls)
688 {
689   return (char *) ls->string;
690 }
691
692 /* Returns a pointer to the null terminator of the character string in
693    LS. */
694 char *
695 ls_end (const struct fixed_string *ls)
696 {
697   return (char *) (ls->string + ls->length);
698 }