i18n: Properly restart conversion when output buffer overflows.
[pspp] / src / libpspp / i18n.c
index 80a0ed35dd57a388f622146482e56fddca9b7211..fa9f29c5835e561354f92877581f0a7ab6f10705 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 2006, 2009 Free Software Foundation, Inc.
+   Copyright (C) 2006, 2009, 2010 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
@@ -42,9 +42,9 @@
 #endif
 
 struct converter
 {
-    const char *tocode;
-    const char *fromcode;
+ {
+    char *tocode;
+    char *fromcode;
     iconv_t conv;
   };
 
@@ -79,13 +79,17 @@ create_iconv (const char* tocode, const char* fromcode)
       const int err = errno;
       fprintf (stderr,
                "Warning: "
-               "cannot create a converter for \"%s\" to \"%s\": %s\n",
+               "cannot create a converter for `%s' to `%s': %s\n",
                fromcode, tocode, strerror (err));
     }
 
   return converter->conv;
 }
 
+
+/* Similar to recode_string_pool, but allocates the returned value on the heap
+   instead of in a pool.  It is the caller's responsibility to free the
+   returned value. */
 char *
 recode_string (const char *to, const char *from,
               const char *text, int length)
@@ -94,18 +98,26 @@ recode_string (const char *to, const char *from,
 }
 
 
-/* Return a string based on TEXT which must be encoded using FROM.
-   The returned string will be encoded in TO.
-   If length is not -1, then it must be the number of bytes in TEXT.
-   The returned string must be freed when no longer required.
-*/
+/* Converts the string TEXT, which should be encoded in FROM-encoding, to a
+   dynamically allocated string in TO-encoding.  Any characters which cannot be
+   converted will be represented by '?'.
+
+   LENGTH should be the length of the string or -1, if null terminated.
+
+   The returned string will be allocated on POOL.
+
+   This function's behaviour differs from that of g_convert_with_fallback
+   provided by GLib.  The GLib function will fail (returns NULL) if any part of
+   the input string is not valid in the declared input encoding.  This function
+   however perseveres even in the presence of badly encoded input. */
 char *
 recode_string_pool (const char *to, const char *from,
-              const char *text, int length, struct pool *pool)
+                    const char *text, int length, struct pool *pool)
 {
   char *outbuf = 0;
   size_t outbufferlength;
   size_t result;
+  char *ip;
   char *op ;
   size_t inbytes = 0;
   size_t outbytes ;
@@ -126,10 +138,21 @@ recode_string_pool (const char *to, const char *from,
   if (from == NULL)
     from = default_encoding;
 
+  conv = create_iconv (to, from);
+
+  if ( (iconv_t) -1 == conv )
+    return xstrdup (text);
+
+  /* Put the converter into the initial shift state, in case there was any
+     state information left over from its last usage. */
+  iconv (conv, NULL, 0, NULL, 0);
+
   for ( outbufferlength = 1 ; outbufferlength != 0; outbufferlength <<= 1 )
     if ( outbufferlength > length)
       break;
 
+  ip = text;
+
   outbuf = pool_malloc (pool, outbufferlength);
   op = outbuf;
 
@@ -137,14 +160,8 @@ recode_string_pool (const char *to, const char *from,
   inbytes = length;
 
 
-  conv = create_iconv (to, from);
-
-  if ( (iconv_t) -1 == conv )
-       return xstrdup (text);
-
   do {
-    const char *ip = text;
-    result = iconv (conv, (ICONV_CONST char **) &text, &inbytes,
+    result = iconv (conv, (ICONV_CONST char **) &ip, &inbytes,
                   &op, &outbytes);
 
     if ( -1 == result )
@@ -165,17 +182,19 @@ recode_string_pool (const char *to, const char *from,
              }
            /* Fall through */
          case E2BIG:
-           free (outbuf);
+            iconv (conv, NULL, 0, NULL, 0);
+           pool_free (pool, outbuf);
            outbufferlength <<= 1;
            outbuf = pool_malloc (pool, outbufferlength);
            op = outbuf;
            outbytes = outbufferlength;
            inbytes = length;
-           text = ip;
+           ip = text;
            break;
          default:
            /* should never happen */
-            fprintf (stderr, "Character conversion error: %s\n", strerror (the_error));
+            fprintf (stderr, "Character conversion error: %s\n",
+                     strerror (the_error));
            NOT_REACHED ();
            break;
          }
@@ -279,8 +298,11 @@ i18n_done (void)
 {
   struct hmapx_node *node;
   struct converter *cvtr;
+
   HMAPX_FOR_EACH (cvtr, node, &map)
     {
+      free (cvtr->tocode);
+      free (cvtr->fromcode);
       iconv_close (cvtr->conv);
       free (cvtr);
     }