u8-istream: Fix reading UTF-16 and UTF-32 files. 20130425010503/pspp
authorBen Pfaff <blp@cs.stanford.edu>
Thu, 25 Apr 2013 05:26:06 +0000 (22:26 -0700)
committerBen Pfaff <blp@cs.stanford.edu>
Thu, 25 Apr 2013 05:27:10 +0000 (22:27 -0700)
Before this commit, u8_istream_for_fd() would obtain the correct encoding
from encoding_guess_head_encoding() for UTF-16 and UTF-32 files, and then
it would ignore it and use the default encoding returned by
encoding_guess_parse_encoding().  This commit fixes the problem.

src/libpspp/u8-istream.c
tests/libpspp/u8-istream.at

index 22135dbb3381f08ed3f3c70440df99b1d1521dcb..2486ca1ada31c53966e556dfc9932f4ace47a3be 100644 (file)
@@ -134,12 +134,14 @@ u8_istream_for_fd (const char *fromcode, int fd)
     {
       if (encoding_guess_encoding_is_auto (fromcode)
           && !strcmp (encoding, "ASCII"))
-        is->state = S_AUTO;
+        {
+          is->state = S_AUTO;
+          encoding = encoding_guess_parse_encoding (fromcode);
+        }
       else
         is->state = S_CONVERT;
 
-      is->converter = iconv_open ("UTF-8",
-                                  encoding_guess_parse_encoding (fromcode));
+      is->converter = iconv_open ("UTF-8", encoding);
       if (is->converter == (iconv_t) -1)
         goto error;
     }
index 9757f9605b7b77fd9d1cf55b3db1403ac479f9f0..24af08cc7c847f9a0332ef1421b3ee2f86a82412 100644 (file)
@@ -137,6 +137,40 @@ entrée
 ])
 AT_CLEANUP
 
+AT_SETUP([read UTF-16 as Auto])
+AT_KEYWORDS([u8_istream])
+AT_CHECK([i18n-test supports_encodings UTF-16 UTF-16BE UTF-16LE])
+AT_CHECK([printf '\0e\0n\0t\0r\0\351\0e\0\n' | u8-istream-test read - Auto],
+  [0], [entrée
+])
+AT_CHECK([printf 'e\0n\0t\0r\0\351\0e\0\n\0' | u8-istream-test read - Auto],
+  [0], [entrée
+])
+AT_CHECK([printf '\376\377\0e\0n\0t\0r\0\351\0e\0\n' | u8-istream-test read - Auto],
+  [0], [entrée
+])
+AT_CHECK([printf '\377\376e\0n\0t\0r\0\351\0e\0\n\0' | u8-istream-test read - Auto],
+  [0], [entrée
+])
+AT_CLEANUP
+
+AT_SETUP([read UTF-32 as Auto])
+AT_KEYWORDS([u8_istream])
+AT_CHECK([i18n-test supports_encodings UTF-16 UTF-16BE UTF-16LE])
+AT_CHECK([printf '\0\0\0e\0\0\0n\0\0\0t\0\0\0r\0\0\0\351\0\0\0e\0\0\0\n' | u8-istream-test read - Auto],
+  [0], [entrée
+])
+AT_CHECK([printf 'e\0\0\0n\0\0\0t\0\0\0r\0\0\0\351\0\0\0e\0\0\0\n\0\0\0' | u8-istream-test read - Auto],
+  [0], [entrée
+])
+AT_CHECK([printf '\0\0\376\377\0\0\0e\0\0\0n\0\0\0t\0\0\0r\0\0\0\351\0\0\0e\0\0\0\n' | u8-istream-test read - Auto],
+  [0], [entrée
+])
+AT_CHECK([printf '\377\376\0\0e\0\0\0n\0\0\0t\0\0\0r\0\0\0\351\0\0\0e\0\0\0\n\0\0\0' | u8-istream-test read - Auto],
+  [0], [entrée
+])
+AT_CLEANUP
+
 AT_SETUP([read EUC-JP as Auto,EUC-JP])
 AT_KEYWORDS([u8_istream])
 AT_CHECK([i18n-test supports_encodings EUC-JP])