u8-istream: Fix handling of UTF-8 byte order marks.
authorBen Pfaff <blp@cs.stanford.edu>
Thu, 25 Apr 2013 05:14:01 +0000 (22:14 -0700)
committerBen Pfaff <blp@cs.stanford.edu>
Thu, 25 Apr 2013 05:26:34 +0000 (22:26 -0700)
The UTF-8 special case state didn't skip over an initial byte order mark.
This fixes it.

Reported by Dr. Holger Handstein <post@handundstein.de>.
Signed-off-by: Ben Pfaff <blp@cs.stanford.edu>
src/libpspp/u8-istream.c
tests/libpspp/u8-istream.at

index b172b164f5c382c6055c205f0ea4f8e7ccc0f1c8..22135dbb3381f08ed3f3c70440df99b1d1521dcb 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 2010, 2011, 2012 Free Software Foundation, Inc.
+   Copyright (C) 2010, 2011, 2012, 2013 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
@@ -122,7 +122,14 @@ u8_istream_for_fd (const char *fromcode, int fd)
 
   encoding = encoding_guess_head_encoding (fromcode, is->buffer, is->length);
   if (is_encoding_utf8 (encoding))
-    is->state = S_UTF8;
+    {
+      unsigned int bom_len;
+
+      is->state = S_UTF8;
+      bom_len = encoding_guess_bom_length (encoding, is->buffer, is->length);
+      is->head += bom_len;
+      is->length -= bom_len;
+    }
   else
     {
       if (encoding_guess_encoding_is_auto (fromcode)
index 842e77336d0f1364ab479009bb1b91c19fa70f10..9757f9605b7b77fd9d1cf55b3db1403ac479f9f0 100644 (file)
@@ -109,6 +109,11 @@ Auto mode
 entrée
 UTF-8 mode
 ])
+AT_CHECK([printf '\357\273\277entr\303\251e\n' | u8-istream-test read - Auto], [0], [dnl
+UTF-8 mode
+entrée
+UTF-8 mode
+])
 AT_CLEANUP
 
 AT_SETUP([read ISO-8859-1 as Auto,ISO-8859-1])