python: Make invalid UTF-8 sequence messages consistent across Python versions.
authorBen Pfaff <blp@nicira.com>
Fri, 1 Jul 2011 17:11:30 +0000 (10:11 -0700)
committerBen Pfaff <blp@nicira.com>
Wed, 6 Jul 2011 16:00:51 +0000 (09:00 -0700)
Given the invalid input <C0 22>, some versions of Python report <C0> as the
invalid sequence and other versions report <C0 22> as the invalid sequence.
Similarly, given input <ED 80 7F>, some report <ED 80> and others report
<ED 80 7F> as the invalid sequence.  This caused spurious test failures for
the test "no invalid UTF-8 sequences in strings - Python", so this commit
makes the messages consistent by dropping the extra trailing byte from the
message.

I first noticed the longer sequences <C0 22> and <ED 80 7F> on Ubuntu
10.04 with python version 2.6.5-0ubuntu1, but undoubtedly it exists
elsewhere also.

python/ovs/json.py

index f8b02d18004cbb640e303f8997269abf7704f9c6..67470fcbcae921f9876fb591cb420967a846e51c 100644 (file)
@@ -113,7 +113,8 @@ def from_string(s):
     try:
         s = unicode(s, 'utf-8')
     except UnicodeDecodeError, e:
-        seq = ' '.join(["0x%2x" % ord(c) for c in e.object[e.start:e.end]])
+        seq = ' '.join(["0x%2x" % ord(c)
+                        for c in e.object[e.start:e.end] if ord(c) >= 0x80])
         return ("not a valid UTF-8 string: invalid UTF-8 sequence %s" % seq)
     p = Parser(check_trailer=True)
     p.feed(s)