(x)memcoll: speedup when input is known to be NUL delimited
[pspp] / lib / memcoll.c
index 82d889f409d3fee8f94e95058a4d26797e9930e3..8e4855135f12151a0fa93abe3c7751f4912c2c2e 100644 (file)
@@ -1,10 +1,12 @@
 /* Locale-specific memory comparison.
-   Copyright (C) 1999, 2002, 2003, 2004 Free Software Foundation, Inc.
 
-   This program is free software; you can redistribute it and/or modify
+   Copyright (C) 1999, 2002-2004, 2006, 2009-2010 Free Software Foundation,
+   Inc.
+
+   This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
-   the Free Software Foundation; either version 2, or (at your option)
-   any later version.
+   the Free Software Foundation; either version 3 of the License, or
+   (at your option) any later version.
 
    This program is distributed in the hope that it will be useful,
    but WITHOUT ANY WARRANTY; without even the implied warranty of
    GNU General Public License for more details.
 
    You should have received a copy of the GNU General Public License
-   along with this program; if not, write to the Free Software Foundation,
-   Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.  */
+   along with this program.  If not, see <http://www.gnu.org/licenses/>.  */
 
 /* Contributed by Paul Eggert <eggert@twinsun.com>.  */
 
-#ifdef HAVE_CONFIG_H
-# include <config.h>
-#endif
+#include <config.h>
 
 #include "memcoll.h"
 
 #include <errno.h>
+#include <stdlib.h>
 #include <string.h>
 
-/* Compare S1 (with length S1LEN) and S2 (with length S2LEN) according
-   to the LC_COLLATE locale.  S1 and S2 do not overlap, and are not
-   adjacent.  Perhaps temporarily modify the bytes after S1 and S2,
-   but restore their original contents before returning.  Set errno to an
-   error number if there is an error, and to zero otherwise.  */
-int
-memcoll (char *s1, size_t s1len, char *s2, size_t s2len)
+/* Ensure strcoll operates on the entire input strings, in case they contain
+   NUL bytes. */
+
+static inline int
+strcoll_loop (const char *s1, size_t s1len, const char *s2, size_t s2len)
 {
   int diff;
-
-#if HAVE_STRCOLL
-
-  char n1 = s1[s1len];
-  char n2 = s2[s2len];
-
-  s1[s1len++] = '\0';
-  s2[s2len++] = '\0';
-
   while (! (errno = 0, (diff = strcoll (s1, s2)) || errno))
     {
       /* strcoll found no difference, but perhaps it was fooled by NUL
-        characters in the data.  Work around this problem by advancing
-        past the NUL chars.  */
+         characters in the data.  Work around this problem by advancing
+         past the NUL chars.  */
       size_t size1 = strlen (s1) + 1;
       size_t size2 = strlen (s2) + 1;
       s1 += size1;
@@ -57,29 +46,75 @@ memcoll (char *s1, size_t s1len, char *s2, size_t s2len)
       s2len -= size2;
 
       if (s1len == 0)
-       {
-         if (s2len != 0)
-           diff = -1;
-         break;
-       }
+        {
+          if (s2len != 0)
+            diff = -1;
+          break;
+        }
       else if (s2len == 0)
-       {
-         diff = 1;
-         break;
-       }
+        {
+          diff = 1;
+          break;
+        }
     }
+  return diff;
+}
 
-  s1[s1len - 1] = n1;
-  s2[s2len - 1] = n2;
+/* Compare S1 (with length S1LEN) and S2 (with length S2LEN) according
+   to the LC_COLLATE locale.  S1 and S2 do not overlap, and are not
+   adjacent.  Perhaps temporarily modify the bytes after S1 and S2,
+   but restore their original contents before returning.  Set errno to an
+   error number if there is an error, and to zero otherwise.  */
 
-#else
+int
+memcoll (char *s1, size_t s1len, char *s2, size_t s2len)
+{
+  int diff;
+
+  /* strcoll is slow on many platforms, so check for the common case
+     where the arguments are bytewise equal.  Otherwise, walk through
+     the buffers using strcoll on each substring.  */
+
+  if (s1len == s2len && memcmp (s1, s2, s1len) == 0)
+    {
+      errno = 0;
+      diff = 0;
+    }
+  else
+    {
+      char n1 = s1[s1len];
+      char n2 = s2[s2len];
+
+      s1[s1len++] = '\0';
+      s2[s2len++] = '\0';
+
+      diff = strcoll_loop (s1, s1len, s2, s2len);
 
-  diff = memcmp (s1, s2, s1len < s2len ? s1len : s2len);
-  if (! diff)
-    diff = s1len < s2len ? -1 : s1len != s2len;
-  errno = 0;
+      s1[s1len - 1] = n1;
+      s2[s2len - 1] = n2;
+    }
+
+  return diff;
+}
+
+/* Like memcoll, but S1 and S2 are known to be NUL delimited, thus no
+   modification to S1 or S2 are needed. */
+int
+memcoll0 (const char *s1, size_t s1len, const char *s2, size_t s2len)
+{
+  int diff;
+  if (!(s1len > 0 && s1[s1len] == '\0'))
+    abort ();
+  if (!(s2len > 0 && s2[s2len] == '\0'))
+    abort ();
 
-#endif
+  if (s1len == s2len && memcmp (s1, s2, s1len) == 0)
+    {
+      errno = 0;
+      diff = 0;
+    }
+  else
+    diff = strcoll_loop (s1, s1len, s2, s2len);
 
   return diff;
 }