work on PRINT encoding
[pspp] / src / language / data-io / print.c
index 34042aa83022640997faf985d6e6b499bdca946a..9768c4535af36bd8962b429f7e667cd570b059d1 100644 (file)
@@ -1,5 +1,5 @@
 /* PSPP - a program for statistical analysis.
-   Copyright (C) 1997-9, 2000, 2006, 2009 Free Software Foundation, Inc.
+   Copyright (C) 1997-9, 2000, 2006, 2009, 2010, 2011, 2012 Free Software Foundation, Inc.
 
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
 
 #include <stdlib.h>
 
-#include <data/case.h>
-#include <data/data-out.h>
-#include <data/procedure.h>
-#include <data/transformations.h>
-#include <data/variable.h>
-#include <data/format.h>
-#include <language/command.h>
-#include <language/data-io/data-writer.h>
-#include <language/data-io/file-handle.h>
-#include <language/data-io/placement-parser.h>
-#include <language/lexer/format-parser.h>
-#include <language/lexer/lexer.h>
-#include <language/lexer/variable-parser.h>
-#include <libpspp/assertion.h>
-#include <libpspp/compiler.h>
-#include <libpspp/ll.h>
-#include <libpspp/message.h>
-#include <libpspp/misc.h>
-#include <libpspp/pool.h>
-#include <output/manager.h>
-#include <output/table.h>
-
-#include "xalloc.h"
+#include "data/case.h"
+#include "data/dataset.h"
+#include "data/data-out.h"
+#include "data/format.h"
+#include "data/transformations.h"
+#include "data/variable.h"
+#include "language/command.h"
+#include "language/data-io/data-writer.h"
+#include "language/data-io/file-handle.h"
+#include "language/data-io/placement-parser.h"
+#include "language/lexer/format-parser.h"
+#include "language/lexer/lexer.h"
+#include "language/lexer/variable-parser.h"
+#include "libpspp/assertion.h"
+#include "libpspp/compiler.h"
+#include "libpspp/i18n.h"
+#include "libpspp/ll.h"
+#include "libpspp/message.h"
+#include "libpspp/misc.h"
+#include "libpspp/pool.h"
+#include "output/tab.h"
+#include "output/text-item.h"
+
+#include "gl/xalloc.h"
 
 #include "gettext.h"
 #define _(msgid) gettext (msgid)
 enum field_type
   {
     PRT_LITERAL,               /* Literal string. */
-    PRT_VAR                    /* Variable. */
+    PRT_VAR,                   /* Variable. */
+    PRT_ADVANCE,                /* Skip forward N positions. */
+    PRT_GOTO,                   /* Go to absolute position N. */
+    PRT_NEWLINE,                /* Output the constructed line. */
+    PRT_EJECT                   /* Eject the output page. */
   };
 
 /* Describes how to output one field. */
@@ -58,13 +63,11 @@ struct prt_out_spec
     /* All fields. */
     struct ll ll;               /* In struct print_trns `specs' list. */
     enum field_type type;      /* What type of field this is. */
-    int record;                 /* 1-based record number. */
     int first_column;          /* 0-based first column. */
 
     /* PRT_VAR only. */
     const struct variable *var;        /* Associated variable. */
     struct fmt_spec format;    /* Output spec. */
-    bool add_space;             /* Add trailing space? */
     bool sysmis_as_spaces;      /* Output SYSMIS as spaces? */
 
     /* PRT_LITERAL only. */
@@ -81,13 +84,14 @@ ll_to_prt_out_spec (struct ll *ll)
 struct print_trns
   {
     struct pool *pool;          /* Stores related data. */
-    bool eject;                 /* Eject page before printing? */
-    bool include_prefix;        /* Prefix lines with space? */
-    enum legacy_encoding encoding; /* Encoding to use for output. */
+    const char *encoding;       /* Encoding to use for output. */
     struct dfm_writer *writer; /* Output file, NULL=listing file. */
     struct ll_list specs;       /* List of struct prt_out_specs. */
-    size_t record_cnt;          /* Number of records to write. */
-    struct string line;         /* Output buffer. */
+    struct u8_line line;        /* Output buffer. */
+
+    int unit;                   /* Unit width, in bytes. */
+    char one[MAX_UNIT];         /* '1' in encoding, 'unit' bytes long. */
+    char space[MAX_UNIT];       /* \n in encoding, 'unit' bytes long. */
   };
 
 enum which_formats
@@ -135,39 +139,51 @@ internal_cmd_print (struct lexer *lexer, struct dataset *ds,
   bool print_table = 0;
   struct print_trns *trns;
   struct file_handle *fh = NULL;
+  char *encoding = NULL;
   struct pool *tmp_pool;
+  int record_cnt = 0;
 
   /* Fill in prt to facilitate error-handling. */
   trns = pool_create_container (struct print_trns, pool);
   trns->eject = eject;
   trns->writer = NULL;
-  trns->record_cnt = 0;
   ll_init (&trns->specs);
-  ds_init_empty (&trns->line);
-  ds_register_pool (&trns->line, trns->pool);
+  u8_line_init (&trns->line);
+  u8_line_register_pool (&trns->line, trns->pool);
 
   tmp_pool = pool_create_subpool (trns->pool);
 
   /* Parse the command options. */
-  while (lex_token (lexer) != '/' && lex_token (lexer) != '.')
+  while (lex_token (lexer) != T_SLASH && lex_token (lexer) != T_ENDCMD)
     {
       if (lex_match_id (lexer, "OUTFILE"))
        {
-         lex_match (lexer, '=');
+         lex_match (lexer, T_EQUALS);
 
-         fh = fh_parse (lexer, FH_REF_FILE);
+         fh = fh_parse (lexer, FH_REF_FILE, NULL);
          if (fh == NULL)
            goto error;
        }
+      else if (lex_match_id (lexer, "ENCODING"))
+       {
+         lex_match (lexer, T_EQUALS);
+         if (!lex_force_string (lexer))
+           goto error;
+
+          free (encoding);
+          encoding = ss_xstrdup (lex_tokss (lexer));
+
+         lex_get (lexer);
+       }
       else if (lex_match_id (lexer, "RECORDS"))
        {
-         lex_match (lexer, '=');
-         lex_match (lexer, '(');
+         lex_match (lexer, T_EQUALS);
+         lex_match (lexer, T_LPAREN);
          if (!lex_force_int (lexer))
            goto error;
-         trns->record_cnt = lex_integer (lexer);
+         record_cnt = lex_integer (lexer);
          lex_get (lexer);
-         lex_match (lexer, ')');
+         lex_match (lexer, T_RPAREN);
        }
       else if (lex_match_id (lexer, "TABLE"))
        print_table = true;
@@ -180,10 +196,6 @@ internal_cmd_print (struct lexer *lexer, struct dataset *ds,
        }
     }
 
-  /* When PRINT or PRINT EJECT writes to an external file, we
-     prefix each line with a space for compatibility. */
-  trns->include_prefix = which_formats == PRINT && fh != NULL;
-
   /* Parse variables and strings. */
   if (!parse_specs (lexer, tmp_pool, trns, dataset_dict (ds), which_formats))
     goto error;
@@ -193,13 +205,13 @@ internal_cmd_print (struct lexer *lexer, struct dataset *ds,
 
   if (fh != NULL)
     {
-      trns->writer = dfm_open_writer (fh);
+      trns->writer = dfm_open_writer (fh, encoding);
       if (trns->writer == NULL)
         goto error;
-      trns->encoding = dfm_writer_get_legacy_encoding (trns->writer);
+      trns->encoding = dfm_writer_get_encoding (trns->writer);
     }
   else
-    trns->encoding = LEGACY_NATIVE;
+    trns->encoding = UTF8;
 
   /* Output the variable table if requested. */
   if (print_table)
@@ -238,20 +250,20 @@ parse_specs (struct lexer *lexer, struct pool *tmp_pool, struct print_trns *trns
   int record = 0;
   int column = 1;
 
-  if (lex_token (lexer) == '.')
+  if (lex_token (lexer) == T_ENDCMD)
     {
       trns->record_cnt = 1;
       return true;
     }
 
-  while (lex_token (lexer) != '.')
+  while (lex_token (lexer) != T_ENDCMD)
     {
       bool ok;
 
       if (!parse_record_placement (lexer, &record, &column))
         return false;
 
-      if (lex_token (lexer) == T_STRING)
+      if (lex_is_string (lexer))
        ok = parse_string_argument (lexer, trns, record, &column);
       else
        ok = parse_variable_argument (lexer, dict, trns, tmp_pool, &record, &column,
@@ -259,7 +271,7 @@ parse_specs (struct lexer *lexer, struct pool *tmp_pool, struct print_trns *trns
       if (!ok)
        return 0;
 
-      lex_match (lexer, ',');
+      lex_match (lexer, T_COMMA);
     }
 
   if (trns->record_cnt != 0 && trns->record_cnt != record)
@@ -279,7 +291,7 @@ parse_string_argument (struct lexer *lexer, struct print_trns *trns, int record,
   spec->type = PRT_LITERAL;
   spec->record = record;
   spec->first_column = *column;
-  ds_init_string (&spec->string, lex_tokstr (lexer));
+  ds_init_substring (&spec->string, lex_tokss (lexer));
   ds_register_pool (&spec->string, trns->pool);
   lex_get (lexer);
 
@@ -322,9 +334,9 @@ parse_variable_argument (struct lexer *lexer, const struct dictionary *dict,
                             &vars, &var_cnt, PV_DUPLICATE))
     return false;
 
-  if (lex_is_number (lexer) || lex_token (lexer) == '(')
+  if (lex_is_number (lexer) || lex_token (lexer) == T_LPAREN)
     {
-      if (!parse_var_placements (lexer, tmp_pool, var_cnt, false,
+      if (!parse_var_placements (lexer, tmp_pool, var_cnt, FMT_FOR_OUTPUT,
                                  &formats, &format_cnt))
         return false;
       add_space = false;
@@ -333,7 +345,7 @@ parse_variable_argument (struct lexer *lexer, const struct dictionary *dict,
     {
       size_t i;
 
-      lex_match (lexer, '*');
+      lex_match (lexer, T_ASTERISK);
 
       formats = pool_nmalloc (tmp_pool, var_cnt, sizeof *formats);
       format_cnt = var_cnt;
@@ -395,8 +407,7 @@ dump_table (struct print_trns *trns, const struct file_handle *fh)
   int row;
 
   spec_cnt = ll_count (&trns->specs);
-  t = tab_create (4, spec_cnt + 1, 0);
-  tab_columns (t, TAB_COL_DOWN, 1);
+  t = tab_create (4, spec_cnt + 1);
   tab_box (t, TAL_1, TAL_1, TAL_0, TAL_1, 0, 0, 3, spec_cnt);
   tab_hline (t, TAL_2, 0, 3, 1);
   tab_headers (t, 0, 0, 1, 0);
@@ -404,7 +415,6 @@ dump_table (struct print_trns *trns, const struct file_handle *fh)
   tab_text (t, 1, 0, TAB_CENTER | TAT_TITLE, _("Record"));
   tab_text (t, 2, 0, TAB_CENTER | TAT_TITLE, _("Columns"));
   tab_text (t, 3, 0, TAB_CENTER | TAT_TITLE, _("Format"));
-  tab_dim (t, tab_natural_dimensions, NULL);
   row = 1;
   ll_for_each (spec, struct prt_out_spec, ll, &trns->specs)
     {
@@ -413,7 +423,7 @@ dump_table (struct print_trns *trns, const struct file_handle *fh)
       switch (spec->type)
         {
         case PRT_LITERAL:
-          tab_text_format (t, 0, row, TAB_LEFT | TAB_FIX, "\"%.*s\"",
+          tab_text_format (t, 0, row, TAB_LEFT | TAB_FIX, "`%.*s'",
                            (int) ds_length (&spec->string),
                            ds_data (&spec->string));
           width = ds_length (&spec->string);
@@ -434,62 +444,100 @@ dump_table (struct print_trns *trns, const struct file_handle *fh)
     }
 
   if (fh != NULL)
-    tab_title (t, ngettext ("Writing %d record to %s.",
-                            "Writing %d records to %s.", trns->record_cnt),
+    tab_title (t, ngettext ("Writing %zu record to %s.",
+                            "Writing %zu records to %s.", trns->record_cnt),
                trns->record_cnt, fh_get_name (fh));
   else
-    tab_title (t, ngettext ("Writing %d record.",
-                            "Writing %d records.", trns->record_cnt),
+    tab_title (t, ngettext ("Writing %zu record.",
+                            "Writing %zu records.", trns->record_cnt),
                trns->record_cnt);
   tab_submit (t);
 }
 \f
 /* Transformation. */
 
-static void flush_records (struct print_trns *, int target_record,
-                           bool *eject, int *record);
+static void
+print_literal (struct print_trns *trns, const struct prt_out_spec *spec)
+{
+  const char *s = ds_data (&spec->string);
+  int n = ds_length (&spec->string);
+  int width = u8_width (s, n, UTF8);
+
+  u8_line_put (&trns->line, x0, x0 + width, s, n);
+}
+
+static void
+print_var (struct print_trns *trns, const struct prt_out_spec *spec,
+           const union value *value)
+{
+  int x0 = spec->first_column;
+
+  if (!spec->sysmis_as_spaces || input->f != SYSMIS)
+    {
+      char *s = data_out (input, var_get_encoding (spec->var), &spec->format);
+      size_t n = strlen (s);
+
+      x1 = ;
+      u8_line_put (&trns->line, x0, x1, s, n);
+      free (s);
+    }
+  else
+    {
+      x1 = x0 + spec->format.w;
+      memset (u8_line_reserve (&trns->line, x0, x1, x1 - x0),
+              ' ', x1 - x0);
+    }
+  
+
+}
 
 /* Performs the transformation inside print_trns T on case C. */
 static int
 print_trns_proc (void *trns_, struct ccase **c, casenumber case_num UNUSED)
 {
   struct print_trns *trns = trns_;
-  bool eject = trns->eject;
-  char encoded_space = legacy_from_native (trns->encoding, ' ');
-  int record = 1;
   struct prt_out_spec *spec;
 
-  ds_clear (&trns->line);
-  ds_put_char (&trns->line, ' ');
+  u8_line_clear (&trns->line);
+
   ll_for_each (spec, struct prt_out_spec, ll, &trns->specs)
+    switch (spec->type)
+      {
+      case PRT_LITERAL:
+        print_literal (trns, spec);
+        break;
+
+      case PRT_VAR:
+        print_var (trns, spec, case_data (*c, spec->var));
+        break;
+
+      case PRT_NEWLINE:
+        if (trns->writer == NULL)
+          tab_output_text (TAB_FIX, ds_cstr (&trns->line.s));
+        else
+          dfm_put_record (trns->writer, ds_data (&trns->line.s),
+                          ds_length (&trns->line.s));
+        u8_line_clear (&trns->line);
+        break;
+
+      case PRT_EJECT:
+        text_item_submit (text_item_create (TEXT_ITEM_EJECT_PAGE, ""));
+        break;
+      }
+  
     {
-      flush_records (trns, spec->record, &eject, &record);
+      int x0 = spec->first_column;
 
-      ds_set_length (&trns->line, spec->first_column, encoded_space);
       if (spec->type == PRT_VAR)
         {
-          const union value *input = case_data (*c, spec->var);
-          char *output = ds_put_uninit (&trns->line, spec->format.w);
-          if (!spec->sysmis_as_spaces || input->f != SYSMIS)
-            data_out_legacy (input, trns->encoding, &spec->format, output);
-          else
-            memset (output, encoded_space, spec->format.w);
-          if (spec->add_space)
-            ds_put_char (&trns->line, encoded_space);
+          const union value *input = ;
+          int x1;
+
         }
       else
         {
-          ds_put_substring (&trns->line, ds_ss (&spec->string));
-          if (trns->encoding != LEGACY_NATIVE)
-            {
-              size_t length = ds_length (&spec->string);
-              char *data = ss_data (ds_tail (&trns->line, length));
-              legacy_recode (LEGACY_NATIVE, data,
-                             trns->encoding, data, length);
-            }
         }
     }
-  flush_records (trns, trns->record_cnt + 1, &eject, &record);
 
   if (trns->writer != NULL && dfm_write_error (trns->writer))
     return TRNS_ERROR;
@@ -514,23 +562,16 @@ flush_records (struct print_trns *trns, int target_record,
         {
           *eject = false;
           if (trns->writer == NULL)
-            som_eject_page ();
+            text_item_submit (text_item_create (TEXT_ITEM_EJECT_PAGE, ""));
           else
             leader = '1';
         }
-      line[0] = legacy_from_native (trns->encoding, leader);
+      line[0] = recode_byte (trns->encoding, C_ENCODING, leader);
 
       if (trns->writer == NULL)
-        tab_output_text (TAB_FIX | TAT_NOWRAP, &line[1]);
+        tab_output_text (TAB_FIX, &line[1]);
       else
-        {
-          if (!trns->include_prefix)
-            {
-              line++;
-              length--;
-            }
-          dfm_put_record (trns->writer, line, length);
-        }
+        dfm_put_record (trns->writer, line, length);
 
       ds_truncate (&trns->line, 1);
     }