cleanup
[pspp] / rust / src / main.rs
index 56b007e05beb41a32945a208fbe19a96ac7f3453..404e96d57d07becaf09c4688319a0ac3739ceee4 100644 (file)
  * along with this program.  If not, see <http://www.gnu.org/licenses/>. */
 
 use anyhow::Result;
-use clap::Parser;
-use pspp::raw::{Reader, Record, UnencodedStr, Value};
+use clap::{Parser, ValueEnum};
+use encoding_rs::Encoding;
+use pspp::cooked::decode;
+use pspp::raw::{Reader, Record, Magic};
 use std::fs::File;
 use std::io::BufReader;
 use std::path::{Path, PathBuf};
-use std::str::{self, from_utf8};
+use std::str;
+use thiserror::Error as ThisError;
 
 /// A utility to dissect SPSS system files.
 #[derive(Parser, Debug)]
@@ -33,76 +36,84 @@ struct Args {
     /// Files to dissect.
     #[arg(required = true)]
     files: Vec<PathBuf>,
+
+    /// How to dissect the file.
+    #[arg(short, long, value_enum, default_value_t)]
+    mode: Mode,
+
+    /// The encoding to use.
+    #[arg(long, value_parser = parse_encoding)]
+    encoding: Option<&'static Encoding>,
+}
+
+#[derive(ThisError, Debug)]
+#[error("{0}: unknown encoding")]
+struct UnknownEncodingError(String);
+
+fn parse_encoding(arg: &str) -> Result<&'static Encoding, UnknownEncodingError> {
+    match Encoding::for_label_no_replacement(arg.as_bytes()) {
+        Some(encoding) => Ok(encoding),
+        None => Err(UnknownEncodingError(arg.to_string())),
+    }
+}
+
+#[derive(Clone, Copy, Debug, Default, ValueEnum)]
+enum Mode {
+    Identify,
+    Raw,
+    #[default]
+    Cooked,
 }
 
 fn main() -> Result<()> {
-    let Args { max_cases, files } = Args::parse();
+    let Args {
+        max_cases,
+        files,
+        mode,
+        encoding,
+    } = Args::parse();
 
     for file in files {
-        if let Err(error) = dissect(&file, max_cases) {
-            println!("{}: {error}", file.display());
-        }
+        dissect(&file, max_cases, mode, encoding)?;
     }
     Ok(())
 }
 
-fn dissect(file_name: &Path, _max_cases: u64) -> Result<()> {
+fn dissect(file_name: &Path, max_cases: u64, mode: Mode, encoding: Option<&'static Encoding>) -> Result<()> {
     let reader = File::open(file_name)?;
     let reader = BufReader::new(reader);
     let mut reader = Reader::new(reader)?;
-    let records: Vec<Record> = reader.collect_headers()?;
-
-    let mut character_code = None;
-    for record in records {
-        //println!("{record:?}");
-        if let Record::IntegerInfo(ref info) = record {
-            character_code = Some(info.character_code);
-        }
-        if let Record::EndOfHeaders(_) = record {
-            break;
-        };
-    }
 
-    if character_code != Some(65001) {
-        return Ok(());
-    }
-    let mut n = 0;
-    while let Some(Ok(Record::Case(data))) = reader.next() {
-        n += 1;
-        let mut strings = Vec::new();
-        for value in data.iter() {
-            if let Value::String(UnencodedStr(s)) = value {
-                strings.extend_from_slice(&s[..]);
+    match mode {
+        Mode::Identify => {
+            let Record::Header(header) = reader.next().unwrap()? else { unreachable!() };
+            match header.magic {
+                Magic::Sav => println!("SPSS System File"),
+                Magic::Zsav => println!("SPSS System File with Zlib compression"),
+                Magic::Ebcdic => println!("EBCDIC-encoded SPSS System File"),
             }
+            return Ok(())
         }
-
-        let mut rest = &strings[..];
-        let mut any_errors = false;
-        while let Err(error) = from_utf8(&rest) {
-            if !any_errors {
-                print!("{}: UTF-8 error", file_name.display());
-                any_errors = true;
-            }
-            let start = error.valid_up_to();
-            let len = match error.error_len() {
-                Some(len) => len,
-                None => rest.len() - start
-            };
-//            print!(" {}", (start + len) % 8);
-            print!("[");
-            for i in 0..len {
-                print!("{:02x}", rest[i + start]);
+        Mode::Raw => {
+            let headers: Vec<Record> = reader.collect_headers()?;
+            for header in headers {
+                println!("{header:?}");
             }
-            print!("]");
-            rest = &rest[start + len..];
         }
-        if any_errors {
-            println!();
-            println!("Lossy: {}", String::from_utf8_lossy(&strings[..]).replace(char::REPLACEMENT_CHARACTER, "??????").replace(&[' ', '\0'], ""));
-            return Ok(())
+        Mode::Cooked => {
+            let headers: Vec<Record> = reader.collect_headers()?;
+            let headers = decode(headers, encoding, &|e| panic!("{e}"))?;
+            for header in headers {
+                println!("{header:?}");
+            }
         }
-        //println!("{:?}", data);
     }
-    println!("{}: read {n} records", file_name.display());
+
+    for _ in 0..max_cases {
+        let Some(Ok(record)) = reader.next() else {
+            break;
+        };
+        println!("{:?}", record);
+    }
     Ok(())
 }