Complete XML structure.
[pspp] / parse-all-xml
index 98a4258ddbd50c36bbc47fbca083df5491837844..0dfd8102500184356c46daafdbdc4d2055a1e226 100755 (executable)
@@ -1,5 +1,22 @@
 #! /bin/sh
-for d in `ls -1 unzipped/*/*.xml |grep -vE 'notes|table|warning|chart|model'`
-do
-    ./parse-xml $d
-done | sort -u
+
+# Parse the structure members that do not represent models or graphs
+# and that are not page setups (which are always the first structure member).
+# Also skip those with borderProperties, which indicate the non-"light"
+# format.
+lightTables=`ls -1 unzipped/*/*.xml |grep -vE 'notes|table|warning|chart|model' \
+          | xargs grep -EL '<([a-z]*:)?(model|graph|pageSetup|borderProperties)'`
+#printf 'Structure:\n'
+#for d in $lightTables; do
+#    ./parse-xml $d containment
+#done | sort | uniq -c | sort -rn
+
+printf '\nAttributes:\n'
+for d in $lightTables; do
+    ./parse-xml $d text
+done | sort | uniq -c | sort -rn
+
+#printf '\nLabels:\n'
+#for d in $lightTables; do
+#    ./parse-xml $d labels
+#done | sort | uniq -c | sort -rn