pivot table procedure conceptually works
[pspp] / doc / tutorial.texi
index bc9be40c5aa7f0af2602ae7ae7571de5db4eb0fd..a14f98e9f80baeda2dacdc7393833987da73dc18 100644 (file)
@@ -1,20 +1,20 @@
 @alias prompt = sansserif
 
-@include doc/tut.texi
+@include tut.texi
 
 @node Using PSPP
-@chapter Using PSPP
+@chapter Using @pspp{}
 
-PSPP is a tool for the statistical analysis of sampled data.
+@pspp{} is a tool for the statistical analysis of sampled data.
 You can use it to discover patterns in the data,
 to explain differences in one subset of data in terms of another subset
 and to find out
 whether certain beliefs about the data are justified.
 This chapter does not attempt to introduce the theory behind the 
 statistical analysis,
-but it shows how such analysis can be performed using PSPP.
+but it shows how such analysis can be performed using @pspp{}.
 
-For the purposes of this tutorial, it is assumed that you are using PSPP in its 
+For the purposes of this tutorial, it is assumed that you are using @pspp{} in its 
 interactive mode from the command line.
 However, the example commands can also be typed into a file and executed in 
 a post-hoc mode by typing @samp{pspp @var{filename}} at a shell prompt,
@@ -25,15 +25,15 @@ and use the @clicksequence{Run} menu when a syntax fragment is ready to be
 executed.
 Whichever method you choose, the syntax is identical.
 
-When using the interactive method, PSPP tells you that it's waiting for your
+When using the interactive method, @pspp{} tells you that it's waiting for your
 data with a string like @prompt{PSPP>} or @prompt{data>}.
 In the examples of this chapter, whenever you see text like this, it
-indicates the prompt displayed by PSPP, @emph{not} something that you 
+indicates the prompt displayed by @pspp{}, @emph{not} something that you 
 should type.
 
 Throughout this chapter reference is made to a number of sample data files.
 So that you can try the examples for yourself,
-you should have received these files along with your copy of PSPP.
+you should have received these files along with your copy of @pspp{}.@c
 @footnote{These files contain purely fictitious data.  They should not be used
 for research purposes.}
 @note{Normally these files are installed in the directory
@@ -53,8 +53,8 @@ the examples accordingly.}
 @section Preparation of Data Files
 
 
-Before analysis can commence,  the data must be loaded into PSPP and
-arranged such that both PSPP and humans can understand what
+Before analysis can commence,  the data must be loaded into @pspp{} and
+arranged such that both @pspp{} and humans can understand what
 the data represents.
 There are two aspects of data:
 
@@ -127,11 +127,11 @@ There are several things to note about this example.
 @item
 The words @samp{data list list} are an example of the @cmd{DATA LIST}
 command. @xref{DATA LIST}.
-It tells PSPP to prepare for reading data.
+It tells @pspp{} to prepare for reading data.
 The word @samp{list} intentionally appears twice.
 The first occurrence is part of the @cmd{DATA LIST} call,
 whilst the second
-tells PSPP that the data is to be read as free format data with
+tells @pspp{} that the data is to be read as free format data with
 one record per line.
 
 @item
@@ -144,18 +144,28 @@ and @samp{(A12)} says that the variable @var{forename} is a string
 variable and that its maximum length is 12 bytes.
 The second variable's name is specified by the text @samp{height}.
 Since no format is given, this variable has the default format.
+Normally the default format expects numeric data, which should be
+entered in the locale of the operating system.
+Thus, the example is correct for English locales and other
+locales which use a period (@samp{.}) as the decimal separator.
+However if you are using a system with a locale which uses the comma (@samp{,})
+as the decimal separator, then you should in the subsequent lines substitute
+@samp{.} with @samp{,}.  
+Alternatively, you could explicitly tell @pspp{} that the @var{height} 
+variable is to be read using a period as its decimal separator by appending the
+text @samp{DOT8.3} after the word @samp{height}.
 For more information on data formats, @pxref{Input and Output Formats}.
 
 
 @item
-Normally, PSPP displays the  prompt @prompt{PSPP>} whenever it's
+Normally, @pspp{} displays the  prompt @prompt{PSPP>} whenever it's
 expecting a command.
 However, when it's expecting data, the prompt changes to @prompt{data>}
 so that you know to enter data and not a command.
 
 @item
 At the end of every command there is a terminating @samp{.} which tells
-PSPP that the end of a command has been encountered.
+@pspp{} that the end of a command has been encountered.
 You should not enter @samp{.} when data is expected (@i{ie.} when 
 the @prompt{data>} prompt is current) since it is appropriate only for
 terminating commands.
@@ -226,13 +236,13 @@ parameters.
 For full details refer to @pxref{DATA LIST}.
 
 @node Reading data from a pre-prepared PSPP file
-@subsection Reading data from a pre-prepared PSPP file
+@subsection Reading data from a pre-prepared @pspp{} file
 @cindex system files
 @vindex GET
 
-When working with other PSPP users, or users of other software which
-uses the PSPP data format, you may be given the data in
-a pre-prepared PSPP file.
+When working with other @pspp{} users, or users of other software which
+uses the @pspp{} data format, you may be given the data in
+a pre-prepared @pspp{} file.
 Such files contain not only the data, but the variable definitions,
 along with their formats, labels and other meta-data.
 Conventionally, these files (sometimes called ``system'' files) 
@@ -247,12 +257,12 @@ You will encounter several instances of this in future examples.
 
 
 @node Saving data to a PSPP file.
-@subsection Saving data to a PSPP file.
+@subsection Saving data to a @pspp{} file.
 @cindex saving
 @vindex SAVE
 
 If you want to save your data, along with the variable definitions so
-that you or other PSPP users can use it later, you can do this with
+that you or other @pspp{} users can use it later, you can do this with
 the @cmd{SAVE} command.
 
 The following syntax will save the existing data and variables to a
@@ -301,7 +311,7 @@ At the very least, it's good practice to check for errors.
 @cindex errors, in data
 
 Data from real sources is rarely error free.
-PSPP has a number of procedures which can be used to help 
+@pspp{} has a number of procedures which can be used to help 
 identify data which might be incorrect.
 
 The @cmd{DESCRIPTIVES} command (@pxref{DESCRIPTIVES}) is used to generate
@@ -403,13 +413,13 @@ They are possibly erroneous.}
 If possible, suspect data should be checked and re-measured.
 However, this may not always be feasible, in which case the researcher may
 decide to disregard these values.
-PSPP has a feature whereby data can assume the special value `SYSMIS', and
+@pspp{} has a feature whereby data can assume the special value `SYSMIS', and
 will be disregarded in future analysis. @xref{Missing Observations}.
 You can set the two suspect values to the `SYSMIS' value using the @cmd{RECODE}
 command.
 @example
-PSPP> recode height (179 = SYSMIS).
-PSPP> recode weight (LOWEST THRU 0 = SYSMIS).
+@pspp{}> recode height (179 = SYSMIS).
+@pspp{}> recode weight (LOWEST THRU 0 = SYSMIS).
 @end example
 @noindent
 The first command says that for any observation which has a
@@ -434,7 +444,7 @@ Data entry errors are not the only reason for wanting to recode data.
 The sample file @file{hotel.sav} comprises data gathered from a 
 customer satisfaction survey of clients at a particular hotel.
 In @ref{reliability}, this file is loaded for analysis.
-The line @code{display dictionary.} tells PSPP to display the
+The line @code{display dictionary.} tells @pspp{} to display the
 variables and associated data.
 The output from this command has been omitted from the example for the sake of clarity, but
 you will notice that each of the variables
@@ -479,7 +489,7 @@ you will notice that they ask very similar questions.
 One would therefore expect the values of these variables (after recoding) 
 to closely follow one another, and we can test that with the @cmd{RELIABILITY} 
 command (@pxref{RELIABILITY}).
-@ref{reliability} shows a PSPP session where the user (after recoding
+@ref{reliability} shows a @pspp{} session where the user (after recoding
 negatively scaled variables) requests reliability statistics for
 @var{v1}, @var{v3} and @var{v5}.
 
@@ -507,7 +517,7 @@ Output (dictionary information omitted for clarity):
 
 1.2 RELIABILITY.  Reliability Statistics
 #================#==========#
-#Cronbach's Alpha#N of items#
+#Cronbach's Alpha#N of Items#
 #================#==========#
 #             .86#         3#
 #================#==========#
@@ -639,15 +649,16 @@ is hypothesis testing.
 Researchers commonly need to test hypotheses about a set of data.
 For example, she might want to test whether one set of data comes from
 the same distribution as another,
-or does the mean of a dataset significantly differ from a particular
+or
+whether the mean of a dataset significantly differs from a particular
 value.
-This section presents just some of the possible tests that PSPP offers.
+This section presents just some of the possible tests that @pspp{} offers.
 
 The researcher starts by making a @dfn{null hypothesis}.
 Often this is a hypothesis which he suspects to be false.
 For example, if he suspects that @var{A} is greater than @var{B} he will 
-state the null hypothesis as @math{ @var{A} = @var{B}}.
-@footnote{This example assumes that is it already proven that @var{B} is
+state the null hypothesis as @math{ @var{A} = @var{B}}.@c
+@footnote{This example assumes that it is already proven that @var{B} is
 not greater than @var{A}.}
 
 The @dfn{p-value} is a recurring concept in hypothesis testing.
@@ -694,23 +705,24 @@ Levene test for equal variances.
 If the variances are equal, then a more powerful form of the T-test can be used.
 However if it is unsafe to assume equal variances,
 then an alternative calculation is necessary.
-PSPP performs both calculations.
+@pspp{} performs both calculations.
 
 For the @var{height} variable, the output shows the significance of the 
 Levene test to be 0.33 which means there is a 
 33% probability that the  
-Levene test produces this outcome when the variances are unequal.
-Such a probability is too high
-to assume that the variances are equal so the row
-for unequal variances should be used.
+Levene test produces this outcome when the variances are equal.
+Had the significance been less than 0.05, then it would have been unsafe to assume that
+the variances were equal.
+However, because the value is higher than 0.05 the homogeneity of variances assumption
+is safe and the ``Equal Variances'' row (the more powerful test) can be used.
 Examining this row, the two tailed significance for the @var{height} t-test 
 is less than 0.05, so it is safe to reject the null hypothesis and conclude
 that the mean heights of males and females are unequal.
 
 For the @var{temperature} variable, the significance of the Levene test 
-is 0.58 so again, it is unsafe to use the row for equal variances.
-The unequal variances row indicates that the two tailed significance for
-@var{temperature} is 0.19.  Since this is greater than 0.05 we must reject
+is 0.58 so again, it is safe to use the row for equal variances.
+The equal variances row indicates that the two tailed significance for
+@var{temperature} is 0.20.  Since this is greater than 0.05 we must reject
 the null hypothesis and conclude that there is insufficient evidence to 
 suggest that the body temperature of male and female persons are different.