Replace lsdir system call by readdir, isdir system calls,
[pintos-anon] / doc / filesys.texi
1 @node Project 4--File Systems
2 @chapter Project 4: File Systems
3
4 In the previous two assignments, you made extensive use of a
5 file system without actually worrying about how it was implemented
6 underneath.  For this last assignment, you will improve the
7 implementation of the file system.  You will be working primarily in
8 the @file{filesys} directory.
9
10 You may build project 4 on top of project 2 or project 3.  In either
11 case, all of the functionality needed for project 2 must work in your
12 filesys submission.  If you build on project 3, then all of the project
13 3 functionality must work also, and you will need to edit
14 @file{filesys/Make.vars} to enable VM functionality.  You can receive up
15 to 5% extra credit if you do enable VM.
16
17 The tests for project 4 will probably run faster if
18 you use the qemu emulator, e.g.@: via @code{make check
19 PINTOSOPTS='--qemu'}.
20
21 @menu
22 * Project 4 Background::        
23 * Project 4 Requirements::      
24 * Project 4 FAQ::               
25 @end menu
26
27 @node Project 4 Background
28 @section Background
29
30 @menu
31 * File System New Code::        
32 @end menu
33
34 @node File System New Code
35 @subsection New Code
36
37 Here are some files that are probably new to you.  These are in the
38 @file{filesys} directory except where indicated:
39
40 @table @file
41 @item fsutil.c
42 Simple utilities for the file system that are accessible from the
43 kernel command line.
44
45 @item filesys.h
46 @itemx filesys.c
47 Top-level interface to the file system.  @xref{Using the File System},
48 for an introduction.
49
50 @item directory.h
51 @itemx directory.c
52 Translates file names to inodes.  The directory data structure is
53 stored as a file.
54
55 @item inode.h
56 @itemx inode.c
57 Manages the data structure representing the layout of a
58 file's data on disk.
59
60 @item file.h
61 @itemx file.c
62 Translates file reads and writes to disk sector reads
63 and writes.
64
65 @item lib/kernel/bitmap.h
66 @itemx lib/kernel/bitmap.c
67 A bitmap data structure along with routines for reading and writing
68 the bitmap to disk files.
69 @end table
70
71 Our file system has a Unix-like interface, so you may also wish to
72 read the Unix man pages for @code{creat}, @code{open}, @code{close},
73 @code{read}, @code{write}, @code{lseek}, and @code{unlink}.  Our file
74 system has calls that are similar, but not identical, to these.  The
75 file system translates these calls into disk operations.  
76
77 All the basic functionality is there in the code above, so that the
78 file system is usable from the start, as you've seen
79 in the previous two projects.  However, it has severe limitations
80 which you will remove.
81
82 While most of your work will be in @file{filesys}, you should be
83 prepared for interactions with all previous parts.
84
85 @node Project 4 Requirements
86 @section Requirements
87
88 @menu
89 * Project 4 Design Document::   
90 * Indexed and Extensible Files::  
91 * Subdirectories::              
92 * Buffer Cache::                
93 * File System Synchronization::  
94 @end menu
95
96 @node Project 4 Design Document
97 @subsection Design Document
98
99 Before you turn in your project, you must copy @uref{filesys.tmpl, , the
100 project 4 design document template} into your source tree under the name
101 @file{pintos/src/filesys/DESIGNDOC} and fill it in.  We recommend that
102 you read the design document template before you start working on the
103 project.  @xref{Project Documentation}, for a sample design document
104 that goes along with a fictitious project.
105
106 @node Indexed and Extensible Files
107 @subsection Indexed and Extensible Files
108
109 The basic file system allocates files as a single extent, making it
110 vulnerable to external fragmentation, that is, it is possible that an
111 @var{n}-block file cannot be allocated even though @var{n} blocks are
112 free.  Eliminate this problem by
113 modifying the on-disk inode structure.  In practice, this probably means using
114 an index structure with direct, indirect, and doubly indirect blocks.
115 You are welcome to choose a different scheme as long as you explain the
116 rationale for it in your design documentation, and as long as it does
117 not suffer from external fragmentation (as does the extent-based file
118 system we provide).
119
120 You can assume that the disk will not be larger than 8 MB.  You must
121 support files as large as the disk (minus metadata).  Each inode is
122 stored in one disk sector, limiting the number of block pointers that it
123 can contain.  Supporting 8 MB files will require you to implement
124 doubly-indirect blocks.
125
126 An extent-based file can only grow if it is followed by empty space, but
127 indexed inodes make file growth possible whenever free space is
128 available.  Implement file growth.  In the basic file system, the file
129 size is specified when the file is created.  In most modern file
130 systems, a file is initially created with size 0 and is then expanded
131 every time a write is made off the end of the file.  Your file system
132 must allow this.
133
134 There should be no predetermined limit on the size of a file, except
135 that a file cannot exceed the size of the disk (minus metadata).  This
136 also applies to the root directory file, which should now be allowed
137 to expand beyond its initial limit of 16 files.
138
139 User programs are allowed to seek beyond the current end-of-file (EOF).  The
140 seek itself does not extend the file.  Writing at a position past EOF
141 extends the file to the position being written, and any gap between the
142 previous EOF and the start of the write must be filled with zeros.  A
143 read starting from a position past EOF returns no bytes.
144
145 Writing far beyond EOF can cause many blocks to be entirely zero.  Some
146 file systems allocate and write real data blocks for these implicitly
147 zeroed blocks.  Other file systems do not allocate these blocks at all
148 until they are explicitly written.  The latter file systems are said to
149 support ``sparse files.''  You may adopt either allocation strategy in
150 your file system.
151
152 @node Subdirectories
153 @subsection Subdirectories
154
155 Implement a hierarchical name space.  In the basic file system, all
156 files live in a single directory.  Modify this to allow directory
157 entries to point to files or to other directories.
158
159 Make sure that directories can expand beyond their original size just
160 as any other file can.  
161
162 The basic file system has a 14-character limit on file names.  You may
163 retain this limit for individual file name components, or may extend
164 it, at your option.  You must allow full path names to be
165 much longer than 14 characters.
166
167 Maintain a separate current directory for each process.  At
168 startup, set the root as the initial process's current directory.
169 When one process starts another with the @code{exec} system call, the
170 child process inherits its parent's current directory.  After that, the
171 two processes' current directories are independent, so that either
172 changing its own current directory has no effect on the other.
173 (This is why, under Unix, the @command{cd} command is a shell built-in,
174 not an external program.)
175
176 Update the existing system calls so that, anywhere a file name is
177 provided by the caller, an absolute or relative path name may used.
178 The directory separator character is forward slash (@samp{/}).
179 You may support @file{.} and @file{..} for a small amount of extra
180 credit.
181
182 Update the @code{remove} system call so that it can delete empty
183 directories in addition to regular files.  Directories can only be
184 deleted if they do not contain any files or subdirectories.
185
186 Update the @code{open} system call so that it can also open directories.
187 Passing @file{.} as the argument to @code{open} must open the current
188 directory, regardless of whether @file{.} and @file{..} are fully
189 implemented.  Of the existing system calls, only @code{close} needs to
190 accept a file descriptor for a directory.
191
192 Implement the following new system calls:
193
194 @deftypefn {System Call} bool chdir (const char *@var{dir})
195 Changes the current working directory of the process to
196 @var{dir}, which may be relative or absolute.  Returns true if
197 successful, false on failure.
198 @end deftypefn
199
200 @deftypefn {System Call} bool mkdir (const char *@var{dir})
201 Creates the directory named @var{dir}, which may be
202 relative or absolute.  Returns true if successful, false on failure.
203 Fails if @var{dir} already exists or if any directory name in
204 @var{dir}, besides the last, does not already exist.  That is,
205 @code{mkdir("/a/b/c")} succeeds only if @file{/a/b} already exists and
206 @file{/a/b/c} does not.
207 @end deftypefn
208
209 @deftypefn {System Call} bool readdir (int @var{fd}, char *@var{name})
210 Reads a directory entry from file descriptor @var{fd}, which must
211 represent a directory.  If successful, stores the null-terminated file
212 name in @var{name}, which must have room for @code{READDIR_MAX_LEN + 1}
213 bytes, and returns true.  If no entries are left in the directory,
214 returns false.
215
216 @file{.} and @file{..} should not be returned by @code{readdir},
217 regardless of whether they are implemented.
218
219 If the directory changes while it is open, then it is acceptable for
220 some entries not to be read at all or to be read multiple times.
221 Otherwise, each directory entry should be read once, in any order.
222
223 @code{READDIR_MAX_LEN} is defined in @file{lib/user/syscall.h}.  If your
224 file system supports longer file names than the basic file system, you
225 should increase this value from the default of 14.
226 @end deftypefn
227
228 @deftypefn {System Call} bool isdir (int @var{fd})
229 Returns true if @var{fd} represents a directory,
230 false if it represents an ordinary file.
231 @end deftypefn
232
233 We have provided @command{ls} and @command{mkdir} user programs, which
234 are straightforward once the above syscalls are implemented.  The
235 @command{shell} program implements @command{cd} internally.
236
237 The @code{pintos} @option{put} and @option{get} commands should now
238 accept full path names, assuming that the directories used in the
239 paths have already been created.  This should not require any extra
240 effort on your part.
241
242 @node Buffer Cache
243 @subsection Buffer Cache
244
245 Modify the file system to keep a cache of file blocks.  When a request
246 is made to read or write a block, check to see if it is in the
247 cache, and if so, use the cached data without going to
248 disk.  Otherwise, fetch the block from disk into cache, evicting an
249 older entry if necessary.  You are limited to a cache no greater than 64
250 sectors in size.
251
252 Be sure to choose an intelligent cache replacement algorithm.
253 Experiment to see what combination of accessed, dirty, and other
254 information results in the best performance, as measured by the number
255 of disk accesses.  For example, metadata is generally more valuable to
256 cache than data.
257
258 You can keep a cached copy of the free map permanently in memory if you
259 like.  It doesn't have to count against the cache size.
260
261 The provided inode code uses a ``bounce buffer'' allocated with
262 @func{malloc} to translate the disk's sector-by-sector interface into
263 the system call interface's byte-by-byte interface.  You should get rid
264 of these bounce buffers.  Instead, copy data into and out of sectors in
265 the buffer cache directly.
266
267 Your cache should be @dfn{write-behind}, that is,
268 keep dirty blocks in the cache, instead of immediately writing modified
269 data to disk.  Write dirty blocks to disk whenever they are evicted.
270 Because write-behind makes your file system more fragile in the face of
271 crashes, in addition you should periodically write all dirty, cached
272 blocks back to disk.  The cache should also be written back to disk in
273 @func{filesys_done}, so that halting Pintos flushes the cache.
274
275 If you have @func{timer_sleep} from the first project working, write-behind is
276 an excellent application.  If you're still using the base
277 implementation of @func{timer_sleep}, be aware that it busy-waits, which
278 is not acceptable here (or elsewhere).  If @func{timer_sleep}'s delays seem too
279 short or too long, reread the explanation of the @option{-r} option to
280 @command{pintos} (@pxref{Debugging versus Testing}).
281
282 You should also implement @dfn{read-ahead}, that is,
283 automatically fetch the next block of a file
284 into the cache when one block of a file is read, in case that block is
285 about to be read.
286 Read-ahead is only really useful when done asynchronously.  That means,
287 if a process requests disk block 1 from the file, it should block until disk
288 block 1 is read in, but once that read is complete, control should
289 return to the process immediately.  The read-ahead request for disk
290 block 2 should be handled asynchronously, in the background.
291
292 @strong{We recommend integrating the cache into your design early.}  In
293 the past, many groups have tried to tack the cache onto a design late in
294 the design process.  This is very difficult.  These groups have often
295 turned in projects that failed most or all of the tests.
296
297 @node File System Synchronization
298 @subsection Synchronization
299
300 The provided file system requires external synchronization, that is,
301 callers must ensure that only one thread can be running in the file
302 system code at once.  Your submission must adopt a finer-grained
303 synchronization strategy that does not require external synchronization.
304 To the extent possible, operations on independent entities should be
305 independent, so that they do not need to wait on each other.
306
307 Operations on different cache blocks must be independent.  In
308 particular, when I/O is required on a particular block, operations on
309 other blocks that do not require I/O should proceed without having to
310 wait for the I/O to complete.
311
312 Multiple processes must be able to access a single file at once.
313 Multiple reads of a single file must be able to complete without
314 waiting for one another.  When writing to a file does not extend the
315 file, multiple processes should also be able to write a single file at
316 once.  A read of a file by one process when the file is being written by
317 another process is allowed to show that none, all, or part of the write
318 has completed.  (However, after the @code{write} system call returns to
319 its caller, all subsequent readers must see the change.)  Similarly,
320 when two processes simultaneously write to the same part of a file,
321 their data may be interleaved.
322
323 On the other hand, extending a file and writing data into the new
324 section must be atomic.  Suppose processes A and B both have a given
325 file open and both are positioned at end-of-file.  If A reads and B
326 writes the file at the same time, A may read all, part, or none of what
327 B writes.  However, A may not read data other than what B writes, e.g.@:
328 if B's data is all nonzero bytes, A is not allowed to see any zeros.
329
330 Operations on different directories should take place concurrently.
331 Operations on the same directory may wait for one another.
332
333 @node Project 4 FAQ
334 @section FAQ
335
336 @table @b
337 @item How much code will I need to write?
338
339 Here's a summary of our reference solution, produced by the
340 @command{diffstat} program.  The final row gives total lines inserted
341 and deleted; a changed line counts as both an insertion and a deletion.
342
343 This summary is relative to the Pintos base code, but the reference
344 solution for project 4 is based on the reference solution to project 3.
345 Thus, the reference solution runs with virtual memory enabled.
346 @xref{Project 3 FAQ}, for the summary of project 3.
347
348 The reference solution represents just one possible solution.  Many
349 other solutions are also possible and many of those differ greatly from
350 the reference solution.  Some excellent solutions may not modify all the
351 files modified by the reference solution, and some may modify files not
352 modified by the reference solution.
353
354 @verbatim
355  Makefile.build       |    5 
356  devices/timer.c      |   42 ++
357  filesys/Make.vars    |    6 
358  filesys/cache.c      |  473 +++++++++++++++++++++++++
359  filesys/cache.h      |   23 +
360  filesys/directory.c  |   99 ++++-
361  filesys/directory.h  |    3 
362  filesys/file.c       |    4 
363  filesys/filesys.c    |  194 +++++++++-
364  filesys/filesys.h    |    5 
365  filesys/free-map.c   |   45 +-
366  filesys/free-map.h   |    4 
367  filesys/fsutil.c     |    8 
368  filesys/inode.c      |  444 ++++++++++++++++++-----
369  filesys/inode.h      |   11 
370  threads/init.c       |    5 
371  threads/interrupt.c  |    2 
372  threads/thread.c     |   32 +
373  threads/thread.h     |   38 +-
374  userprog/exception.c |   12 
375  userprog/pagedir.c   |   10 
376  userprog/process.c   |  332 +++++++++++++----
377  userprog/syscall.c   |  582 ++++++++++++++++++++++++++++++-
378  userprog/syscall.h   |    1 
379  vm/frame.c           |  161 ++++++++
380  vm/frame.h           |   23 +
381  vm/page.c            |  297 +++++++++++++++
382  vm/page.h            |   50 ++
383  vm/swap.c            |   85 ++++
384  vm/swap.h            |   11 
385  30 files changed, 2721 insertions(+), 286 deletions(-)
386 @end verbatim
387
388 @item What extra credit opportunities are available?
389
390 You may implement Unix-style support for @file{.} and @file{..} in
391 relative paths in their projects.
392
393 You may submit with VM enabled.
394
395 @item Can @code{DISK_SECTOR_SIZE} change?
396
397 No, @code{DISK_SECTOR_SIZE} is fixed at 512.  This is a fixed property
398 of IDE disk hardware.
399 @end table
400
401 @menu
402 * Indexed Files FAQ::           
403 * Subdirectories FAQ::          
404 * Buffer Cache FAQ::            
405 @end menu
406
407 @node Indexed Files FAQ
408 @subsection Indexed Files FAQ
409
410 @table @b
411 @item What is the largest file size that we are supposed to support?
412
413 The disk we create will be 8 MB or smaller.  However, individual files
414 will have to be smaller than the disk to accommodate the metadata.
415 You'll need to consider this when deciding your inode organization.
416 @end table
417
418 @node Subdirectories FAQ
419 @subsection Subdirectories FAQ
420
421 @table @b
422 @item How should a file name like @samp{//a//b} be interpreted?
423
424 Multiple consecutive slashes are equivalent to a single slash, so this
425 file name is the same as @samp{/a/b}.
426
427 @item How about a file name like @samp{/../x}?
428
429 If you don't implement @file{.} and @file{..}, then this is not a
430 special case.  If you do, then it is equivalent to @samp{/x}.  That is,
431 the root directory is its own parent.
432 @end table
433
434 @node Buffer Cache FAQ
435 @subsection Buffer Cache FAQ
436
437 @table @b
438 @item Can we keep a @struct{inode_disk} inside @struct{inode}?
439
440 The goal of the 64-block limit is to bound the amount of cached file
441 system data.  If you keep a block of disk data---whether file data or
442 metadata---anywhere in kernel memory then you have to count it against
443 the 64-block limit.  The same rule applies to anything that's
444 ``similar'' to a block of disk data, such as a @struct{inode_disk}
445 without the @code{length} or @code{sector_cnt} members.
446
447 That means you'll have to change the way the inode implementation
448 accesses its corresponding on-disk inode right now, since it currently
449 just embeds a @struct{inode_disk} in @struct{inode} and reads the
450 corresponding sector from disk when it's created.  Keeping extra
451 copies of inodes would subvert the 64-block limitation that we place
452 on your cache.
453
454 You can store a pointer to inode data in @struct{inode}, but it you do
455 so you should carefully make sure that this does not limit your OS to 64
456 simultaneously open files.
457 You can also store other information to help you find the inode when you
458 need it.  Similarly, you may store some metadata along each of your 64
459 cache entries.
460
461 You can keep a cached copy of the free map permanently in memory if you
462 like.  It doesn't have to count against the cache size.
463
464 @func{byte_to_sector} in @file{filesys/inode.c} uses the
465 @struct{inode_disk} directly, without first reading that sector from
466 wherever it was in the storage hierarchy.  This will no longer work.
467 You will need to change @func{inode_byte_to_sector} to obtain the
468 @struct{inode_disk} from the cache before using it.
469 @end table