Update docs.
[pintos-anon] / doc / vm.texi
1 @node Project 3--Virtual Memory, Project 4--File Systems, Project 2--User Programs, Top
2 @chapter Project 3: Virtual Memory
3
4 By now you should be familiar with the inner workings of Pintos.
5 You've already come a long way: your OS can properly handle multiple
6 threads of execution with proper synchronization, and can load
7 multiple user programs at once.  However, when loading user programs,
8 your OS is limited by how much main memory the simulated machine has.
9 In this assignment, you will remove that limitation.
10
11 You will be using the @file{vm} directory for this project.  The
12 @file{vm} directory contains only the @file{Makefile}s.  The only
13 change from @file{userprog} is that this new @file{Makefile} turns on
14 the setting @option{-DVM}.  All code you write will either be newly
15 generated files (e.g.@: if you choose to implement your paging code in
16 their own source files), or will be modifications to pre-existing code
17 (e.g.@: you will change the behavior of @file{process.c}
18 significantly).
19
20 There are only a couple of source files you will probably be
21 encountering for the first time:
22
23 @table @file
24 @item devices/disk.h
25 @itemx devices/disk.c
26 Provides access to the physical disk, abstracting away the rather
27 awful IDE interface.
28 @end table
29
30 You will be building this assignment on the last one.  It will benefit
31 you to get your project 2 in good working order before this assignment
32 so those bugs don't keep haunting you.
33
34 All the test programs from the previous project should also work with
35 this project.  You should also write programs to test the new features
36 introduced in this project.
37
38 Your submission should define @code{THREAD_JOIN_IMPLEMENTED} in
39 @file{constants.h} (@pxref{Conditional Compilation}).
40
41 @menu
42 * VM Design::                   
43 * Page Faults::                 
44 * Disk as Backing Store::       
45 * Memory Mapped Files::         
46 * Stack::                       
47 * Problem 3-1 Page Table Management::  
48 * Problem 3-2 Paging To and From Disk::  
49 * Problem 3-3 Memory Mapped Files::  
50 * Virtual Memory FAQ::          
51 @end menu
52
53 @node VM Design
54 @section A Word about Design
55
56 It is important for you to note that in addition to getting virtual
57 memory working, this assignment is also meant to be an open-ended
58 design problem.  We will expect you to come up with a design that
59 makes sense.  You will have the freedom to choose how to handle page
60 faults, how to organize the swap disk, how to implement paging, etc.
61 In each case, we will expect you to provide a defensible justification
62 in your design documentation as to why your choices are reasonable.
63 You should evaluate your design on all the available criteria: speed
64 of handling a page fault, space overhead in memory, minimizing the
65 number of page faults, simplicity, etc.
66
67 In keeping with this, you will find that we are going to say as little
68 as possible about how to do things.  Instead we will focus on what end
69 functionality we require your OS to support.
70
71 @node Page Faults
72 @section Page Faults
73
74 For the last assignment, whenever a context switch occurred, the new
75 process would install its own page table into the machine.  The page
76 table contained all the virtual-to-physical translations for the
77 process.  Whenever the processor needed to look up a translation, it
78 consulted the page table.  As long as the process only accessed
79 memory that it didn't own, all was well.  If the process accessed
80 memory it didn't own, it ``page faulted'' and @func{page_fault}
81 terminated the process.
82
83 When we implement virtual memory, the rules have to change.  A page
84 fault is no longer necessarily an error, since it might only indicate
85 that the page must be brought in from a disk file or from swap.  You
86 will have to implement a more sophisticated page fault handler to
87 handle these cases.
88
89 On the 80@var{x}86, the page table format is fixed by hardware.  We
90 have provided code for managing page tables for you to use in
91 @file{userprog/pagedir.c}.  The functions in there should provide an
92 abstract interface to all the page table functionality that you need
93 to complete the project.  However, you may still find it worthwhile to
94 understand a little about the hardware page table format, so we'll go
95 into a little of detail about that in this section.
96
97 The top-level paging data structure is a 4 kB page called the ``page
98 directory'' (PD) arranged as an array of 1,024 32-bit page directory
99 entries (PDEs), each of which represents 4 MB of virtual memory.  Each
100 PDE may point to the physical address of another 4 kB page called a
101 ``page table'' (PT) arranged in the same fashion as an array of 1,024
102 32-bit page table entries (PTEs), each of which translates a single 4
103 kB virtual page into physical memory.
104
105 Thus, translation of a virtual address into a physical address follows
106 the three-step process illustrated in the diagram
107 below:@footnote{Actually, virtual to physical translation on the
108 80@var{x}86 architecture happens via an intermediate ``linear
109 address,'' but Pintos (and most other 80@var{x}86 OSes) set up the CPU
110 so that linear and virtual addresses are one and the same, so that you
111 can effectively ignore this CPU feature.}
112
113 @enumerate 1
114 @item
115 The top 10 bits of the virtual address (bits 22:32) are used to index
116 into the page directory.  If the PDE is marked ``present,'' the
117 physical address of a page table is read from the PDE thus obtained.
118 If the PDE is marked ``not present'' then a page fault occurs.
119
120 @item
121 The next 10 bits of the virtual address (bits 12:22) are used to index
122 into the page table.  If the PTE is marked ``present,'' the physical
123 address of a data page is read from the PTE thus obtained.  If the PTE
124 is marked ``not present'' then a page fault occurs.
125
126
127 @item
128 The bottom 12 bits of the virtual address (bits 0:12) are added to the
129 data page's physical base address, producing the final physical
130 address.
131 @end enumerate
132
133 @example
134 @group
135 32                    22                     12                      0
136 +--------------------------------------------------------------------+
137 | Page Directory Index |   Page Table Index   |    Page Offset       |
138 +--------------------------------------------------------------------+
139              |                    |                     |
140      _______/             _______/                _____/
141     /                    /                       /
142    /    Page Directory  /      Page Table       /    Data Page
143   /     .____________. /     .____________.    /   .____________.
144   |1,023|____________| |1,023|____________|    |   |____________|
145   |1,022|____________| |1,022|____________|    |   |____________|
146   |1,021|____________| |1,021|____________|    \__\|____________|
147   |1,020|____________| |1,020|____________|       /|____________|
148   |     |            | |     |            |        |            |
149   |     |            | \____\|            |_       |            |
150   |     |      .     |      /|      .     | \      |      .     |
151   \____\|      .     |_      |      .     |  |     |      .     |
152        /|      .     | \     |      .     |  |     |      .     |
153         |      .     |  |    |      .     |  |     |      .     |
154         |            |  |    |            |  |     |            |
155         |____________|  |    |____________|  |     |____________|
156        4|____________|  |   4|____________|  |     |____________|
157        3|____________|  |   3|____________|  |     |____________|
158        2|____________|  |   2|____________|  |     |____________|
159        1|____________|  |   1|____________|  |     |____________|
160        0|____________|  \__\0|____________|  \____\|____________|
161                            /                      /
162 @end group
163 @end example
164
165 Header @file{threads/mmu.h} has useful functions for various
166 operations on virtual addresses.  You should look over the header
167 yourself, but its most important functions include these:
168
169 @table @code
170 @item pd_no(@var{va})
171 Returns the page directory index in virtual address @var{va}.
172
173 @item pt_no(@var{va})
174 Returns the page table index in virtual address @var{va}.
175
176 @item pg_ofs(@var{va})
177 Returns the page offset in virtual address @var{va}.
178
179 @item pg_round_down(@var{va})
180 Returns @var{va} rounded down to the nearest page boundary, that is,
181 @var{va} but with its page offset set to 0.
182
183 @item pg_round_up(@var{va})
184 Returns @var{va} rounded up to the nearest page boundary.
185 @end table
186
187 @node Disk as Backing Store
188 @section Disk as Backing Store
189
190 In VM systems, since memory is less plentiful than disk, you will
191 effectively use memory as a cache for disk.  Looking at it from
192 another angle, you will use disk as a backing store for memory.  This
193 provides the abstraction of an (almost) unlimited virtual memory size.
194 Part of your task in this project is to do this, with the additional
195 constraint that your performance should be close to that provided by
196 physical memory.  You will use the page tables' ``dirty'' bits to
197 denote whether pages need to be written back to disk when they're
198 evicted from main memory and the ``accessed'' bit for page replacement
199 algorithms.  Whenever the hardware writes memory, it sets the dirty
200 bit, and if it reads or writes to the page, it sets the accessed bit.
201
202 As with any caching system, performance depends on the policy used to
203 decide which things are kept in memory and which are only stored on
204 disk.  On a page fault, the kernel must decide which page to replace.
205 Ideally, it will throw out a page that will not be referenced for a
206 long time, keeping in memory those pages that are soon to be
207 referenced.  Another consideration is that if the replaced page has
208 been modified, the page must be first saved to disk before the needed
209 page can be brought in.  Many virtual memory systems avoid this extra
210 overhead by writing modified pages to disk in advance, so that later
211 page faults can be completed more quickly.
212
213 @node Memory Mapped Files
214 @section Memory Mapped Files
215
216 The traditional way to access the file system is via @code{read} and
217 @code{write} system calls, but that requires an extra level of copying
218 between the kernel and the user level.  A secondary interface is
219 simply to ``map'' the file into the virtual address space.  The
220 program can then use load and store instructions directly on the file
221 data.  (An alternative way of viewing the file system is as ``durable
222 memory.''  Files just store data structures.  If you access data
223 structures in memory using load and store instructions, why not access
224 data structures in files the same way?)
225
226 Memory mapped files are typically implemented using system calls.  One
227 system call maps the file to a particular part of the address space.
228 For example, one might map the file @file{foo}, which is 1000 bytes
229 long, starting at address 5000.  Assuming that nothing else is already
230 at virtual addresses 5000@dots{}6000, any memory accesses to these
231 locations will access the corresponding bytes of @file{foo}.
232
233 A consequence of memory mapped files is that address spaces are
234 sparsely populated with lots of segments, one for each memory mapped
235 file (plus one each for code, data, and stack).  You will implement
236 memory mapped files for problem 3 of this assignment, but you should
237 design your solutions to problems 1 and 2 to account for this.
238
239 @node Stack
240 @section Stack
241
242 In project 2, the stack was a single page at the top of the user
243 virtual address space.  The stack's location does not change in this
244 project, but your kernel should allocate additional pages to the stack
245 on demand.  That is, if the stack grows past its current bottom, the
246 system should allocate additional pages for the stack as necessary
247 (unless those pages are unavailable because they are in use by another
248 segment).
249
250 @node Problem 3-1 Page Table Management
251 @section Problem 3-1: Page Table Management
252
253 Implement page directory and page table management to support virtual
254 memory.  You will need data structures to accomplish the following
255 tasks:
256
257 @itemize @bullet
258 @item
259 Some way of translating in software from virtual page frames to
260 physical page frames.  Consider using a hash table (@pxref{Hash
261 Table}).
262
263 @item
264 Some way of translating from physical page frames back to virtual
265 page frames, so that when you replace a page, you can invalidate
266 its translation(s).
267
268 @item
269 Some way of finding a page on disk if it is not in memory.  You won't
270 need this data structure until part 2, but planning ahead is a good
271 idea.
272 @end itemize
273
274 The page fault handler, @func{page_fault} in
275 @file{threads/exception.c}, needs to do roughly the following:
276
277 @enumerate 1
278 @item
279 Determine the location of the physical page backing the virtual
280 address that faulted.  It might be in the file system, in swap,
281 already be in physical memory and just not set up in the page table,
282 or it might be an invalid virtual address.
283
284 If the virtual address is invalid, that is, if there's no physical
285 page backing it, or if the virtual address is above @code{PHYS_BASE},
286 meaning that it belongs to the kernel instead of the user, then the
287 process's memory access must be disallowed.  You should terminate the
288 process at this point, being sure to free all of its resources.
289
290 @item
291 If the physical page is not in physical memory, bring it into memory.
292 If necessary to make room, first evict some other page from memory.
293 (When you do that you need to first remove references to the page from
294 any page table that refers to it.)
295
296 @item
297 Point the page table entry for the faulting virtual address to the
298 physical page.  You can use the functions in @file{userprog/pagedir.c}.
299 @end enumerate
300
301 You'll need to modify the ELF loader in @file{userprog/process.c} to
302 do page table management according to your new design.  As supplied,
303 it reads all the process's pages from disk and initializes the page
304 tables for them at the same time.  For testing purposes, you'll
305 probably want to leave the code that reads the pages from disk, but
306 use your new page table management code to construct the page tables
307 only as page faults occur for them.
308
309 You should use the @func{palloc_get_page} function to get the page
310 frames that you use for storing user virtual pages.  Be sure to pass
311 the @code{PAL_USER} flag to this function when you do so, because that
312 allocates pages from a ``user pool'' separate from the ``kernel pool''
313 that other calls to @func{palloc_get_page} make.
314
315 There are many possible ways to implement virtual memory.  The above
316 is simply an outline of our suggested implementation.
317
318 @node Problem 3-2 Paging To and From Disk
319 @section Problem 3-2: Paging To and From Disk
320
321 Implement paging to and from files and the swap disk.  You may use the
322 disk on interface @code{hd1:1} as the swap disk, using the disk
323 interface prototyped in @code{devices/disk.h}.
324
325 You will need routines to move a page from memory to disk and from
326 disk to memory, where ``disk'' is either a file or the swap disk.  If
327 you do everything correctly, your VM should still work when you
328 implement your own file system for the next assignment.
329
330 You will need a way to track pages which are used by a process but
331 which are not in physical memory, to fully handle page faults.  Pages
332 that you write to swap should not be constrained to be in sequential
333 order.  You will also need a way to track all of the physical memory
334 pages, in order to find an unused one when needed, or to evict a page
335 when memory is needed but no empty pages are available.  The data
336 structures that you designed in part 1 should do most of the work for
337 you.
338
339 You will need a page replacement algorithm.  The hardware sets the
340 accessed and dirty bits when it accesses memory.  You can gain access
341 this information using the functions prototyped in
342 @file{userprog/pagedir.h}.  You should be able to take advantage of
343 this information to implement some algorithm which attempts to achieve
344 LRU-type behavior.  We expect that your algorithm perform at least as
345 well as a reasonable implementation of the second-chance (clock)
346 algorithm.  You will need to show in your test cases the value of your
347 page replacement algorithm by demonstrating for some workload that it
348 pages less frequently using your algorithm than using some inferior
349 page replacement policy.  The canonical example of a poor page
350 replacement policy is random replacement.
351
352 Since you will already be paging from disk, you should implement a
353 ``lazy'' loading scheme for new processes.  When a process is created,
354 it will not run immediately.  Therefore, it doesn't make sense to load
355 all its code, data, and stack into memory when the process is created,
356 since it might incur additional disk accesses to do so (if it gets
357 paged out before it runs).  When loading a new process, you should
358 leave most pages on disk, and bring them in as demanded when the
359 program begins running.  Your VM system should also use the executable
360 file itself as backing store for read-only segments, since these
361 segments won't change.
362
363 There are a few special cases.  Look at the loop in
364 @func{load_segment} in @file{userprog/process.c}.  Each time
365 around the loop, @code{read_bytes} represents the number of bytes to
366 read from the executable file and @code{zero_bytes} represents the number
367 of bytes to initialize to zero following the bytes read.  The two
368 always sum to @code{PGSIZE}.  The page handling depends on these
369 variables' values:
370
371 @itemize @bullet
372 @item
373 If @code{read_bytes} equals @code{PGSIZE}, the page should be demand
374 paged from disk on its first access.
375
376 @item 
377 If @code{zero_bytes} equals @code{PGSIZE}, the page does not need to
378 be read from disk at all because it is all zeroes.  You should handle
379 such pages by creating a new page consisting of all zeroes at the
380 first page fault.
381
382 @item
383 If neither @code{read_bytes} nor @code{zero_bytes} equals
384 @code{PGSIZE}, then part of the page is to be read from disk and the
385 remainder zeroed.  This is a special case.  You are allowed to handle
386 it by reading the partial page from disk at executable load time and
387 zeroing the rest of the page.  This is the only case in which we will
388 allow you to load a page in a non-``lazy'' fashion.  Many real OSes
389 such as Linux do not load partial pages lazily.
390 @end itemize
391
392 Incidentally, if you have trouble handling the third case above, you
393 can eliminate it temporarily by linking the test programs with a
394 special ``linker script.''  Read @file{tests/userprog/Makefile} for
395 details.  We will not test your submission with this special linker
396 script, so the code you turn in must properly handle all cases.
397
398 For extra credit, you may implement sharing: when multiple processes
399 are created that use the same executable file, share read-only pages
400 among those processes instead of creating separate copies of read-only
401 segments for each process.  If you carefully designed your data
402 structures in part 1, sharing of read-only pages should not make this
403 part significantly harder.
404
405 @node Problem 3-3 Memory Mapped Files
406 @section Problem 3-3: Memory Mapped Files
407
408 Implement memory mapped files.
409
410 You will need to implement the following system calls:
411
412 @table @code
413 @item SYS_mmap
414 @itemx bool mmap (int @var{fd}, void *@var{addr}, unsigned @var{length})
415
416 Maps the file open as @var{fd} into the process's address space
417 starting at @var{addr} for @var{length} bytes.  Returns true if
418 successful, false on failure.  
419
420 @item SYS_munmap
421 @itemx bool munmap (void *addr, unsigned length)
422
423 Unmaps the segment specified by id.  This cannot be used to unmap
424 segments mapped by the executable loader.  Returns 0 on success, -1 on
425 failure.  When a file is unmapped, all outstanding changes are written
426 to the file, and the segment's pages are removed from the process's
427 list of used virtual pages.
428 @end table
429
430 Calls to @code{mmap} must fail if the address is not page-aligned, if
431 the length is not positive, or if the length is not a multiple of
432 @code{PGSIZE}.  You also must error check to make sure that the new
433 segment does not overlap already existing segments, and fail if it
434 does.  If the length passed to @code{mmap} is less than the file's
435 length, you should only map the first part of the file.  If the length
436 passed to @code{mmap} is longer than the file, the call should fail.
437 (Ideally it should extend the file, but our file system does not yet
438 support growing files.)  Similar to the code segment, your VM system
439 should be able to use the @code{mmap}'d file itself as backing store
440 for the mapped segment, since the changes to the @code{mmap} segment
441 will eventually be written to the file.  (In fact, you may choose to
442 implement executable mappings as a special case of file mappings.)
443
444 @node Virtual Memory FAQ
445 @section FAQ
446
447 @enumerate 1
448 @item
449 @b{Do we need a working HW 2 to implement HW 3?}
450
451 Yes.
452
453 @item
454 @anchor{Hash Table}
455 @b{How do I use the hash table provided in @file{lib/kernel/hash.c}?}
456
457 First, you need to embed a @code{hash_elem} object as a member of the
458 object that the hash table will contain.  Each @code{hash_elem} allows
459 the object to a member of at most one hash table at a given time.  All
460 the hash table functions that deal with hash table items actually use
461 the address of a @code{hash_elem}.  You can convert a pointer to a
462 @code{hash_elem} member into a pointer to the structure in which
463 member is embedded using the @code{hash_entry} macro.
464
465 Second, you need to decide on a key type.  The key should be something
466 that is unique for each object, because a given hash table may not
467 contain two objects with equal keys.  Then you need to write two
468 functions.  The first is a @dfn{hash function} that converts a key
469 into an integer.  Some sample hash functions that you can use or just
470 examine are given in @file{lib/kernel/hash.c}.  The second function
471 needed is a @dfn{comparison function} that compares a pair and returns
472 true if the first is less than the second.  These two functions have
473 to be compatible with the prototypes for @code{hash_hash_func} and
474 @code{hash_less_func} in @file{lib/kernel/hash.h}.
475
476 Here's a quick example.  Suppose you want to put @struct{thread}s
477 in a hash table.  First, add a @code{hash_elem} to the thread
478 structure by adding a line to its definition:
479
480 @example
481 hash_elem h_elem;               /* Hash table element. */
482 @end example
483
484 We'll choose the @code{tid} member in @struct{thread} as the key,
485 and write a hash function and a comparison function:
486
487 @example
488 /* Returns a hash for E. */
489 unsigned
490 thread_hash (const hash_elem *e, void *aux UNUSED)
491 @{
492   struct thread *t = hash_entry (e, struct thread, h_elem);
493   return hash_int (t->tid);
494 @}
495
496 /* Returns true if A's tid is less than B's tid. */
497 bool
498 thread_less (const hash_elem *a_, const hash_elem *b_, 
499              void *aux UNUSED)
500 @{
501   struct thread *a = hash_entry (a_, struct thread, h_elem);
502   struct thread *b = hash_entry (b_, struct thread, h_elem);
503   return a->tid < b->tid;
504 @}
505 @end example
506
507 Then we can create a hash table like this:
508
509 @example
510 struct hash threads;
511
512 hash_init (&threads, thread_hash, thread_less, NULL);
513 @end example
514
515 Finally, if @code{@var{t}} is a pointer to a @struct{thread},
516 then we can insert it into the hash table with:
517
518 @example
519 hash_insert (&threads, &@var{t}->h_elem);
520 @end example
521
522 If you have any other questions about hash tables, the CS109
523 and CS161 textbooks have good chapters on them, or you can come
524 to any of the TA's office hours for further clarification.
525
526 @item
527 @b{What are the @var{aux} parameters to the hash table functions good
528 for?}
529
530 In simple cases you won't have any need for the @var{aux} parameters.
531 In these cases you can just pass a null pointer to @func{hash_init}
532 for @var{aux} and ignore the values passed to the hash function and
533 comparison functions.  (You'll get a compiler warning if you don't use
534 the @var{aux} parameter, but you can turn that off with the
535 @code{UNUSED} macro, as shown above, or you can just ignore it.)
536
537 @var{aux} is useful when you have some property of the data in the
538 hash table that's both constant and needed for hashing or comparisons,
539 but which is not stored in the data items themselves.  For example, if
540 the items in a hash table contain fixed-length strings, but the items
541 themselves don't indicate what that fixed length is, you could pass
542 the length as an @var{aux} parameter.
543
544 @item
545 @b{The current implementation of the hash table does not do something
546 that we need it to do. What gives?}
547
548 You are welcome to modify it.  It is not used by any of the code we
549 provided, so modifying it won't affect any code but yours.  Do
550 whatever it takes to make it work the way you want.
551
552 @item
553 @b{What controls the layout of user programs?}
554
555 The linker is responsible for the layout of a user program in
556 memory. The linker is directed by a ``linker script'' which tells it
557 the names and locations of the various program segments.  You can
558 learn more about linker scripts by reading the ``Scripts'' chapter in
559 the linker manual, accessible via @samp{info ld}.
560 @end enumerate
561
562 @menu
563 * Problem 3-1 and 3-2 FAQ::    
564 * Problem 3-3 Memory Mapped File FAQ::  
565 @end menu
566
567 @node Problem 3-1 and 3-2 FAQ
568 @subsection Problem 3-1 and 3-2 FAQ
569
570 @enumerate 1
571 @item
572 @b{Does the virtual memory system need to support growth of the stack
573 segment?}
574
575 Yes. If a page fault appears just below the last stack segment page,
576 you must add a new page to the bottom of the stack. It is impossible
577 to predict how large the stack will grow at compile time, so we must
578 allocate pages as necessary. You should only allocate additional pages
579 if they ``appear'' to be stack accesses.
580
581 @item
582 @b{Does the first stack page need to be loaded lazily?}
583
584 No, you can initialize the first stack page with the command line at
585 load time.  There's no need to wait for it to be faulted in.  Even if
586 you did wait, the very first instruction in the user program is likely
587 to be one that faults in the page.
588
589 @item
590 @b{Does the virtual memory system need to support growth of the data
591 segment?}
592
593 No.  The size of the data segment is determined by the linker.  We
594 still have no dynamic allocation in Pintos (although it is possible to
595 ``fake'' it at the user level by using memory-mapped files).  However,
596 implementing it would add little additional complexity to a
597 well-designed system.
598
599 @item
600 @b{But what do you mean by ``appear'' to be stack accesses? How big can a
601 stack growth be?  Under what circumstances do we grow the stack?}
602
603 If it looks like a stack request, then you grow the stack. Yes, that's
604 ambiguous. You need to make a reasonable decision about what looks
605 like a stack request. For example, you could decide a page, or two
606 pages, or ten pages, or more@enddots{}  Or, you could use some other
607 heuristic to figure this out.
608
609 Make a reasonable decision and document it in your code and in
610 your design document.  Please make sure to justify your decision.
611
612 @item
613 @b{Why do I need to pass @code{PAL_USER} to @func{palloc_get_page}
614 when I allocate physical page frames?}@anchor{Why PAL_USER?}
615
616 You can layer some other allocator on top of @func{palloc_get_page}
617 if you like, but it should be the underlying mechanism, directly or
618 indirectly, for two reasons.  First, running out of pages in the user
619 pool just causes user programs to page, but running out of pages in
620 the kernel pool will cause all kinds of problems, because many kernel
621 functions depend on being able to allocate memory.  Second, you can
622 use the @option{-ul} option to @command{pintos} to limit the size of
623 the user pool, which makes it easy to test your VM implementation with
624 various user memory sizes.
625 @end enumerate
626
627 @node Problem 3-3 Memory Mapped File FAQ
628 @subsection Problem 3-3: Memory Mapped File FAQ
629
630 @enumerate 1
631 @item
632 @b{How do we interact with memory-mapped files?}
633
634 Let's say you want to map a file called @file{foo} into your address
635 space at address @t{0x10000000}. You open the file, determine its
636 length, and then use @code{mmap}:
637
638 @example
639 #include <stdio.h>
640 #include <syscall.h>
641
642 int main (void)
643 @{
644     void *addr = (void *) 0x10000000;
645     int fd = open ("foo");
646     int length = filesize (fd);
647     if (mmap (fd, addr, length))
648         printf ("success!\n");
649 @}
650 @end example
651
652 Suppose @file{foo} is a text file and you want to print the first 64
653 bytes on the screen (assuming, of course, that the length of the file
654 is at least 64).  Without @code{mmap}, you'd need to allocate a
655 buffer, use @code{read} to get the data from the file into the buffer,
656 and finally use @code{write} to put the buffer out to the display. But
657 with the file mapped into your address space, you can directly address
658 it like so:
659
660 @example
661 write (addr, 64, STDOUT_FILENO);
662 @end example
663
664 Similarly, if you wanted to replace the first byte of the file,
665 all you need to do is:
666
667 @example
668 addr[0] = 'b';
669 @end example
670
671 When you're done using the memory-mapped file, you simply unmap
672 it:
673
674 @example
675 munmap (addr);
676 @end example
677
678 @item
679 @b{What if two processes memory-map the same file?}
680
681 There is no requirement in Pintos that the two processes see
682 consistent data.  Unix handles this by making the processes share the
683 same physical page, but the @code{mmap} system call also has an
684 argument allowing the client to specify whether the page is shared or
685 private (i.e.@: copy-on-write).
686
687 @item
688 @b{What happens if a user removes a @code{mmap}'d file?}
689
690 You should follow the Unix convention and the mapping should still be
691 valid.  @xref{Removing an Open File}, for more information.
692
693 @item
694 @b{What if a process writes to a page that is memory-mapped, but the
695 location written to in the memory-mapped page is past the end
696 of the memory-mapped file?}
697
698 Can't happen.  @code{mmap} checks that the mapped region is within the
699 file's length and Pintos provides no way to shorten a file.  (Until
700 project 4, there's no way to extend a file either.)  You can remove a
701 file, but the mapping remains valid (see the previous question).
702
703 @item
704 @b{Do we have to handle memory mapping @code{stdin} or @code{stdout}?}
705
706 No.  Memory mapping implies that a file has a length and that a user
707 can seek to any location in the file.  Since the console device has
708 neither of these properties, @code{mmap} should return false when the
709 user attempts to memory map a file descriptor for the console device.
710
711 @item
712 @b{What happens when a process exits with mapped files?}
713
714 When a process finishes, each of its mapped files is implicitly
715 unmapped.  When a process @code{mmap}s a file and then writes into the
716 area for the file it is making the assumption the changes will be
717 written to the file.
718
719 @item
720 @b{If a user closes a mapped file, should it be automatically
721 unmapped?}
722
723 No, once created the mapping is valid until @code{munmap} is called
724 or the process exits.
725 @end enumerate