Btrfs: add mount -o auto_defrag

This will detect small random writes into files and queue the up for an auto defrag process. It isn't well suited to database workloads yet, but works for smaller files such as rpm, sqlite or bdb databases. Signed-off-by: Chris Mason <chris.mason@oracle.com>
author: Chris Mason <chris.mason@oracle.com> 2011-05-24 15:35:30 -0400
committer: Chris Mason <chris.mason@oracle.com> 2011-05-26 17:52:15 -0400
commit: 4cb5300bc839b8a943eb19c9f27f25470e22d0ca (patch)
tree: ac0f2fb481c7aa6af08a624d276fa6d580c94c9b /fs/btrfs/file.c
parent: d6c0cb379c5198487e4ac124728cbb2346d63b1f (diff)
1 files changed, 257 insertions, 0 deletions
diff --git a/fs/btrfs/file.c b/fs/btrfs/file.c
index 58ddc4442159..c6a22d783c35 100644
--- a/fs/btrfs/file.c
+++ b/fs/btrfs/file.c
@@ -40,6 +40,263 @@
 #include "locking.h"
 #include "compat.h"
+/*
+ * when auto defrag is enabled we
+ * queue up these defrag structs to remember which
+ * inodes need defragging passes
+ */
+struct inode_defrag {
+        struct rb_node rb_node;
+        /* objectid */
+        u64 ino;
+        /*
+         * transid where the defrag was added, we search for
+         * extents newer than this
+         */
+        u64 transid;
+        /* root objectid */
+        u64 root;
+        /* last offset we were able to defrag */
+        u64 last_offset;
+        /* if we've wrapped around back to zero once already */
+        int cycled;
+};
+/* pop a record for an inode into the defrag tree.  The lock
+ * must be held already
+ *
+ * If you're inserting a record for an older transid than an
+ * existing record, the transid already in the tree is lowered
+ *
+ * If an existing record is found the defrag item you
+ * pass in is freed
+ */
+static int __btrfs_add_inode_defrag(struct inode *inode,
+                                    struct inode_defrag *defrag)
+{
+        struct btrfs_root *root = BTRFS_I(inode)->root;
+        struct inode_defrag *entry;
+        struct rb_node **p;
+        struct rb_node *parent = NULL;
+        p = &root->fs_info->defrag_inodes.rb_node;
+        while (*p) {
+                parent = *p;
+                entry = rb_entry(parent, struct inode_defrag, rb_node);
+                if (defrag->ino < entry->ino)
+                        p = &parent->rb_left;
+                else if (defrag->ino > entry->ino)
+                        p = &parent->rb_right;
+                else {
+                        /* if we're reinserting an entry for
+                         * an old defrag run, make sure to
+                         * lower the transid of our existing record
+                         */
+                        if (defrag->transid < entry->transid)
+                                entry->transid = defrag->transid;
+                        if (defrag->last_offset > entry->last_offset)
+                                entry->last_offset = defrag->last_offset;
+                        goto exists;
+                }
+        }
+        BTRFS_I(inode)->in_defrag = 1;
+        rb_link_node(&defrag->rb_node, parent, p);
+        rb_insert_color(&defrag->rb_node, &root->fs_info->defrag_inodes);
+        return 0;
+exists:
+        kfree(defrag);
+        return 0;
+}
+/*
+ * insert a defrag record for this inode if auto defrag is
+ * enabled
+ */
+int btrfs_add_inode_defrag(struct btrfs_trans_handle *trans,
+                           struct inode *inode)
+{
+        struct btrfs_root *root = BTRFS_I(inode)->root;
+        struct inode_defrag *defrag;
+        int ret = 0;
+        u64 transid;
+        if (!btrfs_test_opt(root, AUTO_DEFRAG))
+                return 0;
+        if (root->fs_info->closing)
+                return 0;
+        if (BTRFS_I(inode)->in_defrag)
+                return 0;
+        if (trans)
+                transid = trans->transid;
+        else
+                transid = BTRFS_I(inode)->root->last_trans;
+        defrag = kzalloc(sizeof(*defrag), GFP_NOFS);
+        if (!defrag)
+                return -ENOMEM;
+        defrag->ino = inode->i_ino;
+        defrag->transid = transid;
+        defrag->root = root->root_key.objectid;
+        spin_lock(&root->fs_info->defrag_inodes_lock);
+        if (!BTRFS_I(inode)->in_defrag)
+                ret = __btrfs_add_inode_defrag(inode, defrag);
+        spin_unlock(&root->fs_info->defrag_inodes_lock);
+        return ret;
+}
+/*
+ * must be called with the defrag_inodes lock held
+ */
+struct inode_defrag *btrfs_find_defrag_inode(struct btrfs_fs_info *info, u64 ino,
+                                             struct rb_node **next)
+{
+        struct inode_defrag *entry = NULL;
+        struct rb_node *p;
+        struct rb_node *parent = NULL;
+        p = info->defrag_inodes.rb_node;
+        while (p) {
+                parent = p;
+                entry = rb_entry(parent, struct inode_defrag, rb_node);
+                if (ino < entry->ino)
+                        p = parent->rb_left;
+                else if (ino > entry->ino)
+                        p = parent->rb_right;
+                else
+                        return entry;
+        }
+        if (next) {
+                while (parent && ino > entry->ino) {
+                        parent = rb_next(parent);
+                        entry = rb_entry(parent, struct inode_defrag, rb_node);
+                }
+                *next = parent;
+        }
+        return NULL;
+}
+/*
+ * run through the list of inodes in the FS that need
+ * defragging
+ */
+int btrfs_run_defrag_inodes(struct btrfs_fs_info *fs_info)
+{
+        struct inode_defrag *defrag;
+        struct btrfs_root *inode_root;
+        struct inode *inode;
+        struct rb_node *n;
+        struct btrfs_key key;
+        struct btrfs_ioctl_defrag_range_args range;
+        u64 first_ino = 0;
+        int num_defrag;
+        int defrag_batch = 1024;
+        memset(&range, 0, sizeof(range));
+        range.len = (u64)-1;
+        atomic_inc(&fs_info->defrag_running);
+        spin_lock(&fs_info->defrag_inodes_lock);
+        while(1) {
+                n = NULL;
+                /* find an inode to defrag */
+                defrag = btrfs_find_defrag_inode(fs_info, first_ino, &n);
+                if (!defrag) {
+                        if (n)
+                                defrag = rb_entry(n, struct inode_defrag, rb_node);
+                        else if (first_ino) {
+                                first_ino = 0;
+                                continue;
+                        } else {
+                                break;
+                        }
+                }
+                /* remove it from the rbtree */
+                first_ino = defrag->ino + 1;
+                rb_erase(&defrag->rb_node, &fs_info->defrag_inodes);
+                if (fs_info->closing)
+                        goto next_free;
+                spin_unlock(&fs_info->defrag_inodes_lock);
+                /* get the inode */
+                key.objectid = defrag->root;
+                btrfs_set_key_type(&key, BTRFS_ROOT_ITEM_KEY);
+                key.offset = (u64)-1;
+                inode_root = btrfs_read_fs_root_no_name(fs_info, &key);
+                if (IS_ERR(inode_root))
+                        goto next;
+                key.objectid = defrag->ino;
+                btrfs_set_key_type(&key, BTRFS_INODE_ITEM_KEY);
+                key.offset = 0;
+                inode = btrfs_iget(fs_info->sb, &key, inode_root, NULL);
+                if (IS_ERR(inode))
+                        goto next;
+                /* do a chunk of defrag */
+                BTRFS_I(inode)->in_defrag = 0;
+                range.start = defrag->last_offset;
+                num_defrag = btrfs_defrag_file(inode, NULL, &range, defrag->transid,
+                                               defrag_batch);
+                /*
+                 * if we filled the whole defrag batch, there
+                 * must be more work to do.  Queue this defrag
+                 * again
+                 */
+                if (num_defrag == defrag_batch) {
+                        defrag->last_offset = range.start;
+                        __btrfs_add_inode_defrag(inode, defrag);
+                        /*
+                         * we don't want to kfree defrag, we added it back to
+                         * the rbtree
+                         */
+                        defrag = NULL;
+                } else if (defrag->last_offset && !defrag->cycled) {
+                        /*
+                         * we didn't fill our defrag batch, but
+                         * we didn't start at zero.  Make sure we loop
+                         * around to the start of the file.
+                         */
+                        defrag->last_offset = 0;
+                        defrag->cycled = 1;
+                        __btrfs_add_inode_defrag(inode, defrag);
+                        defrag = NULL;
+                }
+                iput(inode);
+next:
+                spin_lock(&fs_info->defrag_inodes_lock);
+next_free:
+                kfree(defrag);
+        }
+        spin_unlock(&fs_info->defrag_inodes_lock);
+        atomic_dec(&fs_info->defrag_running);
+        /*
+         * during unmount, we use the transaction_wait queue to
+         * wait for the defragger to stop
+         */
+        wake_up(&fs_info->transaction_wait);
+        return 0;
+}
 /* simple helper to fault in pages and copy.  This should go away
 * and be replaced with calls into generic code.
author	Chris Mason <chris.mason@oracle.com>	2011-05-24 15:35:30 -0400
committer	Chris Mason <chris.mason@oracle.com>	2011-05-26 17:52:15 -0400
commit	4cb5300bc839b8a943eb19c9f27f25470e22d0ca (patch)
tree	ac0f2fb481c7aa6af08a624d276fa6d580c94c9b /fs/btrfs/file.c
parent	d6c0cb379c5198487e4ac124728cbb2346d63b1f (diff)

diff --git a/fs/btrfs/file.c b/fs/btrfs/file.c index 58ddc4442159..c6a22d783c35 100644 --- a/fs/btrfs/file.c +++ b/fs/btrfs/file.c
@@ -40,6 +40,263 @@
40	#include "locking.h"	40	#include "locking.h"
41	#include "compat.h"	41	#include "compat.h"
42		42
		43	/*
		44	* when auto defrag is enabled we
		45	* queue up these defrag structs to remember which
		46	* inodes need defragging passes
		47	*/
		48	struct inode_defrag {
		49	struct rb_node rb_node;
		50	/* objectid */
		51	u64 ino;
		52	/*
		53	* transid where the defrag was added, we search for
		54	* extents newer than this
		55	*/
		56	u64 transid;
		57
		58	/* root objectid */
		59	u64 root;
		60
		61	/* last offset we were able to defrag */
		62	u64 last_offset;
		63
		64	/* if we've wrapped around back to zero once already */
		65	int cycled;
		66	};
		67
		68	/* pop a record for an inode into the defrag tree. The lock
		69	* must be held already
		70	*
		71	* If you're inserting a record for an older transid than an
		72	* existing record, the transid already in the tree is lowered
		73	*
		74	* If an existing record is found the defrag item you
		75	* pass in is freed
		76	*/
		77	static int __btrfs_add_inode_defrag(struct inode *inode,
		78	struct inode_defrag *defrag)
		79	{
		80	struct btrfs_root *root = BTRFS_I(inode)->root;
		81	struct inode_defrag *entry;
		82	struct rb_node **p;
		83	struct rb_node *parent = NULL;
		84
		85	p = &root->fs_info->defrag_inodes.rb_node;
		86	while (*p) {
		87	parent = *p;
		88	entry = rb_entry(parent, struct inode_defrag, rb_node);
		89
		90	if (defrag->ino < entry->ino)
		91	p = &parent->rb_left;
		92	else if (defrag->ino > entry->ino)
		93	p = &parent->rb_right;
		94	else {
		95	/* if we're reinserting an entry for
		96	* an old defrag run, make sure to
		97	* lower the transid of our existing record
		98	*/
		99	if (defrag->transid < entry->transid)
		100	entry->transid = defrag->transid;
		101	if (defrag->last_offset > entry->last_offset)
		102	entry->last_offset = defrag->last_offset;
		103	goto exists;
		104	}
		105	}
		106	BTRFS_I(inode)->in_defrag = 1;
		107	rb_link_node(&defrag->rb_node, parent, p);
		108	rb_insert_color(&defrag->rb_node, &root->fs_info->defrag_inodes);
		109	return 0;
		110
		111	exists:
		112	kfree(defrag);
		113	return 0;
		114
		115	}
		116
		117	/*
		118	* insert a defrag record for this inode if auto defrag is
		119	* enabled
		120	*/
		121	int btrfs_add_inode_defrag(struct btrfs_trans_handle *trans,
		122	struct inode *inode)
		123	{
		124	struct btrfs_root *root = BTRFS_I(inode)->root;
		125	struct inode_defrag *defrag;
		126	int ret = 0;
		127	u64 transid;
		128
		129	if (!btrfs_test_opt(root, AUTO_DEFRAG))
		130	return 0;
		131
		132	if (root->fs_info->closing)
		133	return 0;
		134
		135	if (BTRFS_I(inode)->in_defrag)
		136	return 0;
		137
		138	if (trans)
		139	transid = trans->transid;
		140	else
		141	transid = BTRFS_I(inode)->root->last_trans;
		142
		143	defrag = kzalloc(sizeof(*defrag), GFP_NOFS);
		144	if (!defrag)
		145	return -ENOMEM;
		146
		147	defrag->ino = inode->i_ino;
		148	defrag->transid = transid;
		149	defrag->root = root->root_key.objectid;
		150
		151	spin_lock(&root->fs_info->defrag_inodes_lock);
		152	if (!BTRFS_I(inode)->in_defrag)
		153	ret = __btrfs_add_inode_defrag(inode, defrag);
		154	spin_unlock(&root->fs_info->defrag_inodes_lock);
		155	return ret;
		156	}
		157
		158	/*
		159	* must be called with the defrag_inodes lock held
		160	*/
		161	struct inode_defrag btrfs_find_defrag_inode(struct btrfs_fs_info info, u64 ino,
		162	struct rb_node **next)
		163	{
		164	struct inode_defrag *entry = NULL;
		165	struct rb_node *p;
		166	struct rb_node *parent = NULL;
		167
		168	p = info->defrag_inodes.rb_node;
		169	while (p) {
		170	parent = p;
		171	entry = rb_entry(parent, struct inode_defrag, rb_node);
		172
		173	if (ino < entry->ino)
		174	p = parent->rb_left;
		175	else if (ino > entry->ino)
		176	p = parent->rb_right;
		177	else
		178	return entry;
		179	}
		180
		181	if (next) {
		182	while (parent && ino > entry->ino) {
		183	parent = rb_next(parent);
		184	entry = rb_entry(parent, struct inode_defrag, rb_node);
		185	}
		186	*next = parent;
		187	}
		188	return NULL;
		189	}
		190
		191	/*
		192	* run through the list of inodes in the FS that need
		193	* defragging
		194	*/
		195	int btrfs_run_defrag_inodes(struct btrfs_fs_info *fs_info)
		196	{
		197	struct inode_defrag *defrag;
		198	struct btrfs_root *inode_root;
		199	struct inode *inode;
		200	struct rb_node *n;
		201	struct btrfs_key key;
		202	struct btrfs_ioctl_defrag_range_args range;
		203	u64 first_ino = 0;
		204	int num_defrag;
		205	int defrag_batch = 1024;
		206
		207	memset(&range, 0, sizeof(range));
		208	range.len = (u64)-1;
		209
		210	atomic_inc(&fs_info->defrag_running);
		211	spin_lock(&fs_info->defrag_inodes_lock);
		212	while(1) {
		213	n = NULL;
		214
		215	/* find an inode to defrag */
		216	defrag = btrfs_find_defrag_inode(fs_info, first_ino, &n);
		217	if (!defrag) {
		218	if (n)
		219	defrag = rb_entry(n, struct inode_defrag, rb_node);
		220	else if (first_ino) {
		221	first_ino = 0;
		222	continue;
		223	} else {
		224	break;
		225	}
		226	}
		227
		228	/* remove it from the rbtree */
		229	first_ino = defrag->ino + 1;
		230	rb_erase(&defrag->rb_node, &fs_info->defrag_inodes);
		231
		232	if (fs_info->closing)
		233	goto next_free;
		234
		235	spin_unlock(&fs_info->defrag_inodes_lock);
		236
		237	/* get the inode */
		238	key.objectid = defrag->root;
		239	btrfs_set_key_type(&key, BTRFS_ROOT_ITEM_KEY);
		240	key.offset = (u64)-1;
		241	inode_root = btrfs_read_fs_root_no_name(fs_info, &key);
		242	if (IS_ERR(inode_root))
		243	goto next;
		244
		245	key.objectid = defrag->ino;
		246	btrfs_set_key_type(&key, BTRFS_INODE_ITEM_KEY);
		247	key.offset = 0;
		248
		249	inode = btrfs_iget(fs_info->sb, &key, inode_root, NULL);
		250	if (IS_ERR(inode))
		251	goto next;
		252
		253	/* do a chunk of defrag */
		254	BTRFS_I(inode)->in_defrag = 0;
		255	range.start = defrag->last_offset;
		256	num_defrag = btrfs_defrag_file(inode, NULL, &range, defrag->transid,
		257	defrag_batch);
		258	/*
		259	* if we filled the whole defrag batch, there
		260	* must be more work to do. Queue this defrag
		261	* again
		262	*/
		263	if (num_defrag == defrag_batch) {
		264	defrag->last_offset = range.start;
		265	__btrfs_add_inode_defrag(inode, defrag);
		266	/*
		267	* we don't want to kfree defrag, we added it back to
		268	* the rbtree
		269	*/
		270	defrag = NULL;
		271	} else if (defrag->last_offset && !defrag->cycled) {
		272	/*
		273	* we didn't fill our defrag batch, but
		274	* we didn't start at zero. Make sure we loop
		275	* around to the start of the file.
		276	*/
		277	defrag->last_offset = 0;
		278	defrag->cycled = 1;
		279	__btrfs_add_inode_defrag(inode, defrag);
		280	defrag = NULL;
		281	}
		282
		283	iput(inode);
		284	next:
		285	spin_lock(&fs_info->defrag_inodes_lock);
		286	next_free:
		287	kfree(defrag);
		288	}
		289	spin_unlock(&fs_info->defrag_inodes_lock);
		290
		291	atomic_dec(&fs_info->defrag_running);
		292
		293	/*
		294	* during unmount, we use the transaction_wait queue to
		295	* wait for the defragger to stop
		296	*/
		297	wake_up(&fs_info->transaction_wait);
		298	return 0;
		299	}
43		300
44	/* simple helper to fault in pages and copy. This should go away	301	/* simple helper to fault in pages and copy. This should go away
45	* and be replaced with calls into generic code.	302	* and be replaced with calls into generic code.