Merge branch 'for-2.6.27' of git://linux-nfs.org/~bfields/linux

* 'for-2.6.27' of git://linux-nfs.org/~bfields/linux: (51 commits) nfsd: nfs4xdr.c do-while is not a compound statement nfsd: Use C99 initializers in fs/nfsd/nfs4xdr.c lockd: Pass "struct sockaddr *" to new failover-by-IP function lockd: get host reference in nlmsvc_create_block() instead of callers lockd: minor svclock.c style fixes lockd: eliminate duplicate nlmsvc_lookup_host call from nlmsvc_lock lockd: eliminate duplicate nlmsvc_lookup_host call from nlmsvc_testlock lockd: nlm_release_host() checks for NULL, caller needn't file lock: reorder struct file_lock to save space on 64 bit builds nfsd: take file and mnt write in nfs4_upgrade_open nfsd: document open share bit tracking nfsd: tabulate nfs4 xdr encoding functions nfsd: dprint operation names svcrdma: Change WR context get/put to use the kmem cache svcrdma: Create a kmem cache for the WR contexts svcrdma: Add flush_scheduled_work to module exit function svcrdma: Limit ORD based on client's advertised IRD svcrdma: Remove unused wait q from svcrdma_xprt structure svcrdma: Remove unneeded spin locks from __svc_rdma_free svcrdma: Add dma map count and WARN_ON ...
author: Linus Torvalds <torvalds@linux-foundation.org> 2008-07-21 00:21:46 -0400
committer: Linus Torvalds <torvalds@linux-foundation.org> 2008-07-21 00:21:46 -0400
commit: 14b395e35d1afdd8019d11b92e28041fad591b71 (patch)
tree: cff7ba9bed7a38300b19a5bacc632979d64fd9c8 /net/sunrpc
parent: 734b397cd14f3340394a8dd3266bec97d01f034b (diff)
parent: 5108b27651727b5aba0826e8fd7be71b42428701 (diff)
10 files changed, 331 insertions, 387 deletions
diff --git a/net/sunrpc/auth_gss/Makefile b/net/sunrpc/auth_gss/Makefile
index f3431a7e33da..4de8bcf26fa7 100644
--- a/net/sunrpc/auth_gss/Makefile
+++ b/net/sunrpc/auth_gss/Makefile
@@ -5,12 +5,12 @@
 obj-$(CONFIG_SUNRPC_GSS) += auth_rpcgss.o
 auth_rpcgss-objs := auth_gss.o gss_generic_token.o \
-        gss_mech_switch.o svcauth_gss.o gss_krb5_crypto.o
+        gss_mech_switch.o svcauth_gss.o
 obj-$(CONFIG_RPCSEC_GSS_KRB5) += rpcsec_gss_krb5.o
 rpcsec_gss_krb5-objs := gss_krb5_mech.o gss_krb5_seal.o gss_krb5_unseal.o \
-        gss_krb5_seqnum.o gss_krb5_wrap.o
+        gss_krb5_seqnum.o gss_krb5_wrap.o gss_krb5_crypto.o
 obj-$(CONFIG_RPCSEC_GSS_SPKM3) += rpcsec_gss_spkm3.o
diff --git a/net/sunrpc/auth_gss/gss_krb5_crypto.c b/net/sunrpc/auth_gss/gss_krb5_crypto.c
index 1d52308ca324..c93fca204558 100644
--- a/net/sunrpc/auth_gss/gss_krb5_crypto.c
+++ b/net/sunrpc/auth_gss/gss_krb5_crypto.c
@@ -83,8 +83,6 @@ out:
        return ret;
 }
-EXPORT_SYMBOL(krb5_encrypt);
 u32
 krb5_decrypt(
     struct crypto_blkcipher *tfm,
@@ -118,8 +116,6 @@ out:
        return ret;
 }
-EXPORT_SYMBOL(krb5_decrypt);
 static int
 checksummer(struct scatterlist *sg, void *data)
 {
@@ -161,8 +157,6 @@ out:
        return err ? GSS_S_FAILURE : 0;
 }
-EXPORT_SYMBOL(make_checksum);
 struct encryptor_desc {
        u8 iv[8]; /* XXX hard-coded blocksize */
        struct blkcipher_desc desc;
@@ -262,8 +256,6 @@ gss_encrypt_xdr_buf(struct crypto_blkcipher *tfm, struct xdr_buf *buf,
        return ret;
 }
-EXPORT_SYMBOL(gss_encrypt_xdr_buf);
 struct decryptor_desc {
        u8 iv[8]; /* XXX hard-coded blocksize */
        struct blkcipher_desc desc;
@@ -334,5 +326,3 @@ gss_decrypt_xdr_buf(struct crypto_blkcipher *tfm, struct xdr_buf *buf,
        return xdr_process_buf(buf, offset, buf->len - offset, decryptor, &desc);
 }
-EXPORT_SYMBOL(gss_decrypt_xdr_buf);
diff --git a/net/sunrpc/auth_gss/gss_krb5_seal.c b/net/sunrpc/auth_gss/gss_krb5_seal.c
index 5f1d36dfbcf7..b8f42ef7178e 100644
--- a/net/sunrpc/auth_gss/gss_krb5_seal.c
+++ b/net/sunrpc/auth_gss/gss_krb5_seal.c
@@ -78,7 +78,7 @@ gss_get_mic_kerberos(struct gss_ctx *gss_ctx, struct xdr_buf *text,
        struct krb5_ctx         *ctx = gss_ctx->internal_ctx_id;
        char                    cksumdata[16];
        struct xdr_netobj       md5cksum = {.len = 0, .data = cksumdata};
-        unsigned char           *ptr, *krb5_hdr, *msg_start;
+        unsigned char           *ptr, *msg_start;
        s32                     now;
        u32                     seq_send;
@@ -87,36 +87,36 @@ gss_get_mic_kerberos(struct gss_ctx *gss_ctx, struct xdr_buf *text,
        now = get_seconds();
-        token->len = g_token_size(&ctx->mech_used, 24);
+        token->len = g_token_size(&ctx->mech_used, GSS_KRB5_TOK_HDR_LEN + 8);
        ptr = token->data;
-        g_make_token_header(&ctx->mech_used, 24, &ptr);
+        g_make_token_header(&ctx->mech_used, GSS_KRB5_TOK_HDR_LEN + 8, &ptr);
-        *ptr++ = (unsigned char) ((KG_TOK_MIC_MSG>>8)&0xff);
+        /* ptr now at header described in rfc 1964, section 1.2.1: */
-        *ptr++ = (unsigned char) (KG_TOK_MIC_MSG&0xff);
+        ptr[0] = (unsigned char) ((KG_TOK_MIC_MSG >> 8) & 0xff);
+        ptr[1] = (unsigned char) (KG_TOK_MIC_MSG & 0xff);
-        /* ptr now at byte 2 of header described in rfc 1964, section 1.2.1: */
+        msg_start = ptr + GSS_KRB5_TOK_HDR_LEN + 8;
-        krb5_hdr = ptr - 2;
-        msg_start = krb5_hdr + 24;
-        *(__be16 *)(krb5_hdr + 2) = htons(SGN_ALG_DES_MAC_MD5);
+        *(__be16 *)(ptr + 2) = htons(SGN_ALG_DES_MAC_MD5);
-        memset(krb5_hdr + 4, 0xff, 4);
+        memset(ptr + 4, 0xff, 4);
-        if (make_checksum("md5", krb5_hdr, 8, text, 0, &md5cksum))
+        if (make_checksum("md5", ptr, 8, text, 0, &md5cksum))
                return GSS_S_FAILURE;
        if (krb5_encrypt(ctx->seq, NULL, md5cksum.data,
                          md5cksum.data, md5cksum.len))
                return GSS_S_FAILURE;
-        memcpy(krb5_hdr + 16, md5cksum.data + md5cksum.len - 8, 8);
+        memcpy(ptr + GSS_KRB5_TOK_HDR_LEN, md5cksum.data + md5cksum.len - 8, 8);
        spin_lock(&krb5_seq_lock);
        seq_send = ctx->seq_send++;
        spin_unlock(&krb5_seq_lock);
        if (krb5_make_seq_num(ctx->seq, ctx->initiate ? 0 : 0xff,
-                              seq_send, krb5_hdr + 16, krb5_hdr + 8))
+                              seq_send, ptr + GSS_KRB5_TOK_HDR_LEN,
+                              ptr + 8))
                return GSS_S_FAILURE;
        return (ctx->endtime < now) ? GSS_S_CONTEXT_EXPIRED : GSS_S_COMPLETE;
diff --git a/net/sunrpc/auth_gss/gss_krb5_unseal.c b/net/sunrpc/auth_gss/gss_krb5_unseal.c
index d91a5d004803..066ec73c84d6 100644
--- a/net/sunrpc/auth_gss/gss_krb5_unseal.c
+++ b/net/sunrpc/auth_gss/gss_krb5_unseal.c
@@ -92,30 +92,30 @@ gss_verify_mic_kerberos(struct gss_ctx *gss_ctx,
                                        read_token->len))
                return GSS_S_DEFECTIVE_TOKEN;
-        if ((*ptr++ != ((KG_TOK_MIC_MSG>>8)&0xff)) ||
+        if ((ptr[0] != ((KG_TOK_MIC_MSG >> 8) & 0xff)) ||
-            (*ptr++ != ( KG_TOK_MIC_MSG    &0xff))   )
+            (ptr[1] !=  (KG_TOK_MIC_MSG & 0xff)))
                return GSS_S_DEFECTIVE_TOKEN;
        /* XXX sanity-check bodysize?? */
-        signalg = ptr[0] + (ptr[1] << 8);
+        signalg = ptr[2] + (ptr[3] << 8);
        if (signalg != SGN_ALG_DES_MAC_MD5)
                return GSS_S_DEFECTIVE_TOKEN;
-        sealalg = ptr[2] + (ptr[3] << 8);
+        sealalg = ptr[4] + (ptr[5] << 8);
        if (sealalg != SEAL_ALG_NONE)
                return GSS_S_DEFECTIVE_TOKEN;
-        if ((ptr[4] != 0xff) || (ptr[5] != 0xff))
+        if ((ptr[6] != 0xff) || (ptr[7] != 0xff))
                return GSS_S_DEFECTIVE_TOKEN;
-        if (make_checksum("md5", ptr - 2, 8, message_buffer, 0, &md5cksum))
+        if (make_checksum("md5", ptr, 8, message_buffer, 0, &md5cksum))
                return GSS_S_FAILURE;
        if (krb5_encrypt(ctx->seq, NULL, md5cksum.data, md5cksum.data, 16))
                return GSS_S_FAILURE;
-        if (memcmp(md5cksum.data + 8, ptr + 14, 8))
+        if (memcmp(md5cksum.data + 8, ptr + GSS_KRB5_TOK_HDR_LEN, 8))
                return GSS_S_BAD_SIG;
        /* it got through unscathed.  Make sure the context is unexpired */
@@ -127,7 +127,7 @@ gss_verify_mic_kerberos(struct gss_ctx *gss_ctx,
        /* do sequencing checks */
-        if (krb5_get_seq_num(ctx->seq, ptr + 14, ptr + 6, &direction, &seqnum))
+        if (krb5_get_seq_num(ctx->seq, ptr + GSS_KRB5_TOK_HDR_LEN, ptr + 8, &direction, &seqnum))
                return GSS_S_FAILURE;
        if ((ctx->initiate && direction != 0xff) ||
diff --git a/net/sunrpc/auth_gss/gss_krb5_wrap.c b/net/sunrpc/auth_gss/gss_krb5_wrap.c
index b00b1b426301..ae8e69b59c4c 100644
--- a/net/sunrpc/auth_gss/gss_krb5_wrap.c
+++ b/net/sunrpc/auth_gss/gss_krb5_wrap.c
@@ -87,8 +87,8 @@ out:
        return 0;
 }
-static inline void
+static void
-make_confounder(char *p, int blocksize)
+make_confounder(char *p, u32 conflen)
 {
        static u64 i = 0;
        u64 *q = (u64 *)p;
@@ -102,8 +102,22 @@ make_confounder(char *p, int blocksize)
         * uniqueness would mean worrying about atomicity and rollover, and I
         * don't care enough. */
-        BUG_ON(blocksize != 8);
+        /* initialize to random value */
-        *q = i++;
+        if (i == 0) {
+                i = random32();
+                i = (i << 32) | random32();
+        }
+        switch (conflen) {
+        case 16:
+                *q++ = i++;
+                /* fall through */
+        case 8:
+                *q++ = i++;
+                break;
+        default:
+                BUG();
+        }
 }
 /* Assumptions: the head and tail of inbuf are ours to play with.
@@ -122,7 +136,7 @@ gss_wrap_kerberos(struct gss_ctx *ctx, int offset,
        char                    cksumdata[16];
        struct xdr_netobj       md5cksum = {.len = 0, .data = cksumdata};
        int                     blocksize = 0, plainlen;
-        unsigned char           *ptr, *krb5_hdr, *msg_start;
+        unsigned char           *ptr, *msg_start;
        s32                     now;
        int                     headlen;
        struct page             **tmp_pages;
@@ -149,26 +163,26 @@ gss_wrap_kerberos(struct gss_ctx *ctx, int offset,
        buf->len += headlen;
        BUG_ON((buf->len - offset - headlen) % blocksize);
-        g_make_token_header(&kctx->mech_used, 24 + plainlen, &ptr);
+        g_make_token_header(&kctx->mech_used,
+                                GSS_KRB5_TOK_HDR_LEN + 8 + plainlen, &ptr);
-        *ptr++ = (unsigned char) ((KG_TOK_WRAP_MSG>>8)&0xff);
+        /* ptr now at header described in rfc 1964, section 1.2.1: */
-        *ptr++ = (unsigned char) (KG_TOK_WRAP_MSG&0xff);
+        ptr[0] = (unsigned char) ((KG_TOK_WRAP_MSG >> 8) & 0xff);
+        ptr[1] = (unsigned char) (KG_TOK_WRAP_MSG & 0xff);
-        /* ptr now at byte 2 of header described in rfc 1964, section 1.2.1: */
+        msg_start = ptr + 24;
-        krb5_hdr = ptr - 2;
-        msg_start = krb5_hdr + 24;
-        *(__be16 *)(krb5_hdr + 2) = htons(SGN_ALG_DES_MAC_MD5);
+        *(__be16 *)(ptr + 2) = htons(SGN_ALG_DES_MAC_MD5);
-        memset(krb5_hdr + 4, 0xff, 4);
+        memset(ptr + 4, 0xff, 4);
-        *(__be16 *)(krb5_hdr + 4) = htons(SEAL_ALG_DES);
+        *(__be16 *)(ptr + 4) = htons(SEAL_ALG_DES);
        make_confounder(msg_start, blocksize);
        /* XXXJBF: UGH!: */
        tmp_pages = buf->pages;
        buf->pages = pages;
-        if (make_checksum("md5", krb5_hdr, 8, buf,
+        if (make_checksum("md5", ptr, 8, buf,
                                offset + headlen - blocksize, &md5cksum))
                return GSS_S_FAILURE;
        buf->pages = tmp_pages;
@@ -176,7 +190,7 @@ gss_wrap_kerberos(struct gss_ctx *ctx, int offset,
        if (krb5_encrypt(kctx->seq, NULL, md5cksum.data,
                          md5cksum.data, md5cksum.len))
                return GSS_S_FAILURE;
-        memcpy(krb5_hdr + 16, md5cksum.data + md5cksum.len - 8, 8);
+        memcpy(ptr + GSS_KRB5_TOK_HDR_LEN, md5cksum.data + md5cksum.len - 8, 8);
        spin_lock(&krb5_seq_lock);
        seq_send = kctx->seq_send++;
@@ -185,7 +199,7 @@ gss_wrap_kerberos(struct gss_ctx *ctx, int offset,
        /* XXX would probably be more efficient to compute checksum
         * and encrypt at the same time: */
        if ((krb5_make_seq_num(kctx->seq, kctx->initiate ? 0 : 0xff,
-                               seq_send, krb5_hdr + 16, krb5_hdr + 8)))
+                               seq_send, ptr + GSS_KRB5_TOK_HDR_LEN, ptr + 8)))
                return GSS_S_FAILURE;
        if (gss_encrypt_xdr_buf(kctx->enc, buf, offset + headlen - blocksize,
@@ -219,38 +233,38 @@ gss_unwrap_kerberos(struct gss_ctx *ctx, int offset, struct xdr_buf *buf)
                                        buf->len - offset))
                return GSS_S_DEFECTIVE_TOKEN;
-        if ((*ptr++ != ((KG_TOK_WRAP_MSG>>8)&0xff)) ||
+        if ((ptr[0] != ((KG_TOK_WRAP_MSG >> 8) & 0xff)) ||
-            (*ptr++ !=  (KG_TOK_WRAP_MSG    &0xff))   )
+            (ptr[1] !=  (KG_TOK_WRAP_MSG & 0xff)))
                return GSS_S_DEFECTIVE_TOKEN;
        /* XXX sanity-check bodysize?? */
        /* get the sign and seal algorithms */
-        signalg = ptr[0] + (ptr[1] << 8);
+        signalg = ptr[2] + (ptr[3] << 8);
        if (signalg != SGN_ALG_DES_MAC_MD5)
                return GSS_S_DEFECTIVE_TOKEN;
-        sealalg = ptr[2] + (ptr[3] << 8);
+        sealalg = ptr[4] + (ptr[5] << 8);
        if (sealalg != SEAL_ALG_DES)
                return GSS_S_DEFECTIVE_TOKEN;
-        if ((ptr[4] != 0xff) || (ptr[5] != 0xff))
+        if ((ptr[6] != 0xff) || (ptr[7] != 0xff))
                return GSS_S_DEFECTIVE_TOKEN;
        if (gss_decrypt_xdr_buf(kctx->enc, buf,
-                        ptr + 22 - (unsigned char *)buf->head[0].iov_base))
+                        ptr + GSS_KRB5_TOK_HDR_LEN + 8 - (unsigned char *)buf->head[0].iov_base))
                return GSS_S_DEFECTIVE_TOKEN;
-        if (make_checksum("md5", ptr - 2, 8, buf,
+        if (make_checksum("md5", ptr, 8, buf,
-                 ptr + 22 - (unsigned char *)buf->head[0].iov_base, &md5cksum))
+                 ptr + GSS_KRB5_TOK_HDR_LEN + 8 - (unsigned char *)buf->head[0].iov_base, &md5cksum))
                return GSS_S_FAILURE;
        if (krb5_encrypt(kctx->seq, NULL, md5cksum.data,
                           md5cksum.data, md5cksum.len))
                return GSS_S_FAILURE;
-        if (memcmp(md5cksum.data + 8, ptr + 14, 8))
+        if (memcmp(md5cksum.data + 8, ptr + GSS_KRB5_TOK_HDR_LEN, 8))
                return GSS_S_BAD_SIG;
        /* it got through unscathed.  Make sure the context is unexpired */
@@ -262,8 +276,8 @@ gss_unwrap_kerberos(struct gss_ctx *ctx, int offset, struct xdr_buf *buf)
        /* do sequencing checks */
-        if (krb5_get_seq_num(kctx->seq, ptr + 14, ptr + 6, &direction,
+        if (krb5_get_seq_num(kctx->seq, ptr + GSS_KRB5_TOK_HDR_LEN, ptr + 8,
-                                    &seqnum))
+                                    &direction, &seqnum))
                return GSS_S_BAD_SIG;
        if ((kctx->initiate && direction != 0xff) ||
@@ -274,7 +288,7 @@ gss_unwrap_kerberos(struct gss_ctx *ctx, int offset, struct xdr_buf *buf)
         * better to copy and encrypt at the same time. */
        blocksize = crypto_blkcipher_blocksize(kctx->enc);
-        data_start = ptr + 22 + blocksize;
+        data_start = ptr + GSS_KRB5_TOK_HDR_LEN + 8 + blocksize;
        orig_start = buf->head[0].iov_base + offset;
        data_len = (buf->head[0].iov_base + buf->head[0].iov_len) - data_start;
        memmove(orig_start, data_start, data_len);
diff --git a/net/sunrpc/svc.c b/net/sunrpc/svc.c
index 01c7e311b904..5a32cb7c4bb4 100644
--- a/net/sunrpc/svc.c
+++ b/net/sunrpc/svc.c
@@ -18,6 +18,7 @@
 #include <linux/mm.h>
 #include <linux/interrupt.h>
 #include <linux/module.h>
+#include <linux/kthread.h>
 #include <linux/sunrpc/types.h>
 #include <linux/sunrpc/xdr.h>
@@ -291,15 +292,14 @@ svc_pool_map_put(void)
 /*
- * Set the current thread's cpus_allowed mask so that it
+ * Set the given thread's cpus_allowed mask so that it
 * will only run on cpus in the given pool.
- *
- * Returns 1 and fills in oldmask iff a cpumask was applied.
 */
-static inline int
+static inline void
-svc_pool_map_set_cpumask(unsigned int pidx, cpumask_t *oldmask)
+svc_pool_map_set_cpumask(struct task_struct *task, unsigned int pidx)
 {
        struct svc_pool_map *m = &svc_pool_map;
+        unsigned int node = m->pool_to[pidx];
        /*
         * The caller checks for sv_nrpools > 1, which
@@ -307,26 +307,17 @@ svc_pool_map_set_cpumask(unsigned int pidx, cpumask_t *oldmask)
         */
        BUG_ON(m->count == 0);
-        switch (m->mode)
+        switch (m->mode) {
-        {
-        default:
-                return 0;
        case SVC_POOL_PERCPU:
        {
-                unsigned int cpu = m->pool_to[pidx];
+                set_cpus_allowed_ptr(task, &cpumask_of_cpu(node));
+                break;
-                *oldmask = current->cpus_allowed;
-                set_cpus_allowed_ptr(current, &cpumask_of_cpu(cpu));
-                return 1;
        }
        case SVC_POOL_PERNODE:
        {
-                unsigned int node = m->pool_to[pidx];
                node_to_cpumask_ptr(nodecpumask, node);
+                set_cpus_allowed_ptr(task, nodecpumask);
-                *oldmask = current->cpus_allowed;
+                break;
-                set_cpus_allowed_ptr(current, nodecpumask);
-                return 1;
        }
        }
 }
@@ -443,7 +434,7 @@ EXPORT_SYMBOL(svc_create);
 struct svc_serv *
 svc_create_pooled(struct svc_program *prog, unsigned int bufsize,
                void (*shutdown)(struct svc_serv *serv),
-                  svc_thread_fn func, int sig, struct module *mod)
+                  svc_thread_fn func, struct module *mod)
 {
        struct svc_serv *serv;
        unsigned int npools = svc_pool_map_get();
@@ -452,7 +443,6 @@ svc_create_pooled(struct svc_program *prog, unsigned int bufsize,
        if (serv != NULL) {
                serv->sv_function = func;
-                serv->sv_kill_signal = sig;
                serv->sv_module = mod;
        }
@@ -461,7 +451,8 @@ svc_create_pooled(struct svc_program *prog, unsigned int bufsize,
 EXPORT_SYMBOL(svc_create_pooled);
 /*
- * Destroy an RPC service.  Should be called with the BKL held
+ * Destroy an RPC service. Should be called with appropriate locking to
+ * protect the sv_nrthreads, sv_permsocks and sv_tempsocks.
 */
 void
 svc_destroy(struct svc_serv *serv)
@@ -578,46 +569,6 @@ out_enomem:
 EXPORT_SYMBOL(svc_prepare_thread);
 /*
- * Create a thread in the given pool.  Caller must hold BKL.
- * On a NUMA or SMP machine, with a multi-pool serv, the thread
- * will be restricted to run on the cpus belonging to the pool.
- */
-static int
-__svc_create_thread(svc_thread_fn func, struct svc_serv *serv,
-                    struct svc_pool *pool)
-{
-        struct svc_rqst *rqstp;
-        int             error = -ENOMEM;
-        int             have_oldmask = 0;
-        cpumask_t       uninitialized_var(oldmask);
-        rqstp = svc_prepare_thread(serv, pool);
-        if (IS_ERR(rqstp)) {
-                error = PTR_ERR(rqstp);
-                goto out;
-        }
-        if (serv->sv_nrpools > 1)
-                have_oldmask = svc_pool_map_set_cpumask(pool->sp_id, &oldmask);
-        error = kernel_thread((int (*)(void *)) func, rqstp, 0);
-        if (have_oldmask)
-                set_cpus_allowed(current, oldmask);
-        if (error < 0)
-                goto out_thread;
-        svc_sock_update_bufs(serv);
-        error = 0;
-out:
-        return error;
-out_thread:
-        svc_exit_thread(rqstp);
-        goto out;
-}
-/*
 * Choose a pool in which to create a new thread, for svc_set_num_threads
 */
 static inline struct svc_pool *
@@ -674,7 +625,7 @@ found_pool:
 * of threads the given number.  If `pool' is non-NULL, applies
 * only to threads in that pool, otherwise round-robins between
 * all pools.  Must be called with a svc_get() reference and
- * the BKL held.
+ * the BKL or another lock to protect access to svc_serv fields.
 *
 * Destroying threads relies on the service threads filling in
 * rqstp->rq_task, which only the nfs ones do.  Assumes the serv
@@ -686,7 +637,9 @@ found_pool:
 int
 svc_set_num_threads(struct svc_serv *serv, struct svc_pool *pool, int nrservs)
 {
-        struct task_struct *victim;
+        struct svc_rqst *rqstp;
+        struct task_struct *task;
+        struct svc_pool *chosen_pool;
        int error = 0;
        unsigned int state = serv->sv_nrthreads-1;
@@ -702,18 +655,34 @@ svc_set_num_threads(struct svc_serv *serv, struct svc_pool *pool, int nrservs)
        /* create new threads */
        while (nrservs > 0) {
                nrservs--;
+                chosen_pool = choose_pool(serv, pool, &state);
+                rqstp = svc_prepare_thread(serv, chosen_pool);
+                if (IS_ERR(rqstp)) {
+                        error = PTR_ERR(rqstp);
+                        break;
+                }
                __module_get(serv->sv_module);
-                error = __svc_create_thread(serv->sv_function, serv,
+                task = kthread_create(serv->sv_function, rqstp, serv->sv_name);
-                                            choose_pool(serv, pool, &state));
+                if (IS_ERR(task)) {
-                if (error < 0) {
+                        error = PTR_ERR(task);
                        module_put(serv->sv_module);
+                        svc_exit_thread(rqstp);
                        break;
                }
+                rqstp->rq_task = task;
+                if (serv->sv_nrpools > 1)
+                        svc_pool_map_set_cpumask(task, chosen_pool->sp_id);
+                svc_sock_update_bufs(serv);
+                wake_up_process(task);
        }
        /* destroy old threads */
        while (nrservs < 0 &&
-               (victim = choose_victim(serv, pool, &state)) != NULL) {
+               (task = choose_victim(serv, pool, &state)) != NULL) {
-                send_sig(serv->sv_kill_signal, victim, 1);
+                send_sig(SIGINT, task, 1);
                nrservs++;
        }
@@ -722,7 +691,8 @@ svc_set_num_threads(struct svc_serv *serv, struct svc_pool *pool, int nrservs)
 EXPORT_SYMBOL(svc_set_num_threads);
 /*
- * Called from a server thread as it's exiting.  Caller must hold BKL.
+ * Called from a server thread as it's exiting. Caller must hold the BKL or
+ * the "service mutex", whichever is appropriate for the service.
 */
 void
 svc_exit_thread(struct svc_rqst *rqstp)
diff --git a/net/sunrpc/xprtrdma/svc_rdma.c b/net/sunrpc/xprtrdma/svc_rdma.c
index 88c0ca20bb1e..87101177825b 100644
--- a/net/sunrpc/xprtrdma/svc_rdma.c
+++ b/net/sunrpc/xprtrdma/svc_rdma.c
@@ -69,6 +69,10 @@ atomic_t rdma_stat_rq_prod;
 atomic_t rdma_stat_sq_poll;
 atomic_t rdma_stat_sq_prod;
+/* Temporary NFS request map and context caches */
+struct kmem_cache *svc_rdma_map_cachep;
+struct kmem_cache *svc_rdma_ctxt_cachep;
 /*
 * This function implements reading and resetting an atomic_t stat
 * variable through read/write to a proc file. Any write to the file
@@ -236,11 +240,14 @@ static ctl_table svcrdma_root_table[] = {
 void svc_rdma_cleanup(void)
 {
        dprintk("SVCRDMA Module Removed, deregister RPC RDMA transport\n");
+        flush_scheduled_work();
        if (svcrdma_table_header) {
                unregister_sysctl_table(svcrdma_table_header);
                svcrdma_table_header = NULL;
        }
        svc_unreg_xprt_class(&svc_rdma_class);
+        kmem_cache_destroy(svc_rdma_map_cachep);
+        kmem_cache_destroy(svc_rdma_ctxt_cachep);
 }
 int svc_rdma_init(void)
@@ -255,9 +262,37 @@ int svc_rdma_init(void)
                svcrdma_table_header =
                        register_sysctl_table(svcrdma_root_table);
+        /* Create the temporary map cache */
+        svc_rdma_map_cachep = kmem_cache_create("svc_rdma_map_cache",
+                                                sizeof(struct svc_rdma_req_map),
+                                                0,
+                                                SLAB_HWCACHE_ALIGN,
+                                                NULL);
+        if (!svc_rdma_map_cachep) {
+                printk(KERN_INFO "Could not allocate map cache.\n");
+                goto err0;
+        }
+        /* Create the temporary context cache */
+        svc_rdma_ctxt_cachep =
+                kmem_cache_create("svc_rdma_ctxt_cache",
+                                  sizeof(struct svc_rdma_op_ctxt),
+                                  0,
+                                  SLAB_HWCACHE_ALIGN,
+                                  NULL);
+        if (!svc_rdma_ctxt_cachep) {
+                printk(KERN_INFO "Could not allocate WR ctxt cache.\n");
+                goto err1;
+        }
        /* Register RDMA with the SVC transport switch */
        svc_reg_xprt_class(&svc_rdma_class);
        return 0;
+ err1:
+        kmem_cache_destroy(svc_rdma_map_cachep);
+ err0:
+        unregister_sysctl_table(svcrdma_table_header);
+        return -ENOMEM;
 }
 MODULE_AUTHOR("Tom Tucker <tom@opengridcomputing.com>");
 MODULE_DESCRIPTION("SVC RDMA Transport");
diff --git a/net/sunrpc/xprtrdma/svc_rdma_recvfrom.c b/net/sunrpc/xprtrdma/svc_rdma_recvfrom.c
index 06ab4841537b..b4b17f44cb29 100644
--- a/net/sunrpc/xprtrdma/svc_rdma_recvfrom.c
+++ b/net/sunrpc/xprtrdma/svc_rdma_recvfrom.c
@@ -112,11 +112,6 @@ static void rdma_build_arg_xdr(struct svc_rqst *rqstp,
        rqstp->rq_arg.tail[0].iov_len = 0;
 }
-struct chunk_sge {
-        int start;              /* sge no for this chunk */
-        int count;              /* sge count for this chunk */
-};
 /* Encode a read-chunk-list as an array of IB SGE
 *
 * Assumptions:
@@ -134,8 +129,8 @@ static int rdma_rcl_to_sge(struct svcxprt_rdma *xprt,
                           struct svc_rqst *rqstp,
                           struct svc_rdma_op_ctxt *head,
                           struct rpcrdma_msg *rmsgp,
-                           struct ib_sge *sge,
+                           struct svc_rdma_req_map *rpl_map,
-                           struct chunk_sge *ch_sge_ary,
+                           struct svc_rdma_req_map *chl_map,
                           int ch_count,
                           int byte_count)
 {
@@ -156,22 +151,18 @@ static int rdma_rcl_to_sge(struct svcxprt_rdma *xprt,
        head->arg.head[0] = rqstp->rq_arg.head[0];
        head->arg.tail[0] = rqstp->rq_arg.tail[0];
        head->arg.pages = &head->pages[head->count];
-        head->sge[0].length = head->count; /* save count of hdr pages */
+        head->hdr_count = head->count; /* save count of hdr pages */
        head->arg.page_base = 0;
        head->arg.page_len = ch_bytes;
        head->arg.len = rqstp->rq_arg.len + ch_bytes;
        head->arg.buflen = rqstp->rq_arg.buflen + ch_bytes;
        head->count++;
-        ch_sge_ary[0].start = 0;
+        chl_map->ch[0].start = 0;
        while (byte_count) {
+                rpl_map->sge[sge_no].iov_base =
+                        page_address(rqstp->rq_arg.pages[page_no]) + page_off;
                sge_bytes = min_t(int, PAGE_SIZE-page_off, ch_bytes);
-                sge[sge_no].addr =
+                rpl_map->sge[sge_no].iov_len = sge_bytes;
-                        ib_dma_map_page(xprt->sc_cm_id->device,
-                                        rqstp->rq_arg.pages[page_no],
-                                        page_off, sge_bytes,
-                                        DMA_FROM_DEVICE);
-                sge[sge_no].length = sge_bytes;
-                sge[sge_no].lkey = xprt->sc_phys_mr->lkey;
                /*
                 * Don't bump head->count here because the same page
                 * may be used by multiple SGE.
@@ -187,11 +178,11 @@ static int rdma_rcl_to_sge(struct svcxprt_rdma *xprt,
                 * SGE, move to the next SGE
                 */
                if (ch_bytes == 0) {
-                        ch_sge_ary[ch_no].count =
+                        chl_map->ch[ch_no].count =
-                                sge_no - ch_sge_ary[ch_no].start;
+                                sge_no - chl_map->ch[ch_no].start;
                        ch_no++;
                        ch++;
-                        ch_sge_ary[ch_no].start = sge_no;
+                        chl_map->ch[ch_no].start = sge_no;
                        ch_bytes = ch->rc_target.rs_length;
                        /* If bytes remaining account for next chunk */
                        if (byte_count) {
@@ -220,18 +211,25 @@ static int rdma_rcl_to_sge(struct svcxprt_rdma *xprt,
        return sge_no;
 }
-static void rdma_set_ctxt_sge(struct svc_rdma_op_ctxt *ctxt,
+static void rdma_set_ctxt_sge(struct svcxprt_rdma *xprt,
-                              struct ib_sge *sge,
+                              struct svc_rdma_op_ctxt *ctxt,
+                              struct kvec *vec,
                              u64 *sgl_offset,
                              int count)
 {
        int i;
        ctxt->count = count;
+        ctxt->direction = DMA_FROM_DEVICE;
        for (i = 0; i < count; i++) {
-                ctxt->sge[i].addr = sge[i].addr;
+                atomic_inc(&xprt->sc_dma_used);
-                ctxt->sge[i].length = sge[i].length;
+                ctxt->sge[i].addr =
-                *sgl_offset = *sgl_offset + sge[i].length;
+                        ib_dma_map_single(xprt->sc_cm_id->device,
+                                          vec[i].iov_base, vec[i].iov_len,
+                                          DMA_FROM_DEVICE);
+                ctxt->sge[i].length = vec[i].iov_len;
+                ctxt->sge[i].lkey = xprt->sc_phys_mr->lkey;
+                *sgl_offset = *sgl_offset + vec[i].iov_len;
        }
 }
@@ -282,34 +280,29 @@ static int rdma_read_xdr(struct svcxprt_rdma *xprt,
        struct ib_send_wr read_wr;
        int err = 0;
        int ch_no;
-        struct ib_sge *sge;
        int ch_count;
        int byte_count;
        int sge_count;
        u64 sgl_offset;
        struct rpcrdma_read_chunk *ch;
        struct svc_rdma_op_ctxt *ctxt = NULL;
-        struct svc_rdma_op_ctxt *tmp_sge_ctxt;
+        struct svc_rdma_req_map *rpl_map;
-        struct svc_rdma_op_ctxt *tmp_ch_ctxt;
+        struct svc_rdma_req_map *chl_map;
-        struct chunk_sge *ch_sge_ary;
        /* If no read list is present, return 0 */
        ch = svc_rdma_get_read_chunk(rmsgp);
        if (!ch)
                return 0;
-        /* Allocate temporary contexts to keep SGE */
+        /* Allocate temporary reply and chunk maps */
-        BUG_ON(sizeof(struct ib_sge) < sizeof(struct chunk_sge));
+        rpl_map = svc_rdma_get_req_map();
-        tmp_sge_ctxt = svc_rdma_get_context(xprt);
+        chl_map = svc_rdma_get_req_map();
-        sge = tmp_sge_ctxt->sge;
-        tmp_ch_ctxt = svc_rdma_get_context(xprt);
-        ch_sge_ary = (struct chunk_sge *)tmp_ch_ctxt->sge;
        svc_rdma_rcl_chunk_counts(ch, &ch_count, &byte_count);
        if (ch_count > RPCSVC_MAXPAGES)
                return -EINVAL;
        sge_count = rdma_rcl_to_sge(xprt, rqstp, hdr_ctxt, rmsgp,
-                                    sge, ch_sge_ary,
+                                    rpl_map, chl_map,
                                    ch_count, byte_count);
        sgl_offset = 0;
        ch_no = 0;
@@ -331,14 +324,15 @@ next_sge:
                read_wr.wr.rdma.remote_addr =
                        get_unaligned(&(ch->rc_target.rs_offset)) +
                        sgl_offset;
-                read_wr.sg_list = &sge[ch_sge_ary[ch_no].start];
+                read_wr.sg_list = ctxt->sge;
                read_wr.num_sge =
-                        rdma_read_max_sge(xprt, ch_sge_ary[ch_no].count);
+                        rdma_read_max_sge(xprt, chl_map->ch[ch_no].count);
-                rdma_set_ctxt_sge(ctxt, &sge[ch_sge_ary[ch_no].start],
+                rdma_set_ctxt_sge(xprt, ctxt,
+                                  &rpl_map->sge[chl_map->ch[ch_no].start],
                                  &sgl_offset,
                                  read_wr.num_sge);
                if (((ch+1)->rc_discrim == 0) &&
-                    (read_wr.num_sge == ch_sge_ary[ch_no].count)) {
+                    (read_wr.num_sge == chl_map->ch[ch_no].count)) {
                        /*
                         * Mark the last RDMA_READ with a bit to
                         * indicate all RPC data has been fetched from
@@ -358,9 +352,9 @@ next_sge:
                }
                atomic_inc(&rdma_stat_read);
-                if (read_wr.num_sge < ch_sge_ary[ch_no].count) {
+                if (read_wr.num_sge < chl_map->ch[ch_no].count) {
-                        ch_sge_ary[ch_no].count -= read_wr.num_sge;
+                        chl_map->ch[ch_no].count -= read_wr.num_sge;
-                        ch_sge_ary[ch_no].start += read_wr.num_sge;
+                        chl_map->ch[ch_no].start += read_wr.num_sge;
                        goto next_sge;
                }
                sgl_offset = 0;
@@ -368,8 +362,8 @@ next_sge:
        }
 out:
-        svc_rdma_put_context(tmp_sge_ctxt, 0);
+        svc_rdma_put_req_map(rpl_map);
-        svc_rdma_put_context(tmp_ch_ctxt, 0);
+        svc_rdma_put_req_map(chl_map);
        /* Detach arg pages. svc_recv will replenish them */
        for (ch_no = 0; &rqstp->rq_pages[ch_no] < rqstp->rq_respages; ch_no++)
@@ -399,7 +393,7 @@ static int rdma_read_complete(struct svc_rqst *rqstp,
                rqstp->rq_pages[page_no] = head->pages[page_no];
        }
        /* Point rq_arg.pages past header */
-        rqstp->rq_arg.pages = &rqstp->rq_pages[head->sge[0].length];
+        rqstp->rq_arg.pages = &rqstp->rq_pages[head->hdr_count];
        rqstp->rq_arg.page_len = head->arg.page_len;
        rqstp->rq_arg.page_base = head->arg.page_base;
diff --git a/net/sunrpc/xprtrdma/svc_rdma_sendto.c b/net/sunrpc/xprtrdma/svc_rdma_sendto.c
index fb82b1b683f8..a19b22b452a3 100644
--- a/net/sunrpc/xprtrdma/svc_rdma_sendto.c
+++ b/net/sunrpc/xprtrdma/svc_rdma_sendto.c
@@ -63,52 +63,44 @@
 * SGE[2..sge_count-2] data from xdr->pages[]
 * SGE[sge_count-1]    data from xdr->tail.
 *
+ * The max SGE we need is the length of the XDR / pagesize + one for
+ * head + one for tail + one for RPCRDMA header. Since RPCSVC_MAXPAGES
+ * reserves a page for both the request and the reply header, and this
+ * array is only concerned with the reply we are assured that we have
+ * on extra page for the RPCRMDA header.
 */
-static struct ib_sge *xdr_to_sge(struct svcxprt_rdma *xprt,
+static void xdr_to_sge(struct svcxprt_rdma *xprt,
-                                 struct xdr_buf *xdr,
+                       struct xdr_buf *xdr,
-                                 struct ib_sge *sge,
+                       struct svc_rdma_req_map *vec)
-                                 int *sge_count)
 {
-        /* Max we need is the length of the XDR / pagesize + one for
-         * head + one for tail + one for RPCRDMA header
-         */
        int sge_max = (xdr->len+PAGE_SIZE-1) / PAGE_SIZE + 3;
        int sge_no;
-        u32 byte_count = xdr->len;
        u32 sge_bytes;
        u32 page_bytes;
-        int page_off;
+        u32 page_off;
        int page_no;
+        BUG_ON(xdr->len !=
+               (xdr->head[0].iov_len + xdr->page_len + xdr->tail[0].iov_len));
        /* Skip the first sge, this is for the RPCRDMA header */
        sge_no = 1;
        /* Head SGE */
-        sge[sge_no].addr = ib_dma_map_single(xprt->sc_cm_id->device,
+        vec->sge[sge_no].iov_base = xdr->head[0].iov_base;
-                                             xdr->head[0].iov_base,
+        vec->sge[sge_no].iov_len = xdr->head[0].iov_len;
-                                             xdr->head[0].iov_len,
-                                             DMA_TO_DEVICE);
-        sge_bytes = min_t(u32, byte_count, xdr->head[0].iov_len);
-        byte_count -= sge_bytes;
-        sge[sge_no].length = sge_bytes;
-        sge[sge_no].lkey = xprt->sc_phys_mr->lkey;
        sge_no++;
        /* pages SGE */
        page_no = 0;
        page_bytes = xdr->page_len;
        page_off = xdr->page_base;
-        while (byte_count && page_bytes) {
+        while (page_bytes) {
-                sge_bytes = min_t(u32, byte_count, (PAGE_SIZE-page_off));
+                vec->sge[sge_no].iov_base =
-                sge[sge_no].addr =
+                        page_address(xdr->pages[page_no]) + page_off;
-                        ib_dma_map_page(xprt->sc_cm_id->device,
+                sge_bytes = min_t(u32, page_bytes, (PAGE_SIZE - page_off));
-                                        xdr->pages[page_no], page_off,
-                                        sge_bytes, DMA_TO_DEVICE);
-                sge_bytes = min(sge_bytes, page_bytes);
-                byte_count -= sge_bytes;
                page_bytes -= sge_bytes;
-                sge[sge_no].length = sge_bytes;
+                vec->sge[sge_no].iov_len = sge_bytes;
-                sge[sge_no].lkey = xprt->sc_phys_mr->lkey;
                sge_no++;
                page_no++;
@@ -116,36 +108,24 @@ static struct ib_sge *xdr_to_sge(struct svcxprt_rdma *xprt,
        }
        /* Tail SGE */
-        if (byte_count && xdr->tail[0].iov_len) {
+        if (xdr->tail[0].iov_len) {
-                sge[sge_no].addr =
+                vec->sge[sge_no].iov_base = xdr->tail[0].iov_base;
-                        ib_dma_map_single(xprt->sc_cm_id->device,
+                vec->sge[sge_no].iov_len = xdr->tail[0].iov_len;
-                                          xdr->tail[0].iov_base,
-                                          xdr->tail[0].iov_len,
-                                          DMA_TO_DEVICE);
-                sge_bytes = min_t(u32, byte_count, xdr->tail[0].iov_len);
-                byte_count -= sge_bytes;
-                sge[sge_no].length = sge_bytes;
-                sge[sge_no].lkey = xprt->sc_phys_mr->lkey;
                sge_no++;
        }
        BUG_ON(sge_no > sge_max);
-        BUG_ON(byte_count != 0);
+        vec->count = sge_no;
-        *sge_count = sge_no;
-        return sge;
 }
 /* Assumptions:
 * - The specified write_len can be represented in sc_max_sge * PAGE_SIZE
 */
 static int send_write(struct svcxprt_rdma *xprt, struct svc_rqst *rqstp,
                      u32 rmr, u64 to,
                      u32 xdr_off, int write_len,
-                      struct ib_sge *xdr_sge, int sge_count)
+                      struct svc_rdma_req_map *vec)
 {
-        struct svc_rdma_op_ctxt *tmp_sge_ctxt;
        struct ib_send_wr write_wr;
        struct ib_sge *sge;
        int xdr_sge_no;
@@ -154,25 +134,23 @@ static int send_write(struct svcxprt_rdma *xprt, struct svc_rqst *rqstp,
        int sge_off;
        int bc;
        struct svc_rdma_op_ctxt *ctxt;
-        int ret = 0;
-        BUG_ON(sge_count > RPCSVC_MAXPAGES);
+        BUG_ON(vec->count > RPCSVC_MAXPAGES);
        dprintk("svcrdma: RDMA_WRITE rmr=%x, to=%llx, xdr_off=%d, "
-                "write_len=%d, xdr_sge=%p, sge_count=%d\n",
+                "write_len=%d, vec->sge=%p, vec->count=%lu\n",
                rmr, (unsigned long long)to, xdr_off,
-                write_len, xdr_sge, sge_count);
+                write_len, vec->sge, vec->count);
        ctxt = svc_rdma_get_context(xprt);
-        ctxt->count = 0;
+        ctxt->direction = DMA_TO_DEVICE;
-        tmp_sge_ctxt = svc_rdma_get_context(xprt);
+        sge = ctxt->sge;
-        sge = tmp_sge_ctxt->sge;
        /* Find the SGE associated with xdr_off */
-        for (bc = xdr_off, xdr_sge_no = 1; bc && xdr_sge_no < sge_count;
+        for (bc = xdr_off, xdr_sge_no = 1; bc && xdr_sge_no < vec->count;
             xdr_sge_no++) {
-                if (xdr_sge[xdr_sge_no].length > bc)
+                if (vec->sge[xdr_sge_no].iov_len > bc)
                        break;
-                bc -= xdr_sge[xdr_sge_no].length;
+                bc -= vec->sge[xdr_sge_no].iov_len;
        }
        sge_off = bc;
@@ -180,21 +158,28 @@ static int send_write(struct svcxprt_rdma *xprt, struct svc_rqst *rqstp,
        sge_no = 0;
        /* Copy the remaining SGE */
-        while (bc != 0 && xdr_sge_no < sge_count) {
+        while (bc != 0 && xdr_sge_no < vec->count) {
-                sge[sge_no].addr = xdr_sge[xdr_sge_no].addr + sge_off;
+                sge[sge_no].lkey = xprt->sc_phys_mr->lkey;
-                sge[sge_no].lkey = xdr_sge[xdr_sge_no].lkey;
                sge_bytes = min((size_t)bc,
-                                (size_t)(xdr_sge[xdr_sge_no].length-sge_off));
+                                (size_t)(vec->sge[xdr_sge_no].iov_len-sge_off));
                sge[sge_no].length = sge_bytes;
+                atomic_inc(&xprt->sc_dma_used);
+                sge[sge_no].addr =
+                        ib_dma_map_single(xprt->sc_cm_id->device,
+                                          (void *)
+                                          vec->sge[xdr_sge_no].iov_base + sge_off,
+                                          sge_bytes, DMA_TO_DEVICE);
+                if (dma_mapping_error(sge[sge_no].addr))
+                        goto err;
                sge_off = 0;
                sge_no++;
+                ctxt->count++;
                xdr_sge_no++;
                bc -= sge_bytes;
        }
        BUG_ON(bc != 0);
-        BUG_ON(xdr_sge_no > sge_count);
+        BUG_ON(xdr_sge_no > vec->count);
        /* Prepare WRITE WR */
        memset(&write_wr, 0, sizeof write_wr);
@@ -209,21 +194,20 @@ static int send_write(struct svcxprt_rdma *xprt, struct svc_rqst *rqstp,
        /* Post It */
        atomic_inc(&rdma_stat_write);
-        if (svc_rdma_send(xprt, &write_wr)) {
+        if (svc_rdma_send(xprt, &write_wr))
-                svc_rdma_put_context(ctxt, 1);
+                goto err;
-                /* Fatal error, close transport */
+        return 0;
-                ret = -EIO;
+ err:
-        }
+        svc_rdma_put_context(ctxt, 0);
-        svc_rdma_put_context(tmp_sge_ctxt, 0);
+        /* Fatal error, close transport */
-        return ret;
+        return -EIO;
 }
 static int send_write_chunks(struct svcxprt_rdma *xprt,
                             struct rpcrdma_msg *rdma_argp,
                             struct rpcrdma_msg *rdma_resp,
                             struct svc_rqst *rqstp,
-                             struct ib_sge *sge,
+                             struct svc_rdma_req_map *vec)
-                             int sge_count)
 {
        u32 xfer_len = rqstp->rq_res.page_len + rqstp->rq_res.tail[0].iov_len;
        int write_len;
@@ -269,8 +253,7 @@ static int send_write_chunks(struct svcxprt_rdma *xprt,
                                         rs_offset + chunk_off,
                                         xdr_off,
                                         this_write,
-                                         sge,
+                                         vec);
-                                         sge_count);
                        if (ret) {
                                dprintk("svcrdma: RDMA_WRITE failed, ret=%d\n",
                                        ret);
@@ -292,8 +275,7 @@ static int send_reply_chunks(struct svcxprt_rdma *xprt,
                             struct rpcrdma_msg *rdma_argp,
                             struct rpcrdma_msg *rdma_resp,
                             struct svc_rqst *rqstp,
-                             struct ib_sge *sge,
+                             struct svc_rdma_req_map *vec)
-                             int sge_count)
 {
        u32 xfer_len = rqstp->rq_res.len;
        int write_len;
@@ -341,8 +323,7 @@ static int send_reply_chunks(struct svcxprt_rdma *xprt,
                                         rs_offset + chunk_off,
                                         xdr_off,
                                         this_write,
-                                         sge,
+                                         vec);
-                                         sge_count);
                        if (ret) {
                                dprintk("svcrdma: RDMA_WRITE failed, ret=%d\n",
                                        ret);
@@ -380,7 +361,7 @@ static int send_reply(struct svcxprt_rdma *rdma,
                      struct page *page,
                      struct rpcrdma_msg *rdma_resp,
                      struct svc_rdma_op_ctxt *ctxt,
-                      int sge_count,
+                      struct svc_rdma_req_map *vec,
                      int byte_count)
 {
        struct ib_send_wr send_wr;
@@ -405,6 +386,7 @@ static int send_reply(struct svcxprt_rdma *rdma,
        ctxt->count = 1;
        /* Prepare the SGE for the RPCRDMA Header */
+        atomic_inc(&rdma->sc_dma_used);
        ctxt->sge[0].addr =
                ib_dma_map_page(rdma->sc_cm_id->device,
                                page, 0, PAGE_SIZE, DMA_TO_DEVICE);
@@ -413,10 +395,16 @@ static int send_reply(struct svcxprt_rdma *rdma,
        ctxt->sge[0].lkey = rdma->sc_phys_mr->lkey;
        /* Determine how many of our SGE are to be transmitted */
-        for (sge_no = 1; byte_count && sge_no < sge_count; sge_no++) {
+        for (sge_no = 1; byte_count && sge_no < vec->count; sge_no++) {
-                sge_bytes = min((size_t)ctxt->sge[sge_no].length,
+                sge_bytes = min_t(size_t, vec->sge[sge_no].iov_len, byte_count);
-                                (size_t)byte_count);
                byte_count -= sge_bytes;
+                atomic_inc(&rdma->sc_dma_used);
+                ctxt->sge[sge_no].addr =
+                        ib_dma_map_single(rdma->sc_cm_id->device,
+                                          vec->sge[sge_no].iov_base,
+                                          sge_bytes, DMA_TO_DEVICE);
+                ctxt->sge[sge_no].length = sge_bytes;
+                ctxt->sge[sge_no].lkey = rdma->sc_phys_mr->lkey;
        }
        BUG_ON(byte_count != 0);
@@ -428,8 +416,10 @@ static int send_reply(struct svcxprt_rdma *rdma,
                ctxt->pages[page_no+1] = rqstp->rq_respages[page_no];
                ctxt->count++;
                rqstp->rq_respages[page_no] = NULL;
+                /* If there are more pages than SGE, terminate SGE list */
+                if (page_no+1 >= sge_no)
+                        ctxt->sge[page_no+1].length = 0;
        }
        BUG_ON(sge_no > rdma->sc_max_sge);
        memset(&send_wr, 0, sizeof send_wr);
        ctxt->wr_op = IB_WR_SEND;
@@ -473,20 +463,20 @@ int svc_rdma_sendto(struct svc_rqst *rqstp)
        enum rpcrdma_proc reply_type;
        int ret;
        int inline_bytes;
-        struct ib_sge *sge;
-        int sge_count = 0;
        struct page *res_page;
        struct svc_rdma_op_ctxt *ctxt;
+        struct svc_rdma_req_map *vec;
        dprintk("svcrdma: sending response for rqstp=%p\n", rqstp);
        /* Get the RDMA request header. */
        rdma_argp = xdr_start(&rqstp->rq_arg);
-        /* Build an SGE for the XDR */
+        /* Build an req vec for the XDR */
        ctxt = svc_rdma_get_context(rdma);
        ctxt->direction = DMA_TO_DEVICE;
-        sge = xdr_to_sge(rdma, &rqstp->rq_res, ctxt->sge, &sge_count);
+        vec = svc_rdma_get_req_map();
+        xdr_to_sge(rdma, &rqstp->rq_res, vec);
        inline_bytes = rqstp->rq_res.len;
@@ -503,7 +493,7 @@ int svc_rdma_sendto(struct svc_rqst *rqstp)
        /* Send any write-chunk data and build resp write-list */
        ret = send_write_chunks(rdma, rdma_argp, rdma_resp,
-                                rqstp, sge, sge_count);
+                                rqstp, vec);
        if (ret < 0) {
                printk(KERN_ERR "svcrdma: failed to send write chunks, rc=%d\n",
                       ret);
@@ -513,7 +503,7 @@ int svc_rdma_sendto(struct svc_rqst *rqstp)
        /* Send any reply-list data and update resp reply-list */
        ret = send_reply_chunks(rdma, rdma_argp, rdma_resp,
-                                rqstp, sge, sge_count);
+                                rqstp, vec);
        if (ret < 0) {
                printk(KERN_ERR "svcrdma: failed to send reply chunks, rc=%d\n",
                       ret);
@@ -521,11 +511,13 @@ int svc_rdma_sendto(struct svc_rqst *rqstp)
        }
        inline_bytes -= ret;
-        ret = send_reply(rdma, rqstp, res_page, rdma_resp, ctxt, sge_count,
+        ret = send_reply(rdma, rqstp, res_page, rdma_resp, ctxt, vec,
                         inline_bytes);
+        svc_rdma_put_req_map(vec);
        dprintk("svcrdma: send_reply returns %d\n", ret);
        return ret;
 error:
+        svc_rdma_put_req_map(vec);
        svc_rdma_put_context(ctxt, 0);
        put_page(res_page);
        return ret;
diff --git a/net/sunrpc/xprtrdma/svc_rdma_transport.c b/net/sunrpc/xprtrdma/svc_rdma_transport.c
index e132509d1db0..19ddc382b777 100644
--- a/net/sunrpc/xprtrdma/svc_rdma_transport.c
+++ b/net/sunrpc/xprtrdma/svc_rdma_transport.c
@@ -84,70 +84,37 @@ struct svc_xprt_class svc_rdma_class = {
        .xcl_max_payload = RPCSVC_MAXPAYLOAD_TCP,
 };
-static int rdma_bump_context_cache(struct svcxprt_rdma *xprt)
+/* WR context cache. Created in svc_rdma.c  */
+extern struct kmem_cache *svc_rdma_ctxt_cachep;
+struct svc_rdma_op_ctxt *svc_rdma_get_context(struct svcxprt_rdma *xprt)
 {
-        int target;
-        int at_least_one = 0;
        struct svc_rdma_op_ctxt *ctxt;
-        target = min(xprt->sc_ctxt_cnt + xprt->sc_ctxt_bump,
+        while (1) {
-                     xprt->sc_ctxt_max);
+                ctxt = kmem_cache_alloc(svc_rdma_ctxt_cachep, GFP_KERNEL);
+                if (ctxt)
-        spin_lock_bh(&xprt->sc_ctxt_lock);
-        while (xprt->sc_ctxt_cnt < target) {
-                xprt->sc_ctxt_cnt++;
-                spin_unlock_bh(&xprt->sc_ctxt_lock);
-                ctxt = kmalloc(sizeof(*ctxt), GFP_KERNEL);
-                spin_lock_bh(&xprt->sc_ctxt_lock);
-                if (ctxt) {
-                        at_least_one = 1;
-                        INIT_LIST_HEAD(&ctxt->free_list);
-                        list_add(&ctxt->free_list, &xprt->sc_ctxt_free);
-                } else {
-                        /* kmalloc failed...give up for now */
-                        xprt->sc_ctxt_cnt--;
                        break;
-                }
+                schedule_timeout_uninterruptible(msecs_to_jiffies(500));
        }
-        spin_unlock_bh(&xprt->sc_ctxt_lock);
+        ctxt->xprt = xprt;
-        dprintk("svcrdma: sc_ctxt_max=%d, sc_ctxt_cnt=%d\n",
+        INIT_LIST_HEAD(&ctxt->dto_q);
-                xprt->sc_ctxt_max, xprt->sc_ctxt_cnt);
+        ctxt->count = 0;
-        return at_least_one;
+        atomic_inc(&xprt->sc_ctxt_used);
+        return ctxt;
 }
-struct svc_rdma_op_ctxt *svc_rdma_get_context(struct svcxprt_rdma *xprt)
+static void svc_rdma_unmap_dma(struct svc_rdma_op_ctxt *ctxt)
 {
-        struct svc_rdma_op_ctxt *ctxt;
+        struct svcxprt_rdma *xprt = ctxt->xprt;
+        int i;
-        while (1) {
+        for (i = 0; i < ctxt->count && ctxt->sge[i].length; i++) {
-                spin_lock_bh(&xprt->sc_ctxt_lock);
+                atomic_dec(&xprt->sc_dma_used);
-                if (unlikely(list_empty(&xprt->sc_ctxt_free))) {
+                ib_dma_unmap_single(xprt->sc_cm_id->device,
-                        /* Try to bump my cache. */
+                                    ctxt->sge[i].addr,
-                        spin_unlock_bh(&xprt->sc_ctxt_lock);
+                                    ctxt->sge[i].length,
+                                    ctxt->direction);
-                        if (rdma_bump_context_cache(xprt))
-                                continue;
-                        printk(KERN_INFO "svcrdma: sleeping waiting for "
-                               "context memory on xprt=%p\n",
-                               xprt);
-                        schedule_timeout_uninterruptible(msecs_to_jiffies(500));
-                        continue;
-                }
-                ctxt = list_entry(xprt->sc_ctxt_free.next,
-                                  struct svc_rdma_op_ctxt,
-                                  free_list);
-                list_del_init(&ctxt->free_list);
-                spin_unlock_bh(&xprt->sc_ctxt_lock);
-                ctxt->xprt = xprt;
-                INIT_LIST_HEAD(&ctxt->dto_q);
-                ctxt->count = 0;
-                atomic_inc(&xprt->sc_ctxt_used);
-                break;
        }
-        return ctxt;
 }
 void svc_rdma_put_context(struct svc_rdma_op_ctxt *ctxt, int free_pages)
@@ -161,18 +128,36 @@ void svc_rdma_put_context(struct svc_rdma_op_ctxt *ctxt, int free_pages)
                for (i = 0; i < ctxt->count; i++)
                        put_page(ctxt->pages[i]);
-        for (i = 0; i < ctxt->count; i++)
+        kmem_cache_free(svc_rdma_ctxt_cachep, ctxt);
-                ib_dma_unmap_single(xprt->sc_cm_id->device,
-                                    ctxt->sge[i].addr,
-                                    ctxt->sge[i].length,
-                                    ctxt->direction);
-        spin_lock_bh(&xprt->sc_ctxt_lock);
-        list_add(&ctxt->free_list, &xprt->sc_ctxt_free);
-        spin_unlock_bh(&xprt->sc_ctxt_lock);
        atomic_dec(&xprt->sc_ctxt_used);
 }
+/* Temporary NFS request map cache. Created in svc_rdma.c  */
+extern struct kmem_cache *svc_rdma_map_cachep;
+/*
+ * Temporary NFS req mappings are shared across all transport
+ * instances. These are short lived and should be bounded by the number
+ * of concurrent server threads * depth of the SQ.
+ */
+struct svc_rdma_req_map *svc_rdma_get_req_map(void)
+{
+        struct svc_rdma_req_map *map;
+        while (1) {
+                map = kmem_cache_alloc(svc_rdma_map_cachep, GFP_KERNEL);
+                if (map)
+                        break;
+                schedule_timeout_uninterruptible(msecs_to_jiffies(500));
+        }
+        map->count = 0;
+        return map;
+}
+void svc_rdma_put_req_map(struct svc_rdma_req_map *map)
+{
+        kmem_cache_free(svc_rdma_map_cachep, map);
+}
 /* ib_cq event handler */
 static void cq_event_handler(struct ib_event *event, void *context)
 {
@@ -302,6 +287,7 @@ static void rq_cq_reap(struct svcxprt_rdma *xprt)
                ctxt = (struct svc_rdma_op_ctxt *)(unsigned long)wc.wr_id;
                ctxt->wc_status = wc.status;
                ctxt->byte_len = wc.byte_len;
+                svc_rdma_unmap_dma(ctxt);
                if (wc.status != IB_WC_SUCCESS) {
                        /* Close the transport */
                        dprintk("svcrdma: transport closing putting ctxt %p\n", ctxt);
@@ -351,6 +337,7 @@ static void sq_cq_reap(struct svcxprt_rdma *xprt)
                ctxt = (struct svc_rdma_op_ctxt *)(unsigned long)wc.wr_id;
                xprt = ctxt->xprt;
+                svc_rdma_unmap_dma(ctxt);
                if (wc.status != IB_WC_SUCCESS)
                        /* Close the transport */
                        set_bit(XPT_CLOSE, &xprt->sc_xprt.xpt_flags);
@@ -361,10 +348,13 @@ static void sq_cq_reap(struct svcxprt_rdma *xprt)
                switch (ctxt->wr_op) {
                case IB_WR_SEND:
-                case IB_WR_RDMA_WRITE:
                        svc_rdma_put_context(ctxt, 1);
                        break;
+                case IB_WR_RDMA_WRITE:
+                        svc_rdma_put_context(ctxt, 0);
+                        break;
                case IB_WR_RDMA_READ:
                        if (test_bit(RDMACTXT_F_LAST_CTXT, &ctxt->flags)) {
                                struct svc_rdma_op_ctxt *read_hdr = ctxt->read_hdr;
@@ -423,40 +413,6 @@ static void sq_comp_handler(struct ib_cq *cq, void *cq_context)
        tasklet_schedule(&dto_tasklet);
 }
-static void create_context_cache(struct svcxprt_rdma *xprt,
-                                 int ctxt_count, int ctxt_bump, int ctxt_max)
-{
-        struct svc_rdma_op_ctxt *ctxt;
-        int i;
-        xprt->sc_ctxt_max = ctxt_max;
-        xprt->sc_ctxt_bump = ctxt_bump;
-        xprt->sc_ctxt_cnt = 0;
-        atomic_set(&xprt->sc_ctxt_used, 0);
-        INIT_LIST_HEAD(&xprt->sc_ctxt_free);
-        for (i = 0; i < ctxt_count; i++) {
-                ctxt = kmalloc(sizeof(*ctxt), GFP_KERNEL);
-                if (ctxt) {
-                        INIT_LIST_HEAD(&ctxt->free_list);
-                        list_add(&ctxt->free_list, &xprt->sc_ctxt_free);
-                        xprt->sc_ctxt_cnt++;
-                }
-        }
-}
-static void destroy_context_cache(struct svcxprt_rdma *xprt)
-{
-        while (!list_empty(&xprt->sc_ctxt_free)) {
-                struct svc_rdma_op_ctxt *ctxt;
-                ctxt = list_entry(xprt->sc_ctxt_free.next,
-                                  struct svc_rdma_op_ctxt,
-                                  free_list);
-                list_del_init(&ctxt->free_list);
-                kfree(ctxt);
-        }
-}
 static struct svcxprt_rdma *rdma_create_xprt(struct svc_serv *serv,
                                             int listener)
 {
@@ -473,7 +429,6 @@ static struct svcxprt_rdma *rdma_create_xprt(struct svc_serv *serv,
        spin_lock_init(&cma_xprt->sc_lock);
        spin_lock_init(&cma_xprt->sc_read_complete_lock);
-        spin_lock_init(&cma_xprt->sc_ctxt_lock);
        spin_lock_init(&cma_xprt->sc_rq_dto_lock);
        cma_xprt->sc_ord = svcrdma_ord;
@@ -482,21 +437,9 @@ static struct svcxprt_rdma *rdma_create_xprt(struct svc_serv *serv,
        cma_xprt->sc_max_requests = svcrdma_max_requests;
        cma_xprt->sc_sq_depth = svcrdma_max_requests * RPCRDMA_SQ_DEPTH_MULT;
        atomic_set(&cma_xprt->sc_sq_count, 0);
+        atomic_set(&cma_xprt->sc_ctxt_used, 0);
-        if (!listener) {
+        if (listener)
-                int reqs = cma_xprt->sc_max_requests;
-                create_context_cache(cma_xprt,
-                                     reqs << 1, /* starting size */
-                                     reqs,      /* bump amount */
-                                     reqs +
-                                     cma_xprt->sc_sq_depth +
-                                     RPCRDMA_MAX_THREADS + 1); /* max */
-                if (list_empty(&cma_xprt->sc_ctxt_free)) {
-                        kfree(cma_xprt);
-                        return NULL;
-                }
-                clear_bit(XPT_LISTENER, &cma_xprt->sc_xprt.xpt_flags);
-        } else
                set_bit(XPT_LISTENER, &cma_xprt->sc_xprt.xpt_flags);
        return cma_xprt;
@@ -532,6 +475,7 @@ int svc_rdma_post_recv(struct svcxprt_rdma *xprt)
                BUG_ON(sge_no >= xprt->sc_max_sge);
                page = svc_rdma_get_page();
                ctxt->pages[sge_no] = page;
+                atomic_inc(&xprt->sc_dma_used);
                pa = ib_dma_map_page(xprt->sc_cm_id->device,
                                     page, 0, PAGE_SIZE,
                                     DMA_FROM_DEVICE);
@@ -566,7 +510,7 @@ int svc_rdma_post_recv(struct svcxprt_rdma *xprt)
 * will call the recvfrom method on the listen xprt which will accept the new
 * connection.
 */
-static void handle_connect_req(struct rdma_cm_id *new_cma_id)
+static void handle_connect_req(struct rdma_cm_id *new_cma_id, size_t client_ird)
 {
        struct svcxprt_rdma *listen_xprt = new_cma_id->context;
        struct svcxprt_rdma *newxprt;
@@ -583,6 +527,9 @@ static void handle_connect_req(struct rdma_cm_id *new_cma_id)
        dprintk("svcrdma: Creating newxprt=%p, cm_id=%p, listenxprt=%p\n",
                newxprt, newxprt->sc_cm_id, listen_xprt);
+        /* Save client advertised inbound read limit for use later in accept. */
+        newxprt->sc_ord = client_ird;
        /* Set the local and remote addresses in the transport */
        sa = (struct sockaddr *)&newxprt->sc_cm_id->route.addr.dst_addr;
        svc_xprt_set_remote(&newxprt->sc_xprt, sa, svc_addr_len(sa));
@@ -619,7 +566,8 @@ static int rdma_listen_handler(struct rdma_cm_id *cma_id,
        case RDMA_CM_EVENT_CONNECT_REQUEST:
                dprintk("svcrdma: Connect request on cma_id=%p, xprt = %p, "
                        "event=%d\n", cma_id, cma_id->context, event->event);
-                handle_connect_req(cma_id);
+                handle_connect_req(cma_id,
+                                   event->param.conn.responder_resources);
                break;
        case RDMA_CM_EVENT_ESTABLISHED:
@@ -793,8 +741,12 @@ static struct svc_xprt *svc_rdma_accept(struct svc_xprt *xprt)
                                   (size_t)svcrdma_max_requests);
        newxprt->sc_sq_depth = RPCRDMA_SQ_DEPTH_MULT * newxprt->sc_max_requests;
-        newxprt->sc_ord =  min((size_t)devattr.max_qp_rd_atom,
+        /*
-                               (size_t)svcrdma_ord);
+         * Limit ORD based on client limit, local device limit, and
+         * configured svcrdma limit.
+         */
+        newxprt->sc_ord = min_t(size_t, devattr.max_qp_rd_atom, newxprt->sc_ord);
+        newxprt->sc_ord = min_t(size_t, svcrdma_ord, newxprt->sc_ord);
        newxprt->sc_pd = ib_alloc_pd(newxprt->sc_cm_id->device);
        if (IS_ERR(newxprt->sc_pd)) {
@@ -987,7 +939,6 @@ static void __svc_rdma_free(struct work_struct *work)
         * cm_id because the device ptr is needed to unmap the dma in
         * svc_rdma_put_context.
         */
-        spin_lock_bh(&rdma->sc_read_complete_lock);
        while (!list_empty(&rdma->sc_read_complete_q)) {
                struct svc_rdma_op_ctxt *ctxt;
                ctxt = list_entry(rdma->sc_read_complete_q.next,
@@ -996,10 +947,8 @@ static void __svc_rdma_free(struct work_struct *work)
                list_del_init(&ctxt->dto_q);
                svc_rdma_put_context(ctxt, 1);
        }
-        spin_unlock_bh(&rdma->sc_read_complete_lock);
        /* Destroy queued, but not processed recv completions */
-        spin_lock_bh(&rdma->sc_rq_dto_lock);
        while (!list_empty(&rdma->sc_rq_dto_q)) {
                struct svc_rdma_op_ctxt *ctxt;
                ctxt = list_entry(rdma->sc_rq_dto_q.next,
@@ -1008,10 +957,10 @@ static void __svc_rdma_free(struct work_struct *work)
                list_del_init(&ctxt->dto_q);
                svc_rdma_put_context(ctxt, 1);
        }
-        spin_unlock_bh(&rdma->sc_rq_dto_lock);
        /* Warn if we leaked a resource or under-referenced */
        WARN_ON(atomic_read(&rdma->sc_ctxt_used) != 0);
+        WARN_ON(atomic_read(&rdma->sc_dma_used) != 0);
        /* Destroy the QP if present (not a listener) */
        if (rdma->sc_qp && !IS_ERR(rdma->sc_qp))
@@ -1032,7 +981,6 @@ static void __svc_rdma_free(struct work_struct *work)
        /* Destroy the CM ID */
        rdma_destroy_id(rdma->sc_cm_id);
-        destroy_context_cache(rdma);
        kfree(rdma);
 }
@@ -1132,6 +1080,7 @@ void svc_rdma_send_error(struct svcxprt_rdma *xprt, struct rpcrdma_msg *rmsgp,
        length = svc_rdma_xdr_encode_error(xprt, rmsgp, err, va);
        /* Prepare SGE for local address */
+        atomic_inc(&xprt->sc_dma_used);
        sge.addr = ib_dma_map_page(xprt->sc_cm_id->device,
                                   p, 0, PAGE_SIZE, DMA_FROM_DEVICE);
        sge.lkey = xprt->sc_phys_mr->lkey;
author	Linus Torvalds <torvalds@linux-foundation.org>	2008-07-21 00:21:46 -0400
committer	Linus Torvalds <torvalds@linux-foundation.org>	2008-07-21 00:21:46 -0400
commit	14b395e35d1afdd8019d11b92e28041fad591b71 (patch)
tree	cff7ba9bed7a38300b19a5bacc632979d64fd9c8 /net/sunrpc
parent	734b397cd14f3340394a8dd3266bec97d01f034b (diff)
parent	5108b27651727b5aba0826e8fd7be71b42428701 (diff)