2 files changed, 362 insertions, 76 deletions
diff --git a/arch/x86/lib/memcpy_32.c b/arch/x86/lib/memcpy_32.c
index 81130d477ee2..b908a59eccf5 100644
--- a/arch/x86/lib/memcpy_32.c
+++ b/arch/x86/lib/memcpy_32.c
@@ -22,36 +22,187 @@ EXPORT_SYMBOL(memset);
 void *memmove(void *dest, const void *src, size_t n)
 {
-        int d0, d1, d2;
+        int d0,d1,d2,d3,d4,d5;
+        char *ret = dest;
-        if (dest < src) {
-                if ((dest + n) < src)
+        __asm__ __volatile__(
-                         return memcpy(dest, src, n);
+                /* Handle more 16bytes in loop */
-                else
+                "cmp $0x10, %0\n\t"
-                        __asm__ __volatile__(
+                "jb     1f\n\t"
-                                "rep\n\t"
-                                "movsb\n\t"
+                /* Decide forward/backward copy mode */
-                                : "=&c" (d0), "=&S" (d1), "=&D" (d2)
+                "cmp %2, %1\n\t"
-                                :"0" (n),
+                "jb     2f\n\t"
-                                 "1" (src),
-                                 "2" (dest)
+                /*
-                                :"memory");
+                 * movs instruction have many startup latency
-        } else {
+                 * so we handle small size by general register.
-                if((src + n) < dest)
+                 */
-                        return memcpy(dest, src, n);
+                "cmp  $680, %0\n\t"
-                else
+                "jb 3f\n\t"
-                        __asm__ __volatile__(
+                /*
-                                "std\n\t"
+                 * movs instruction is only good for aligned case.
-                                "rep\n\t"
+                 */
-                                "movsb\n\t"
+                "mov %1, %3\n\t"
-                                "cld"
+                "xor %2, %3\n\t"
-                                : "=&c" (d0), "=&S" (d1), "=&D" (d2)
+                "and $0xff, %3\n\t"
-                                :"0" (n),
+                "jz 4f\n\t"
-                                 "1" (n-1+src),
+                "3:\n\t"
-                                 "2" (n-1+dest)
+                "sub $0x10, %0\n\t"
-                                :"memory");
-        }
+                /*
+                 * We gobble 16byts forward in each loop.
-        return dest;
+                 */
+                "3:\n\t"
+                "sub $0x10, %0\n\t"
+                "mov 0*4(%1), %3\n\t"
+                "mov 1*4(%1), %4\n\t"
+                "mov  %3, 0*4(%2)\n\t"
+                "mov  %4, 1*4(%2)\n\t"
+                "mov 2*4(%1), %3\n\t"
+                "mov 3*4(%1), %4\n\t"
+                "mov  %3, 2*4(%2)\n\t"
+                "mov  %4, 3*4(%2)\n\t"
+                "lea  0x10(%1), %1\n\t"
+                "lea  0x10(%2), %2\n\t"
+                "jae 3b\n\t"
+                "add $0x10, %0\n\t"
+                "jmp 1f\n\t"
+                /*
+                 * Handle data forward by movs.
+                 */
+                ".p2align 4\n\t"
+                "4:\n\t"
+                "mov -4(%1, %0), %3\n\t"
+                "lea -4(%2, %0), %4\n\t"
+                "shr $2, %0\n\t"
+                "rep movsl\n\t"
+                "mov %3, (%4)\n\t"
+                "jmp 11f\n\t"
+                /*
+                 * Handle data backward by movs.
+                 */
+                ".p2align 4\n\t"
+                "6:\n\t"
+                "mov (%1), %3\n\t"
+                "mov %2, %4\n\t"
+                "lea -4(%1, %0), %1\n\t"
+                "lea -4(%2, %0), %2\n\t"
+                "shr $2, %0\n\t"
+                "std\n\t"
+                "rep movsl\n\t"
+                "mov %3,(%4)\n\t"
+                "cld\n\t"
+                "jmp 11f\n\t"
+                /*
+                 * Start to prepare for backward copy.
+                 */
+                ".p2align 4\n\t"
+                "2:\n\t"
+                "cmp  $680, %0\n\t"
+                "jb 5f\n\t"
+                "mov %1, %3\n\t"
+                "xor %2, %3\n\t"
+                "and $0xff, %3\n\t"
+                "jz 6b\n\t"
+                /*
+                 * Calculate copy position to tail.
+                 */
+                "5:\n\t"
+                "add %0, %1\n\t"
+                "add %0, %2\n\t"
+                "sub $0x10, %0\n\t"
+                /*
+                 * We gobble 16byts backward in each loop.
+                 */
+                "7:\n\t"
+                "sub $0x10, %0\n\t"
+                "mov -1*4(%1), %3\n\t"
+                "mov -2*4(%1), %4\n\t"
+                "mov  %3, -1*4(%2)\n\t"
+                "mov  %4, -2*4(%2)\n\t"
+                "mov -3*4(%1), %3\n\t"
+                "mov -4*4(%1), %4\n\t"
+                "mov  %3, -3*4(%2)\n\t"
+                "mov  %4, -4*4(%2)\n\t"
+                "lea  -0x10(%1), %1\n\t"
+                "lea  -0x10(%2), %2\n\t"
+                "jae 7b\n\t"
+                /*
+                 * Calculate copy position to head.
+                 */
+                "add $0x10, %0\n\t"
+                "sub %0, %1\n\t"
+                "sub %0, %2\n\t"
+                /*
+                 * Move data from 8 bytes to 15 bytes.
+                 */
+                ".p2align 4\n\t"
+                "1:\n\t"
+                "cmp $8, %0\n\t"
+                "jb 8f\n\t"
+                "mov 0*4(%1), %3\n\t"
+                "mov 1*4(%1), %4\n\t"
+                "mov -2*4(%1, %0), %5\n\t"
+                "mov -1*4(%1, %0), %1\n\t"
+                "mov  %3, 0*4(%2)\n\t"
+                "mov  %4, 1*4(%2)\n\t"
+                "mov  %5, -2*4(%2, %0)\n\t"
+                "mov  %1, -1*4(%2, %0)\n\t"
+                "jmp 11f\n\t"
+                /*
+                 * Move data from 4 bytes to 7 bytes.
+                 */
+                ".p2align 4\n\t"
+                "8:\n\t"
+                "cmp $4, %0\n\t"
+                "jb 9f\n\t"
+                "mov 0*4(%1), %3\n\t"
+                "mov -1*4(%1, %0), %4\n\t"
+                "mov  %3, 0*4(%2)\n\t"
+                "mov  %4, -1*4(%2, %0)\n\t"
+                "jmp 11f\n\t"
+                /*
+                 * Move data from 2 bytes to 3 bytes.
+                 */
+                ".p2align 4\n\t"
+                "9:\n\t"
+                "cmp $2, %0\n\t"
+                "jb 10f\n\t"
+                "movw 0*2(%1), %%dx\n\t"
+                "movw -1*2(%1, %0), %%bx\n\t"
+                "movw %%dx, 0*2(%2)\n\t"
+                "movw %%bx, -1*2(%2, %0)\n\t"
+                "jmp 11f\n\t"
+                /*
+                 * Move data for 1 byte.
+                 */
+                ".p2align 4\n\t"
+                "10:\n\t"
+                "cmp $1, %0\n\t"
+                "jb 11f\n\t"
+                "movb (%1), %%cl\n\t"
+                "movb %%cl, (%2)\n\t"
+                ".p2align 4\n\t"
+                "11:"
+                : "=&c" (d0), "=&S" (d1), "=&D" (d2),
+                  "=r" (d3),"=r" (d4), "=r"(d5)
+                :"0" (n),
+                 "1" (src),
+                 "2" (dest)
+                :"memory");
+        return ret;
 }
 EXPORT_SYMBOL(memmove);
diff --git a/arch/x86/lib/memmove_64.c b/arch/x86/lib/memmove_64.c
index ecacc4b3d9e5..6d0f0ec41b34 100644
--- a/arch/x86/lib/memmove_64.c
+++ b/arch/x86/lib/memmove_64.c
@@ -8,50 +8,185 @@
 #undef memmove
 void *memmove(void *dest, const void *src, size_t count)
 {
-        unsigned long d0, d1, d2, d3;
+        unsigned long d0,d1,d2,d3,d4,d5,d6,d7;
-        if (dest < src) {
+        char *ret;
-                if ((dest + count) < src)
-                         return memcpy(dest, src, count);
+        __asm__ __volatile__(
-                else
+                /* Handle more 32bytes in loop */
-                        __asm__ __volatile__(
+                "mov %2, %3\n\t"
-                                "movq %0, %3\n\t"
+                "cmp $0x20, %0\n\t"
-                                "shr $3, %0\n\t"
+                "jb     1f\n\t"
-                                "andq $7, %3\n\t"
-                                "rep\n\t"
+                /* Decide forward/backward copy mode */
-                                "movsq\n\t"
+                "cmp %2, %1\n\t"
-                                "movq %3, %0\n\t"
+                "jb     2f\n\t"
-                                "rep\n\t"
-                                "movsb"
+                /*
-                                : "=&c" (d0), "=&S" (d1), "=&D" (d2), "=r" (d3)
+                 * movsq instruction have many startup latency
-                                :"0" (count),
+                 * so we handle small size by general register.
-                                 "1" (src),
+                 */
-                                 "2" (dest)
+                "cmp  $680, %0\n\t"
-                                :"memory");
+                "jb 3f\n\t"
-        } else {
+                /*
-                if((src + count) < dest)
+                 * movsq instruction is only good for aligned case.
-                        return memcpy(dest, src, count);
+                 */
-                else
+                "cmpb %%dil, %%sil\n\t"
-                        __asm__ __volatile__(
+                "je 4f\n\t"
-                                "movq %0, %3\n\t"
+                "3:\n\t"
-                                "lea -8(%1, %0), %1\n\t"
+                "sub $0x20, %0\n\t"
-                                "lea -8(%2, %0), %2\n\t"
+                /*
-                                "shr $3, %0\n\t"
+                 * We gobble 32byts forward in each loop.
-                                "andq $7, %3\n\t"
+                 */
-                                "std\n\t"
+                "5:\n\t"
-                                "rep\n\t"
+                "sub $0x20, %0\n\t"
-                                "movsq\n\t"
+                "movq 0*8(%1), %4\n\t"
-                                "lea 7(%1), %1\n\t"
+                "movq 1*8(%1), %5\n\t"
-                                "lea 7(%2), %2\n\t"
+                "movq 2*8(%1), %6\n\t"
-                                "movq %3, %0\n\t"
+                "movq 3*8(%1), %7\n\t"
-                                "rep\n\t"
+                "leaq 4*8(%1), %1\n\t"
-                                "movsb\n\t"
-                                "cld"
+                "movq %4, 0*8(%2)\n\t"
-                                : "=&c" (d0), "=&S" (d1), "=&D" (d2), "=r" (d3)
+                "movq %5, 1*8(%2)\n\t"
-                                :"0" (count),
+                "movq %6, 2*8(%2)\n\t"
-                                 "1" (src),
+                "movq %7, 3*8(%2)\n\t"
-                                 "2" (dest)
+                "leaq 4*8(%2), %2\n\t"
-                                :"memory");
+                "jae 5b\n\t"
-        }
+                "addq $0x20, %0\n\t"
-        return dest;
+                "jmp 1f\n\t"
+                /*
+                 * Handle data forward by movsq.
+                 */
+                ".p2align 4\n\t"
+                "4:\n\t"
+                "movq %0, %8\n\t"
+                "movq -8(%1, %0), %4\n\t"
+                "lea -8(%2, %0), %5\n\t"
+                "shrq $3, %8\n\t"
+                "rep movsq\n\t"
+                "movq %4, (%5)\n\t"
+                "jmp 13f\n\t"
+                /*
+                 * Handle data backward by movsq.
+                 */
+                ".p2align 4\n\t"
+                "7:\n\t"
+                "movq %0, %8\n\t"
+                "movq (%1), %4\n\t"
+                "movq %2, %5\n\t"
+                "leaq -8(%1, %0), %1\n\t"
+                "leaq -8(%2, %0), %2\n\t"
+                "shrq $3, %8\n\t"
+                "std\n\t"
+                "rep movsq\n\t"
+                "cld\n\t"
+                "movq %4, (%5)\n\t"
+                "jmp 13f\n\t"
+                /*
+                 * Start to prepare for backward copy.
+                 */
+                ".p2align 4\n\t"
+                "2:\n\t"
+                "cmp $680, %0\n\t"
+                "jb 6f \n\t"
+                "cmp %%dil, %%sil\n\t"
+                "je 7b \n\t"
+                "6:\n\t"
+                /*
+                 * Calculate copy position to tail.
+                 */
+                "addq %0, %1\n\t"
+                "addq %0, %2\n\t"
+                "subq $0x20, %0\n\t"
+                /*
+                 * We gobble 32byts backward in each loop.
+                 */
+                "8:\n\t"
+                "subq $0x20, %0\n\t"
+                "movq -1*8(%1), %4\n\t"
+                "movq -2*8(%1), %5\n\t"
+                "movq -3*8(%1), %6\n\t"
+                "movq -4*8(%1), %7\n\t"
+                "leaq -4*8(%1), %1\n\t"
+                "movq %4, -1*8(%2)\n\t"
+                "movq %5, -2*8(%2)\n\t"
+                "movq %6, -3*8(%2)\n\t"
+                "movq %7, -4*8(%2)\n\t"
+                "leaq -4*8(%2), %2\n\t"
+                "jae 8b\n\t"
+                /*
+                 * Calculate copy position to head.
+                 */
+                "addq $0x20, %0\n\t"
+                "subq %0, %1\n\t"
+                "subq %0, %2\n\t"
+                "1:\n\t"
+                "cmpq $16, %0\n\t"
+                "jb 9f\n\t"
+                /*
+                 * Move data from 16 bytes to 31 bytes.
+                 */
+                "movq 0*8(%1), %4\n\t"
+                "movq 1*8(%1), %5\n\t"
+                "movq -2*8(%1, %0), %6\n\t"
+                "movq -1*8(%1, %0), %7\n\t"
+                "movq %4, 0*8(%2)\n\t"
+                "movq %5, 1*8(%2)\n\t"
+                "movq %6, -2*8(%2, %0)\n\t"
+                "movq %7, -1*8(%2, %0)\n\t"
+                "jmp 13f\n\t"
+                ".p2align 4\n\t"
+                "9:\n\t"
+                "cmpq $8, %0\n\t"
+                "jb 10f\n\t"
+                /*
+                 * Move data from 8 bytes to 15 bytes.
+                 */
+                "movq 0*8(%1), %4\n\t"
+                "movq -1*8(%1, %0), %5\n\t"
+                "movq %4, 0*8(%2)\n\t"
+                "movq %5, -1*8(%2, %0)\n\t"
+                "jmp 13f\n\t"
+                "10:\n\t"
+                "cmpq $4, %0\n\t"
+                "jb 11f\n\t"
+                /*
+                 * Move data from 4 bytes to 7 bytes.
+                 */
+                "movl (%1), %4d\n\t"
+                "movl -4(%1, %0), %5d\n\t"
+                "movl %4d, (%2)\n\t"
+                "movl %5d, -4(%2, %0)\n\t"
+                "jmp 13f\n\t"
+                "11:\n\t"
+                "cmp $2, %0\n\t"
+                "jb 12f\n\t"
+                /*
+                 * Move data from 2 bytes to 3 bytes.
+                 */
+                "movw (%1), %4w\n\t"
+                "movw -2(%1, %0), %5w\n\t"
+                "movw %4w, (%2)\n\t"
+                "movw %5w, -2(%2, %0)\n\t"
+                "jmp 13f\n\t"
+                "12:\n\t"
+                "cmp $1, %0\n\t"
+                "jb 13f\n\t"
+                /*
+                 * Move data for 1 byte.
+                 */
+                "movb (%1), %4b\n\t"
+                "movb %4b, (%2)\n\t"
+                "13:\n\t"
+                : "=&d" (d0), "=&S" (d1), "=&D" (d2), "=&a" (ret) ,
+                  "=r"(d3), "=r"(d4), "=r"(d5), "=r"(d6), "=&c" (d7)
+                :"0" (count),
+                 "1" (src),
+                 "2" (dest)
+                :"memory");
+                return ret;
 }
 EXPORT_SYMBOL(memmove);

diff --git a/arch/x86/lib/memcpy_32.c b/arch/x86/lib/memcpy_32.c index 81130d477ee2..b908a59eccf5 100644 --- a/arch/x86/lib/memcpy_32.c +++ b/arch/x86/lib/memcpy_32.c
@@ -22,36 +22,187 @@ EXPORT_SYMBOL(memset);
22		22
23	void memmove(void dest, const void *src, size_t n)	23	void memmove(void dest, const void *src, size_t n)
24	{	24	{
25	int d0, d1, d2;	25	int d0,d1,d2,d3,d4,d5;
26		26	char *ret = dest;
27	if (dest < src) {	27
28	if ((dest + n) < src)	28	__asm__ __volatile__(
29	return memcpy(dest, src, n);	29	/* Handle more 16bytes in loop */
30	else	30	"cmp $0x10, %0\n\t"
31	__asm__ __volatile__(	31	"jb 1f\n\t"
32	"rep\n\t"	32
33	"movsb\n\t"	33	/* Decide forward/backward copy mode */
34	: "=&c" (d0), "=&S" (d1), "=&D" (d2)	34	"cmp %2, %1\n\t"
35	:"0" (n),	35	"jb 2f\n\t"
36	"1" (src),	36
37	"2" (dest)	37	/*
38	:"memory");	38	* movs instruction have many startup latency
39	} else {	39	* so we handle small size by general register.
40	if((src + n) < dest)	40	*/
41	return memcpy(dest, src, n);	41	"cmp $680, %0\n\t"
42	else	42	"jb 3f\n\t"
43	__asm__ __volatile__(	43	/*
44	"std\n\t"	44	* movs instruction is only good for aligned case.
45	"rep\n\t"	45	*/
46	"movsb\n\t"	46	"mov %1, %3\n\t"
47	"cld"	47	"xor %2, %3\n\t"
48	: "=&c" (d0), "=&S" (d1), "=&D" (d2)	48	"and $0xff, %3\n\t"
49	:"0" (n),	49	"jz 4f\n\t"
50	"1" (n-1+src),	50	"3:\n\t"
51	"2" (n-1+dest)	51	"sub $0x10, %0\n\t"
52	:"memory");	52
53	}	53	/*
54		54	* We gobble 16byts forward in each loop.
55	return dest;	55	*/
		56	"3:\n\t"
		57	"sub $0x10, %0\n\t"
		58	"mov 0*4(%1), %3\n\t"
		59	"mov 1*4(%1), %4\n\t"
		60	"mov %3, 0*4(%2)\n\t"
		61	"mov %4, 1*4(%2)\n\t"
		62	"mov 2*4(%1), %3\n\t"
		63	"mov 3*4(%1), %4\n\t"
		64	"mov %3, 2*4(%2)\n\t"
		65	"mov %4, 3*4(%2)\n\t"
		66	"lea 0x10(%1), %1\n\t"
		67	"lea 0x10(%2), %2\n\t"
		68	"jae 3b\n\t"
		69	"add $0x10, %0\n\t"
		70	"jmp 1f\n\t"
		71
		72	/*
		73	* Handle data forward by movs.
		74	*/
		75	".p2align 4\n\t"
		76	"4:\n\t"
		77	"mov -4(%1, %0), %3\n\t"
		78	"lea -4(%2, %0), %4\n\t"
		79	"shr $2, %0\n\t"
		80	"rep movsl\n\t"
		81	"mov %3, (%4)\n\t"
		82	"jmp 11f\n\t"
		83	/*
		84	* Handle data backward by movs.
		85	*/
		86	".p2align 4\n\t"
		87	"6:\n\t"
		88	"mov (%1), %3\n\t"
		89	"mov %2, %4\n\t"
		90	"lea -4(%1, %0), %1\n\t"
		91	"lea -4(%2, %0), %2\n\t"
		92	"shr $2, %0\n\t"
		93	"std\n\t"
		94	"rep movsl\n\t"
		95	"mov %3,(%4)\n\t"
		96	"cld\n\t"
		97	"jmp 11f\n\t"
		98
		99	/*
		100	* Start to prepare for backward copy.
		101	*/
		102	".p2align 4\n\t"
		103	"2:\n\t"
		104	"cmp $680, %0\n\t"
		105	"jb 5f\n\t"
		106	"mov %1, %3\n\t"
		107	"xor %2, %3\n\t"
		108	"and $0xff, %3\n\t"
		109	"jz 6b\n\t"
		110
		111	/*
		112	* Calculate copy position to tail.
		113	*/
		114	"5:\n\t"
		115	"add %0, %1\n\t"
		116	"add %0, %2\n\t"
		117	"sub $0x10, %0\n\t"
		118
		119	/*
		120	* We gobble 16byts backward in each loop.
		121	*/
		122	"7:\n\t"
		123	"sub $0x10, %0\n\t"
		124
		125	"mov -1*4(%1), %3\n\t"
		126	"mov -2*4(%1), %4\n\t"
		127	"mov %3, -1*4(%2)\n\t"
		128	"mov %4, -2*4(%2)\n\t"
		129	"mov -3*4(%1), %3\n\t"
		130	"mov -4*4(%1), %4\n\t"
		131	"mov %3, -3*4(%2)\n\t"
		132	"mov %4, -4*4(%2)\n\t"
		133	"lea -0x10(%1), %1\n\t"
		134	"lea -0x10(%2), %2\n\t"
		135	"jae 7b\n\t"
		136	/*
		137	* Calculate copy position to head.
		138	*/
		139	"add $0x10, %0\n\t"
		140	"sub %0, %1\n\t"
		141	"sub %0, %2\n\t"
		142
		143	/*
		144	* Move data from 8 bytes to 15 bytes.
		145	*/
		146	".p2align 4\n\t"
		147	"1:\n\t"
		148	"cmp $8, %0\n\t"
		149	"jb 8f\n\t"
		150	"mov 0*4(%1), %3\n\t"
		151	"mov 1*4(%1), %4\n\t"
		152	"mov -2*4(%1, %0), %5\n\t"
		153	"mov -1*4(%1, %0), %1\n\t"
		154
		155	"mov %3, 0*4(%2)\n\t"
		156	"mov %4, 1*4(%2)\n\t"
		157	"mov %5, -2*4(%2, %0)\n\t"
		158	"mov %1, -1*4(%2, %0)\n\t"
		159	"jmp 11f\n\t"
		160
		161	/*
		162	* Move data from 4 bytes to 7 bytes.
		163	*/
		164	".p2align 4\n\t"
		165	"8:\n\t"
		166	"cmp $4, %0\n\t"
		167	"jb 9f\n\t"
		168	"mov 0*4(%1), %3\n\t"
		169	"mov -1*4(%1, %0), %4\n\t"
		170	"mov %3, 0*4(%2)\n\t"
		171	"mov %4, -1*4(%2, %0)\n\t"
		172	"jmp 11f\n\t"
		173
		174	/*
		175	* Move data from 2 bytes to 3 bytes.
		176	*/
		177	".p2align 4\n\t"
		178	"9:\n\t"
		179	"cmp $2, %0\n\t"
		180	"jb 10f\n\t"
		181	"movw 0*2(%1), %%dx\n\t"
		182	"movw -1*2(%1, %0), %%bx\n\t"
		183	"movw %%dx, 0*2(%2)\n\t"
		184	"movw %%bx, -1*2(%2, %0)\n\t"
		185	"jmp 11f\n\t"
		186
		187	/*
		188	* Move data for 1 byte.
		189	*/
		190	".p2align 4\n\t"
		191	"10:\n\t"
		192	"cmp $1, %0\n\t"
		193	"jb 11f\n\t"
		194	"movb (%1), %%cl\n\t"
		195	"movb %%cl, (%2)\n\t"
		196	".p2align 4\n\t"
		197	"11:"
		198	: "=&c" (d0), "=&S" (d1), "=&D" (d2),
		199	"=r" (d3),"=r" (d4), "=r"(d5)
		200	:"0" (n),
		201	"1" (src),
		202	"2" (dest)
		203	:"memory");
		204
		205	return ret;
		206
56	}	207	}
57	EXPORT_SYMBOL(memmove);	208	EXPORT_SYMBOL(memmove);


diff --git a/arch/x86/lib/memmove_64.c b/arch/x86/lib/memmove_64.c index ecacc4b3d9e5..6d0f0ec41b34 100644 --- a/arch/x86/lib/memmove_64.c +++ b/arch/x86/lib/memmove_64.c
@@ -8,50 +8,185 @@
8	#undef memmove	8	#undef memmove
9	void memmove(void dest, const void *src, size_t count)	9	void memmove(void dest, const void *src, size_t count)
10	{	10	{
11	unsigned long d0, d1, d2, d3;	11	unsigned long d0,d1,d2,d3,d4,d5,d6,d7;
12	if (dest < src) {	12	char *ret;
13	if ((dest + count) < src)	13
14	return memcpy(dest, src, count);	14	__asm__ __volatile__(
15	else	15	/* Handle more 32bytes in loop */
16	__asm__ __volatile__(	16	"mov %2, %3\n\t"
17	"movq %0, %3\n\t"	17	"cmp $0x20, %0\n\t"
18	"shr $3, %0\n\t"	18	"jb 1f\n\t"
19	"andq $7, %3\n\t"	19
20	"rep\n\t"	20	/* Decide forward/backward copy mode */
21	"movsq\n\t"	21	"cmp %2, %1\n\t"
22	"movq %3, %0\n\t"	22	"jb 2f\n\t"
23	"rep\n\t"	23
24	"movsb"	24	/*
25	: "=&c" (d0), "=&S" (d1), "=&D" (d2), "=r" (d3)	25	* movsq instruction have many startup latency
26	:"0" (count),	26	* so we handle small size by general register.
27	"1" (src),	27	*/
28	"2" (dest)	28	"cmp $680, %0\n\t"
29	:"memory");	29	"jb 3f\n\t"
30	} else {	30	/*
31	if((src + count) < dest)	31	* movsq instruction is only good for aligned case.
32	return memcpy(dest, src, count);	32	*/
33	else	33	"cmpb %%dil, %%sil\n\t"
34	__asm__ __volatile__(	34	"je 4f\n\t"
35	"movq %0, %3\n\t"	35	"3:\n\t"
36	"lea -8(%1, %0), %1\n\t"	36	"sub $0x20, %0\n\t"
37	"lea -8(%2, %0), %2\n\t"	37	/*
38	"shr $3, %0\n\t"	38	* We gobble 32byts forward in each loop.
39	"andq $7, %3\n\t"	39	*/
40	"std\n\t"	40	"5:\n\t"
41	"rep\n\t"	41	"sub $0x20, %0\n\t"
42	"movsq\n\t"	42	"movq 0*8(%1), %4\n\t"
43	"lea 7(%1), %1\n\t"	43	"movq 1*8(%1), %5\n\t"
44	"lea 7(%2), %2\n\t"	44	"movq 2*8(%1), %6\n\t"
45	"movq %3, %0\n\t"	45	"movq 3*8(%1), %7\n\t"
46	"rep\n\t"	46	"leaq 4*8(%1), %1\n\t"
47	"movsb\n\t"	47
48	"cld"	48	"movq %4, 0*8(%2)\n\t"
49	: "=&c" (d0), "=&S" (d1), "=&D" (d2), "=r" (d3)	49	"movq %5, 1*8(%2)\n\t"
50	:"0" (count),	50	"movq %6, 2*8(%2)\n\t"
51	"1" (src),	51	"movq %7, 3*8(%2)\n\t"
52	"2" (dest)	52	"leaq 4*8(%2), %2\n\t"
53	:"memory");	53	"jae 5b\n\t"
54	}	54	"addq $0x20, %0\n\t"
55	return dest;	55	"jmp 1f\n\t"
		56	/*
		57	* Handle data forward by movsq.
		58	*/
		59	".p2align 4\n\t"
		60	"4:\n\t"
		61	"movq %0, %8\n\t"
		62	"movq -8(%1, %0), %4\n\t"
		63	"lea -8(%2, %0), %5\n\t"
		64	"shrq $3, %8\n\t"
		65	"rep movsq\n\t"
		66	"movq %4, (%5)\n\t"
		67	"jmp 13f\n\t"
		68	/*
		69	* Handle data backward by movsq.
		70	*/
		71	".p2align 4\n\t"
		72	"7:\n\t"
		73	"movq %0, %8\n\t"
		74	"movq (%1), %4\n\t"
		75	"movq %2, %5\n\t"
		76	"leaq -8(%1, %0), %1\n\t"
		77	"leaq -8(%2, %0), %2\n\t"
		78	"shrq $3, %8\n\t"
		79	"std\n\t"
		80	"rep movsq\n\t"
		81	"cld\n\t"
		82	"movq %4, (%5)\n\t"
		83	"jmp 13f\n\t"
		84
		85	/*
		86	* Start to prepare for backward copy.
		87	*/
		88	".p2align 4\n\t"
		89	"2:\n\t"
		90	"cmp $680, %0\n\t"
		91	"jb 6f \n\t"
		92	"cmp %%dil, %%sil\n\t"
		93	"je 7b \n\t"
		94	"6:\n\t"
		95	/*
		96	* Calculate copy position to tail.
		97	*/
		98	"addq %0, %1\n\t"
		99	"addq %0, %2\n\t"
		100	"subq $0x20, %0\n\t"
		101	/*
		102	* We gobble 32byts backward in each loop.
		103	*/
		104	"8:\n\t"
		105	"subq $0x20, %0\n\t"
		106	"movq -1*8(%1), %4\n\t"
		107	"movq -2*8(%1), %5\n\t"
		108	"movq -3*8(%1), %6\n\t"
		109	"movq -4*8(%1), %7\n\t"
		110	"leaq -4*8(%1), %1\n\t"
		111
		112	"movq %4, -1*8(%2)\n\t"
		113	"movq %5, -2*8(%2)\n\t"
		114	"movq %6, -3*8(%2)\n\t"
		115	"movq %7, -4*8(%2)\n\t"
		116	"leaq -4*8(%2), %2\n\t"
		117	"jae 8b\n\t"
		118	/*
		119	* Calculate copy position to head.
		120	*/
		121	"addq $0x20, %0\n\t"
		122	"subq %0, %1\n\t"
		123	"subq %0, %2\n\t"
		124	"1:\n\t"
		125	"cmpq $16, %0\n\t"
		126	"jb 9f\n\t"
		127	/*
		128	* Move data from 16 bytes to 31 bytes.
		129	*/
		130	"movq 0*8(%1), %4\n\t"
		131	"movq 1*8(%1), %5\n\t"
		132	"movq -2*8(%1, %0), %6\n\t"
		133	"movq -1*8(%1, %0), %7\n\t"
		134	"movq %4, 0*8(%2)\n\t"
		135	"movq %5, 1*8(%2)\n\t"
		136	"movq %6, -2*8(%2, %0)\n\t"
		137	"movq %7, -1*8(%2, %0)\n\t"
		138	"jmp 13f\n\t"
		139	".p2align 4\n\t"
		140	"9:\n\t"
		141	"cmpq $8, %0\n\t"
		142	"jb 10f\n\t"
		143	/*
		144	* Move data from 8 bytes to 15 bytes.
		145	*/
		146	"movq 0*8(%1), %4\n\t"
		147	"movq -1*8(%1, %0), %5\n\t"
		148	"movq %4, 0*8(%2)\n\t"
		149	"movq %5, -1*8(%2, %0)\n\t"
		150	"jmp 13f\n\t"
		151	"10:\n\t"
		152	"cmpq $4, %0\n\t"
		153	"jb 11f\n\t"
		154	/*
		155	* Move data from 4 bytes to 7 bytes.
		156	*/
		157	"movl (%1), %4d\n\t"
		158	"movl -4(%1, %0), %5d\n\t"
		159	"movl %4d, (%2)\n\t"
		160	"movl %5d, -4(%2, %0)\n\t"
		161	"jmp 13f\n\t"
		162	"11:\n\t"
		163	"cmp $2, %0\n\t"
		164	"jb 12f\n\t"
		165	/*
		166	* Move data from 2 bytes to 3 bytes.
		167	*/
		168	"movw (%1), %4w\n\t"
		169	"movw -2(%1, %0), %5w\n\t"
		170	"movw %4w, (%2)\n\t"
		171	"movw %5w, -2(%2, %0)\n\t"
		172	"jmp 13f\n\t"
		173	"12:\n\t"
		174	"cmp $1, %0\n\t"
		175	"jb 13f\n\t"
		176	/*
		177	* Move data for 1 byte.
		178	*/
		179	"movb (%1), %4b\n\t"
		180	"movb %4b, (%2)\n\t"
		181	"13:\n\t"
		182	: "=&d" (d0), "=&S" (d1), "=&D" (d2), "=&a" (ret) ,
		183	"=r"(d3), "=r"(d4), "=r"(d5), "=r"(d6), "=&c" (d7)
		184	:"0" (count),
		185	"1" (src),
		186	"2" (dest)
		187	:"memory");
		188
		189	return ret;
		190
56	}	191	}
57	EXPORT_SYMBOL(memmove);	192	EXPORT_SYMBOL(memmove);