16 files changed, 1320 insertions, 646 deletions
diff --git a/kernel/kprobes.c b/kernel/kprobes.c
index 0540948e29ab..ef177d653b2c 100644
--- a/kernel/kprobes.c
+++ b/kernel/kprobes.c
@@ -103,7 +103,7 @@ static struct kprobe_blackpoint kprobe_blacklist[] = {
 #define INSNS_PER_PAGE  (PAGE_SIZE/(MAX_INSN_SIZE * sizeof(kprobe_opcode_t)))
 struct kprobe_insn_page {
-        struct hlist_node hlist;
+        struct list_head list;
        kprobe_opcode_t *insns;         /* Page of instruction slots */
        char slot_used[INSNS_PER_PAGE];
        int nused;
@@ -117,7 +117,7 @@ enum kprobe_slot_state {
 };
 static DEFINE_MUTEX(kprobe_insn_mutex); /* Protects kprobe_insn_pages */
-static struct hlist_head kprobe_insn_pages;
+static LIST_HEAD(kprobe_insn_pages);
 static int kprobe_garbage_slots;
 static int collect_garbage_slots(void);
@@ -152,10 +152,9 @@ loop_end:
 static kprobe_opcode_t __kprobes *__get_insn_slot(void)
 {
        struct kprobe_insn_page *kip;
-        struct hlist_node *pos;
 retry:
-        hlist_for_each_entry(kip, pos, &kprobe_insn_pages, hlist) {
+        list_for_each_entry(kip, &kprobe_insn_pages, list) {
                if (kip->nused < INSNS_PER_PAGE) {
                        int i;
                        for (i = 0; i < INSNS_PER_PAGE; i++) {
@@ -189,8 +188,8 @@ static kprobe_opcode_t __kprobes *__get_insn_slot(void)
                kfree(kip);
                return NULL;
        }
-        INIT_HLIST_NODE(&kip->hlist);
+        INIT_LIST_HEAD(&kip->list);
-        hlist_add_head(&kip->hlist, &kprobe_insn_pages);
+        list_add(&kip->list, &kprobe_insn_pages);
        memset(kip->slot_used, SLOT_CLEAN, INSNS_PER_PAGE);
        kip->slot_used[0] = SLOT_USED;
        kip->nused = 1;
@@ -219,12 +218,8 @@ static int __kprobes collect_one_slot(struct kprobe_insn_page *kip, int idx)
                 * so as not to have to set it up again the
                 * next time somebody inserts a probe.
                 */
-                hlist_del(&kip->hlist);
+                if (!list_is_singular(&kprobe_insn_pages)) {
-                if (hlist_empty(&kprobe_insn_pages)) {
+                        list_del(&kip->list);
-                        INIT_HLIST_NODE(&kip->hlist);
-                        hlist_add_head(&kip->hlist,
-                                       &kprobe_insn_pages);
-                } else {
                        module_free(NULL, kip->insns);
                        kfree(kip);
                }
@@ -235,14 +230,13 @@ static int __kprobes collect_one_slot(struct kprobe_insn_page *kip, int idx)
 static int __kprobes collect_garbage_slots(void)
 {
-        struct kprobe_insn_page *kip;
+        struct kprobe_insn_page *kip, *next;
-        struct hlist_node *pos, *next;
        /* Ensure no-one is preepmted on the garbages */
        if (check_safety())
                return -EAGAIN;
-        hlist_for_each_entry_safe(kip, pos, next, &kprobe_insn_pages, hlist) {
+        list_for_each_entry_safe(kip, next, &kprobe_insn_pages, list) {
                int i;
                if (kip->ngarbage == 0)
                        continue;
@@ -260,19 +254,17 @@ static int __kprobes collect_garbage_slots(void)
 void __kprobes free_insn_slot(kprobe_opcode_t * slot, int dirty)
 {
        struct kprobe_insn_page *kip;
-        struct hlist_node *pos;
        mutex_lock(&kprobe_insn_mutex);
-        hlist_for_each_entry(kip, pos, &kprobe_insn_pages, hlist) {
+        list_for_each_entry(kip, &kprobe_insn_pages, list) {
                if (kip->insns <= slot &&
                    slot < kip->insns + (INSNS_PER_PAGE * MAX_INSN_SIZE)) {
                        int i = (slot - kip->insns) / MAX_INSN_SIZE;
                        if (dirty) {
                                kip->slot_used[i] = SLOT_DIRTY;
                                kip->ngarbage++;
-                        } else {
+                        } else
                                collect_one_slot(kip, i);
-                        }
                        break;
                }
        }
diff --git a/kernel/trace/ftrace.c b/kernel/trace/ftrace.c
index 1e1d23c26308..094863416b2e 100644
--- a/kernel/trace/ftrace.c
+++ b/kernel/trace/ftrace.c
@@ -1016,71 +1016,35 @@ static int
 __ftrace_replace_code(struct dyn_ftrace *rec, int enable)
 {
        unsigned long ftrace_addr;
-        unsigned long ip, fl;
+        unsigned long flag = 0UL;
        ftrace_addr = (unsigned long)FTRACE_ADDR;
-        ip = rec->ip;
        /*
-         * If this record is not to be traced and
+         * If this record is not to be traced or we want to disable it,
-         * it is not enabled then do nothing.
+         * then disable it.
         *
-         * If this record is not to be traced and
+         * If we want to enable it and filtering is off, then enable it.
-         * it is enabled then disable it.
         *
+         * If we want to enable it and filtering is on, enable it only if
+         * it's filtered
         */
-        if (rec->flags & FTRACE_FL_NOTRACE) {
+        if (enable && !(rec->flags & FTRACE_FL_NOTRACE)) {
-                if (rec->flags & FTRACE_FL_ENABLED)
+                if (!ftrace_filtered || (rec->flags & FTRACE_FL_FILTER))
-                        rec->flags &= ~FTRACE_FL_ENABLED;
+                        flag = FTRACE_FL_ENABLED;
-                else
+        }
-                        return 0;
-        } else if (ftrace_filtered && enable) {
-                /*
-                 * Filtering is on:
-                 */
-                fl = rec->flags & (FTRACE_FL_FILTER | FTRACE_FL_ENABLED);
-                /* Record is filtered and enabled, do nothing */
-                if (fl == (FTRACE_FL_FILTER | FTRACE_FL_ENABLED))
-                        return 0;
-                /* Record is not filtered or enabled, do nothing */
-                if (!fl)
-                        return 0;
-                /* Record is not filtered but enabled, disable it */
-                if (fl == FTRACE_FL_ENABLED)
-                        rec->flags &= ~FTRACE_FL_ENABLED;
-                else
-                /* Otherwise record is filtered but not enabled, enable it */
-                        rec->flags |= FTRACE_FL_ENABLED;
-        } else {
-                /* Disable or not filtered */
-                if (enable) {
-                        /* if record is enabled, do nothing */
-                        if (rec->flags & FTRACE_FL_ENABLED)
-                                return 0;
-                        rec->flags |= FTRACE_FL_ENABLED;
-                } else {
-                        /* if record is not enabled, do nothing */
+        /* If the state of this record hasn't changed, then do nothing */
-                        if (!(rec->flags & FTRACE_FL_ENABLED))
+        if ((rec->flags & FTRACE_FL_ENABLED) == flag)
-                                return 0;
+                return 0;
-                        rec->flags &= ~FTRACE_FL_ENABLED;
+        if (flag) {
-                }
+                rec->flags |= FTRACE_FL_ENABLED;
+                return ftrace_make_call(rec, ftrace_addr);
        }
-        if (rec->flags & FTRACE_FL_ENABLED)
+        rec->flags &= ~FTRACE_FL_ENABLED;
-                return ftrace_make_call(rec, ftrace_addr);
+        return ftrace_make_nop(NULL, rec, ftrace_addr);
-        else
-                return ftrace_make_nop(NULL, rec, ftrace_addr);
 }
 static void ftrace_replace_code(int enable)
@@ -1375,7 +1339,6 @@ struct ftrace_iterator {
        unsigned                flags;
        unsigned char           buffer[FTRACE_BUFF_MAX+1];
        unsigned                buffer_idx;
-        unsigned                filtered;
 };
 static void *
@@ -1438,18 +1401,13 @@ static int t_hash_show(struct seq_file *m, void *v)
 {
        struct ftrace_func_probe *rec;
        struct hlist_node *hnd = v;
-        char str[KSYM_SYMBOL_LEN];
        rec = hlist_entry(hnd, struct ftrace_func_probe, node);
        if (rec->ops->print)
                return rec->ops->print(m, rec->ip, rec->ops, rec->data);
-        kallsyms_lookup(rec->ip, NULL, NULL, NULL, str);
+        seq_printf(m, "%pf:%pf", (void *)rec->ip, (void *)rec->ops->func);
-        seq_printf(m, "%s:", str);
-        kallsyms_lookup((unsigned long)rec->ops->func, NULL, NULL, NULL, str);
-        seq_printf(m, "%s", str);
        if (rec->data)
                seq_printf(m, ":%p", rec->data);
@@ -1547,7 +1505,6 @@ static int t_show(struct seq_file *m, void *v)
 {
        struct ftrace_iterator *iter = m->private;
        struct dyn_ftrace *rec = v;
-        char str[KSYM_SYMBOL_LEN];
        if (iter->flags & FTRACE_ITER_HASH)
                return t_hash_show(m, v);
@@ -1560,9 +1517,7 @@ static int t_show(struct seq_file *m, void *v)
        if (!rec)
                return 0;
-        kallsyms_lookup(rec->ip, NULL, NULL, NULL, str);
+        seq_printf(m, "%pf\n", (void *)rec->ip);
-        seq_printf(m, "%s\n", str);
        return 0;
 }
@@ -2312,7 +2267,6 @@ ftrace_regex_write(struct file *file, const char __user *ubuf,
        }
        if (isspace(ch)) {
-                iter->filtered++;
                iter->buffer[iter->buffer_idx] = 0;
                ret = ftrace_process_regex(iter->buffer,
                                           iter->buffer_idx, enable);
@@ -2443,7 +2397,6 @@ ftrace_regex_release(struct inode *inode, struct file *file, int enable)
                iter = file->private_data;
        if (iter->buffer_idx) {
-                iter->filtered++;
                iter->buffer[iter->buffer_idx] = 0;
                ftrace_match_records(iter->buffer, iter->buffer_idx, enable);
        }
@@ -2543,7 +2496,6 @@ static void g_stop(struct seq_file *m, void *p)
 static int g_show(struct seq_file *m, void *v)
 {
        unsigned long *ptr = v;
-        char str[KSYM_SYMBOL_LEN];
        if (!ptr)
                return 0;
@@ -2553,9 +2505,7 @@ static int g_show(struct seq_file *m, void *v)
                return 0;
        }
-        kallsyms_lookup(*ptr, NULL, NULL, NULL, str);
+        seq_printf(m, "%pf\n", v);
-        seq_printf(m, "%s\n", str);
        return 0;
 }
diff --git a/kernel/trace/kmemtrace.c b/kernel/trace/kmemtrace.c
index 1edaa9516e81..dda53ccf749b 100644
--- a/kernel/trace/kmemtrace.c
+++ b/kernel/trace/kmemtrace.c
@@ -239,12 +239,52 @@ struct kmemtrace_user_event_alloc {
 };
 static enum print_line_t
-kmemtrace_print_alloc_user(struct trace_iterator *iter,
+kmemtrace_print_alloc(struct trace_iterator *iter, int flags)
-                           struct kmemtrace_alloc_entry *entry)
 {
-        struct kmemtrace_user_event_alloc *ev_alloc;
        struct trace_seq *s = &iter->seq;
+        struct kmemtrace_alloc_entry *entry;
+        int ret;
+        trace_assign_type(entry, iter->ent);
+        ret = trace_seq_printf(s, "type_id %d call_site %pF ptr %lu "
+            "bytes_req %lu bytes_alloc %lu gfp_flags %lu node %d\n",
+            entry->type_id, (void *)entry->call_site, (unsigned long)entry->ptr,
+            (unsigned long)entry->bytes_req, (unsigned long)entry->bytes_alloc,
+            (unsigned long)entry->gfp_flags, entry->node);
+        if (!ret)
+                return TRACE_TYPE_PARTIAL_LINE;
+        return TRACE_TYPE_HANDLED;
+}
+static enum print_line_t
+kmemtrace_print_free(struct trace_iterator *iter, int flags)
+{
+        struct trace_seq *s = &iter->seq;
+        struct kmemtrace_free_entry *entry;
+        int ret;
+        trace_assign_type(entry, iter->ent);
+        ret = trace_seq_printf(s, "type_id %d call_site %pF ptr %lu\n",
+                               entry->type_id, (void *)entry->call_site,
+                               (unsigned long)entry->ptr);
+        if (!ret)
+                return TRACE_TYPE_PARTIAL_LINE;
+        return TRACE_TYPE_HANDLED;
+}
+static enum print_line_t
+kmemtrace_print_alloc_user(struct trace_iterator *iter, int flags)
+{
+        struct trace_seq *s = &iter->seq;
+        struct kmemtrace_alloc_entry *entry;
        struct kmemtrace_user_event *ev;
+        struct kmemtrace_user_event_alloc *ev_alloc;
+        trace_assign_type(entry, iter->ent);
        ev = trace_seq_reserve(s, sizeof(*ev));
        if (!ev)
@@ -271,12 +311,14 @@ kmemtrace_print_alloc_user(struct trace_iterator *iter,
 }
 static enum print_line_t
-kmemtrace_print_free_user(struct trace_iterator *iter,
+kmemtrace_print_free_user(struct trace_iterator *iter, int flags)
-                          struct kmemtrace_free_entry *entry)
 {
        struct trace_seq *s = &iter->seq;
+        struct kmemtrace_free_entry *entry;
        struct kmemtrace_user_event *ev;
+        trace_assign_type(entry, iter->ent);
        ev = trace_seq_reserve(s, sizeof(*ev));
        if (!ev)
                return TRACE_TYPE_PARTIAL_LINE;
@@ -294,12 +336,14 @@ kmemtrace_print_free_user(struct trace_iterator *iter,
 /* The two other following provide a more minimalistic output */
 static enum print_line_t
-kmemtrace_print_alloc_compress(struct trace_iterator *iter,
+kmemtrace_print_alloc_compress(struct trace_iterator *iter)
-                                        struct kmemtrace_alloc_entry *entry)
 {
+        struct kmemtrace_alloc_entry *entry;
        struct trace_seq *s = &iter->seq;
        int ret;
+        trace_assign_type(entry, iter->ent);
        /* Alloc entry */
        ret = trace_seq_printf(s, "  +      ");
        if (!ret)
@@ -345,29 +389,24 @@ kmemtrace_print_alloc_compress(struct trace_iterator *iter,
        if (!ret)
                return TRACE_TYPE_PARTIAL_LINE;
-        /* Node */
+        /* Node and call site*/
-        ret = trace_seq_printf(s, "%4d   ", entry->node);
+        ret = trace_seq_printf(s, "%4d   %pf\n", entry->node,
-        if (!ret)
+                                                 (void *)entry->call_site);
-                return TRACE_TYPE_PARTIAL_LINE;
-        /* Call site */
-        ret = seq_print_ip_sym(s, entry->call_site, 0);
        if (!ret)
                return TRACE_TYPE_PARTIAL_LINE;
-        if (!trace_seq_printf(s, "\n"))
-                return TRACE_TYPE_PARTIAL_LINE;
        return TRACE_TYPE_HANDLED;
 }
 static enum print_line_t
-kmemtrace_print_free_compress(struct trace_iterator *iter,
+kmemtrace_print_free_compress(struct trace_iterator *iter)
-                              struct kmemtrace_free_entry *entry)
 {
+        struct kmemtrace_free_entry *entry;
        struct trace_seq *s = &iter->seq;
        int ret;
+        trace_assign_type(entry, iter->ent);
        /* Free entry */
        ret = trace_seq_printf(s, "  -      ");
        if (!ret)
@@ -401,19 +440,11 @@ kmemtrace_print_free_compress(struct trace_iterator *iter,
        if (!ret)
                return TRACE_TYPE_PARTIAL_LINE;
-        /* Skip node */
+        /* Skip node and print call site*/
-        ret = trace_seq_printf(s, "       ");
+        ret = trace_seq_printf(s, "       %pf\n", (void *)entry->call_site);
        if (!ret)
                return TRACE_TYPE_PARTIAL_LINE;
-        /* Call site */
-        ret = seq_print_ip_sym(s, entry->call_site, 0);
-        if (!ret)
-                return TRACE_TYPE_PARTIAL_LINE;
-        if (!trace_seq_printf(s, "\n"))
-                return TRACE_TYPE_PARTIAL_LINE;
        return TRACE_TYPE_HANDLED;
 }
@@ -421,32 +452,31 @@ static enum print_line_t kmemtrace_print_line(struct trace_iterator *iter)
 {
        struct trace_entry *entry = iter->ent;
-        switch (entry->type) {
+        if (!(kmem_tracer_flags.val & TRACE_KMEM_OPT_MINIMAL))
-        case TRACE_KMEM_ALLOC: {
+                return TRACE_TYPE_UNHANDLED;
-                struct kmemtrace_alloc_entry *field;
-                trace_assign_type(field, entry);
-                if (kmem_tracer_flags.val & TRACE_KMEM_OPT_MINIMAL)
-                        return kmemtrace_print_alloc_compress(iter, field);
-                else
-                        return kmemtrace_print_alloc_user(iter, field);
-        }
-        case TRACE_KMEM_FREE: {
-                struct kmemtrace_free_entry *field;
-                trace_assign_type(field, entry);
-                if (kmem_tracer_flags.val & TRACE_KMEM_OPT_MINIMAL)
-                        return kmemtrace_print_free_compress(iter, field);
-                else
-                        return kmemtrace_print_free_user(iter, field);
-        }
+        switch (entry->type) {
+        case TRACE_KMEM_ALLOC:
+                return kmemtrace_print_alloc_compress(iter);
+        case TRACE_KMEM_FREE:
+                return kmemtrace_print_free_compress(iter);
        default:
                return TRACE_TYPE_UNHANDLED;
        }
 }
+static struct trace_event kmem_trace_alloc = {
+        .type                   = TRACE_KMEM_ALLOC,
+        .trace                  = kmemtrace_print_alloc,
+        .binary                 = kmemtrace_print_alloc_user,
+};
+static struct trace_event kmem_trace_free = {
+        .type                   = TRACE_KMEM_FREE,
+        .trace                  = kmemtrace_print_free,
+        .binary                 = kmemtrace_print_free_user,
+};
 static struct tracer kmem_tracer __read_mostly = {
        .name                   = "kmemtrace",
        .init                   = kmem_trace_init,
@@ -463,6 +493,21 @@ void kmemtrace_init(void)
 static int __init init_kmem_tracer(void)
 {
-        return register_tracer(&kmem_tracer);
+        if (!register_ftrace_event(&kmem_trace_alloc)) {
+                pr_warning("Warning: could not register kmem events\n");
+                return 1;
+        }
+        if (!register_ftrace_event(&kmem_trace_free)) {
+                pr_warning("Warning: could not register kmem events\n");
+                return 1;
+        }
+        if (!register_tracer(&kmem_tracer)) {
+                pr_warning("Warning: could not register the kmem tracer\n");
+                return 1;
+        }
+        return 0;
 }
 device_initcall(init_kmem_tracer);
diff --git a/kernel/trace/ring_buffer.c b/kernel/trace/ring_buffer.c
index a330513d96ce..da2c59d8f486 100644
--- a/kernel/trace/ring_buffer.c
+++ b/kernel/trace/ring_buffer.c
@@ -322,6 +322,14 @@ struct buffer_data_page {
        unsigned char    data[];        /* data of buffer page */
 };
+/*
+ * Note, the buffer_page list must be first. The buffer pages
+ * are allocated in cache lines, which means that each buffer
+ * page will be at the beginning of a cache line, and thus
+ * the least significant bits will be zero. We use this to
+ * add flags in the list struct pointers, to make the ring buffer
+ * lockless.
+ */
 struct buffer_page {
        struct list_head list;          /* list of buffer pages */
        local_t          write;         /* index for next write */
@@ -330,6 +338,21 @@ struct buffer_page {
        struct buffer_data_page *page;  /* Actual data page */
 };
+/*
+ * The buffer page counters, write and entries, must be reset
+ * atomically when crossing page boundaries. To synchronize this
+ * update, two counters are inserted into the number. One is
+ * the actual counter for the write position or count on the page.
+ *
+ * The other is a counter of updaters. Before an update happens
+ * the update partition of the counter is incremented. This will
+ * allow the updater to update the counter atomically.
+ *
+ * The counter is 20 bits, and the state data is 12.
+ */
+#define RB_WRITE_MASK           0xfffff
+#define RB_WRITE_INTCNT         (1 << 20)
 static void rb_init_page(struct buffer_data_page *bpage)
 {
        local_set(&bpage->commit, 0);
@@ -403,21 +426,20 @@ int ring_buffer_print_page_header(struct trace_seq *s)
 struct ring_buffer_per_cpu {
        int                             cpu;
        struct ring_buffer              *buffer;
-        spinlock_t                      reader_lock; /* serialize readers */
+        spinlock_t                      reader_lock;    /* serialize readers */
        raw_spinlock_t                  lock;
        struct lock_class_key           lock_key;
-        struct list_head                pages;
+        struct list_head                *pages;
        struct buffer_page              *head_page;     /* read from head */
        struct buffer_page              *tail_page;     /* write to tail */
        struct buffer_page              *commit_page;   /* committed pages */
        struct buffer_page              *reader_page;
-        unsigned long                   nmi_dropped;
+        local_t                         commit_overrun;
-        unsigned long                   commit_overrun;
+        local_t                         overrun;
-        unsigned long                   overrun;
-        unsigned long                   read;
        local_t                         entries;
        local_t                         committing;
        local_t                         commits;
+        unsigned long                   read;
        u64                             write_stamp;
        u64                             read_stamp;
        atomic_t                        record_disabled;
@@ -489,6 +511,390 @@ void ring_buffer_normalize_time_stamp(struct ring_buffer *buffer,
 }
 EXPORT_SYMBOL_GPL(ring_buffer_normalize_time_stamp);
+/*
+ * Making the ring buffer lockless makes things tricky.
+ * Although writes only happen on the CPU that they are on,
+ * and they only need to worry about interrupts. Reads can
+ * happen on any CPU.
+ *
+ * The reader page is always off the ring buffer, but when the
+ * reader finishes with a page, it needs to swap its page with
+ * a new one from the buffer. The reader needs to take from
+ * the head (writes go to the tail). But if a writer is in overwrite
+ * mode and wraps, it must push the head page forward.
+ *
+ * Here lies the problem.
+ *
+ * The reader must be careful to replace only the head page, and
+ * not another one. As described at the top of the file in the
+ * ASCII art, the reader sets its old page to point to the next
+ * page after head. It then sets the page after head to point to
+ * the old reader page. But if the writer moves the head page
+ * during this operation, the reader could end up with the tail.
+ *
+ * We use cmpxchg to help prevent this race. We also do something
+ * special with the page before head. We set the LSB to 1.
+ *
+ * When the writer must push the page forward, it will clear the
+ * bit that points to the head page, move the head, and then set
+ * the bit that points to the new head page.
+ *
+ * We also don't want an interrupt coming in and moving the head
+ * page on another writer. Thus we use the second LSB to catch
+ * that too. Thus:
+ *
+ * head->list->prev->next        bit 1          bit 0
+ *                              -------        -------
+ * Normal page                     0              0
+ * Points to head page             0              1
+ * New head page                   1              0
+ *
+ * Note we can not trust the prev pointer of the head page, because:
+ *
+ * +----+       +-----+        +-----+
+ * |    |------>|  T  |---X--->|  N  |
+ * |    |<------|     |        |     |
+ * +----+       +-----+        +-----+
+ *   ^                           ^ |
+ *   |          +-----+          | |
+ *   +----------|  R  |----------+ |
+ *              |     |<-----------+
+ *              +-----+
+ *
+ * Key:  ---X-->  HEAD flag set in pointer
+ *         T      Tail page
+ *         R      Reader page
+ *         N      Next page
+ *
+ * (see __rb_reserve_next() to see where this happens)
+ *
+ *  What the above shows is that the reader just swapped out
+ *  the reader page with a page in the buffer, but before it
+ *  could make the new header point back to the new page added
+ *  it was preempted by a writer. The writer moved forward onto
+ *  the new page added by the reader and is about to move forward
+ *  again.
+ *
+ *  You can see, it is legitimate for the previous pointer of
+ *  the head (or any page) not to point back to itself. But only
+ *  temporarially.
+ */
+#define RB_PAGE_NORMAL          0UL
+#define RB_PAGE_HEAD            1UL
+#define RB_PAGE_UPDATE          2UL
+#define RB_FLAG_MASK            3UL
+/* PAGE_MOVED is not part of the mask */
+#define RB_PAGE_MOVED           4UL
+/*
+ * rb_list_head - remove any bit
+ */
+static struct list_head *rb_list_head(struct list_head *list)
+{
+        unsigned long val = (unsigned long)list;
+        return (struct list_head *)(val & ~RB_FLAG_MASK);
+}
+/*
+ * rb_is_head_page - test if the give page is the head page
+ *
+ * Because the reader may move the head_page pointer, we can
+ * not trust what the head page is (it may be pointing to
+ * the reader page). But if the next page is a header page,
+ * its flags will be non zero.
+ */
+static int inline
+rb_is_head_page(struct ring_buffer_per_cpu *cpu_buffer,
+                struct buffer_page *page, struct list_head *list)
+{
+        unsigned long val;
+        val = (unsigned long)list->next;
+        if ((val & ~RB_FLAG_MASK) != (unsigned long)&page->list)
+                return RB_PAGE_MOVED;
+        return val & RB_FLAG_MASK;
+}
+/*
+ * rb_is_reader_page
+ *
+ * The unique thing about the reader page, is that, if the
+ * writer is ever on it, the previous pointer never points
+ * back to the reader page.
+ */
+static int rb_is_reader_page(struct buffer_page *page)
+{
+        struct list_head *list = page->list.prev;
+        return rb_list_head(list->next) != &page->list;
+}
+/*
+ * rb_set_list_to_head - set a list_head to be pointing to head.
+ */
+static void rb_set_list_to_head(struct ring_buffer_per_cpu *cpu_buffer,
+                                struct list_head *list)
+{
+        unsigned long *ptr;
+        ptr = (unsigned long *)&list->next;
+        *ptr |= RB_PAGE_HEAD;
+        *ptr &= ~RB_PAGE_UPDATE;
+}
+/*
+ * rb_head_page_activate - sets up head page
+ */
+static void rb_head_page_activate(struct ring_buffer_per_cpu *cpu_buffer)
+{
+        struct buffer_page *head;
+        head = cpu_buffer->head_page;
+        if (!head)
+                return;
+        /*
+         * Set the previous list pointer to have the HEAD flag.
+         */
+        rb_set_list_to_head(cpu_buffer, head->list.prev);
+}
+static void rb_list_head_clear(struct list_head *list)
+{
+        unsigned long *ptr = (unsigned long *)&list->next;
+        *ptr &= ~RB_FLAG_MASK;
+}
+/*
+ * rb_head_page_dactivate - clears head page ptr (for free list)
+ */
+static void
+rb_head_page_deactivate(struct ring_buffer_per_cpu *cpu_buffer)
+{
+        struct list_head *hd;
+        /* Go through the whole list and clear any pointers found. */
+        rb_list_head_clear(cpu_buffer->pages);
+        list_for_each(hd, cpu_buffer->pages)
+                rb_list_head_clear(hd);
+}
+static int rb_head_page_set(struct ring_buffer_per_cpu *cpu_buffer,
+                            struct buffer_page *head,
+                            struct buffer_page *prev,
+                            int old_flag, int new_flag)
+{
+        struct list_head *list;
+        unsigned long val = (unsigned long)&head->list;
+        unsigned long ret;
+        list = &prev->list;
+        val &= ~RB_FLAG_MASK;
+        ret = (unsigned long)cmpxchg(&list->next,
+                                     val | old_flag, val | new_flag);
+        /* check if the reader took the page */
+        if ((ret & ~RB_FLAG_MASK) != val)
+                return RB_PAGE_MOVED;
+        return ret & RB_FLAG_MASK;
+}
+static int rb_head_page_set_update(struct ring_buffer_per_cpu *cpu_buffer,
+                                   struct buffer_page *head,
+                                   struct buffer_page *prev,
+                                   int old_flag)
+{
+        return rb_head_page_set(cpu_buffer, head, prev,
+                                old_flag, RB_PAGE_UPDATE);
+}
+static int rb_head_page_set_head(struct ring_buffer_per_cpu *cpu_buffer,
+                                 struct buffer_page *head,
+                                 struct buffer_page *prev,
+                                 int old_flag)
+{
+        return rb_head_page_set(cpu_buffer, head, prev,
+                                old_flag, RB_PAGE_HEAD);
+}
+static int rb_head_page_set_normal(struct ring_buffer_per_cpu *cpu_buffer,
+                                   struct buffer_page *head,
+                                   struct buffer_page *prev,
+                                   int old_flag)
+{
+        return rb_head_page_set(cpu_buffer, head, prev,
+                                old_flag, RB_PAGE_NORMAL);
+}
+static inline void rb_inc_page(struct ring_buffer_per_cpu *cpu_buffer,
+                               struct buffer_page **bpage)
+{
+        struct list_head *p = rb_list_head((*bpage)->list.next);
+        *bpage = list_entry(p, struct buffer_page, list);
+}
+static struct buffer_page *
+rb_set_head_page(struct ring_buffer_per_cpu *cpu_buffer)
+{
+        struct buffer_page *head;
+        struct buffer_page *page;
+        struct list_head *list;
+        int i;
+        if (RB_WARN_ON(cpu_buffer, !cpu_buffer->head_page))
+                return NULL;
+        /* sanity check */
+        list = cpu_buffer->pages;
+        if (RB_WARN_ON(cpu_buffer, rb_list_head(list->prev->next) != list))
+                return NULL;
+        page = head = cpu_buffer->head_page;
+        /*
+         * It is possible that the writer moves the header behind
+         * where we started, and we miss in one loop.
+         * A second loop should grab the header, but we'll do
+         * three loops just because I'm paranoid.
+         */
+        for (i = 0; i < 3; i++) {
+                do {
+                        if (rb_is_head_page(cpu_buffer, page, page->list.prev)) {
+                                cpu_buffer->head_page = page;
+                                return page;
+                        }
+                        rb_inc_page(cpu_buffer, &page);
+                } while (page != head);
+        }
+        RB_WARN_ON(cpu_buffer, 1);
+        return NULL;
+}
+static int rb_head_page_replace(struct buffer_page *old,
+                                struct buffer_page *new)
+{
+        unsigned long *ptr = (unsigned long *)&old->list.prev->next;
+        unsigned long val;
+        unsigned long ret;
+        val = *ptr & ~RB_FLAG_MASK;
+        val |= RB_PAGE_HEAD;
+        ret = cmpxchg(ptr, val, &new->list);
+        return ret == val;
+}
+/*
+ * rb_tail_page_update - move the tail page forward
+ *
+ * Returns 1 if moved tail page, 0 if someone else did.
+ */
+static int rb_tail_page_update(struct ring_buffer_per_cpu *cpu_buffer,
+                               struct buffer_page *tail_page,
+                               struct buffer_page *next_page)
+{
+        struct buffer_page *old_tail;
+        unsigned long old_entries;
+        unsigned long old_write;
+        int ret = 0;
+        /*
+         * The tail page now needs to be moved forward.
+         *
+         * We need to reset the tail page, but without messing
+         * with possible erasing of data brought in by interrupts
+         * that have moved the tail page and are currently on it.
+         *
+         * We add a counter to the write field to denote this.
+         */
+        old_write = local_add_return(RB_WRITE_INTCNT, &next_page->write);
+        old_entries = local_add_return(RB_WRITE_INTCNT, &next_page->entries);
+        /*
+         * Just make sure we have seen our old_write and synchronize
+         * with any interrupts that come in.
+         */
+        barrier();
+        /*
+         * If the tail page is still the same as what we think
+         * it is, then it is up to us to update the tail
+         * pointer.
+         */
+        if (tail_page == cpu_buffer->tail_page) {
+                /* Zero the write counter */
+                unsigned long val = old_write & ~RB_WRITE_MASK;
+                unsigned long eval = old_entries & ~RB_WRITE_MASK;
+                /*
+                 * This will only succeed if an interrupt did
+                 * not come in and change it. In which case, we
+                 * do not want to modify it.
+                 *
+                 * We add (void) to let the compiler know that we do not care
+                 * about the return value of these functions. We use the
+                 * cmpxchg to only update if an interrupt did not already
+                 * do it for us. If the cmpxchg fails, we don't care.
+                 */
+                (void)local_cmpxchg(&next_page->write, old_write, val);
+                (void)local_cmpxchg(&next_page->entries, old_entries, eval);
+                /*
+                 * No need to worry about races with clearing out the commit.
+                 * it only can increment when a commit takes place. But that
+                 * only happens in the outer most nested commit.
+                 */
+                local_set(&next_page->page->commit, 0);
+                old_tail = cmpxchg(&cpu_buffer->tail_page,
+                                   tail_page, next_page);
+                if (old_tail == tail_page)
+                        ret = 1;
+        }
+        return ret;
+}
+static int rb_check_bpage(struct ring_buffer_per_cpu *cpu_buffer,
+                          struct buffer_page *bpage)
+{
+        unsigned long val = (unsigned long)bpage;
+        if (RB_WARN_ON(cpu_buffer, val & RB_FLAG_MASK))
+                return 1;
+        return 0;
+}
+/**
+ * rb_check_list - make sure a pointer to a list has the last bits zero
+ */
+static int rb_check_list(struct ring_buffer_per_cpu *cpu_buffer,
+                         struct list_head *list)
+{
+        if (RB_WARN_ON(cpu_buffer, rb_list_head(list->prev) != list->prev))
+                return 1;
+        if (RB_WARN_ON(cpu_buffer, rb_list_head(list->next) != list->next))
+                return 1;
+        return 0;
+}
 /**
 * check_pages - integrity check of buffer pages
 * @cpu_buffer: CPU buffer with pages to test
@@ -498,14 +904,19 @@ EXPORT_SYMBOL_GPL(ring_buffer_normalize_time_stamp);
 */
 static int rb_check_pages(struct ring_buffer_per_cpu *cpu_buffer)
 {
-        struct list_head *head = &cpu_buffer->pages;
+        struct list_head *head = cpu_buffer->pages;
        struct buffer_page *bpage, *tmp;
+        rb_head_page_deactivate(cpu_buffer);
        if (RB_WARN_ON(cpu_buffer, head->next->prev != head))
                return -1;
        if (RB_WARN_ON(cpu_buffer, head->prev->next != head))
                return -1;
+        if (rb_check_list(cpu_buffer, head))
+                return -1;
        list_for_each_entry_safe(bpage, tmp, head, list) {
                if (RB_WARN_ON(cpu_buffer,
                               bpage->list.next->prev != &bpage->list))
@@ -513,25 +924,33 @@ static int rb_check_pages(struct ring_buffer_per_cpu *cpu_buffer)
                if (RB_WARN_ON(cpu_buffer,
                               bpage->list.prev->next != &bpage->list))
                        return -1;
+                if (rb_check_list(cpu_buffer, &bpage->list))
+                        return -1;
        }
+        rb_head_page_activate(cpu_buffer);
        return 0;
 }
 static int rb_allocate_pages(struct ring_buffer_per_cpu *cpu_buffer,
                             unsigned nr_pages)
 {
-        struct list_head *head = &cpu_buffer->pages;
        struct buffer_page *bpage, *tmp;
        unsigned long addr;
        LIST_HEAD(pages);
        unsigned i;
+        WARN_ON(!nr_pages);
        for (i = 0; i < nr_pages; i++) {
                bpage = kzalloc_node(ALIGN(sizeof(*bpage), cache_line_size()),
                                    GFP_KERNEL, cpu_to_node(cpu_buffer->cpu));
                if (!bpage)
                        goto free_pages;
+                rb_check_bpage(cpu_buffer, bpage);
                list_add(&bpage->list, &pages);
                addr = __get_free_page(GFP_KERNEL);
@@ -541,7 +960,13 @@ static int rb_allocate_pages(struct ring_buffer_per_cpu *cpu_buffer,
                rb_init_page(bpage->page);
        }
-        list_splice(&pages, head);
+        /*
+         * The ring buffer page list is a circular list that does not
+         * start and end with a list head. All page list items point to
+         * other pages.
+         */
+        cpu_buffer->pages = pages.next;
+        list_del(&pages);
        rb_check_pages(cpu_buffer);
@@ -573,13 +998,14 @@ rb_allocate_cpu_buffer(struct ring_buffer *buffer, int cpu)
        spin_lock_init(&cpu_buffer->reader_lock);
        lockdep_set_class(&cpu_buffer->reader_lock, buffer->reader_lock_key);
        cpu_buffer->lock = (raw_spinlock_t)__RAW_SPIN_LOCK_UNLOCKED;
-        INIT_LIST_HEAD(&cpu_buffer->pages);
        bpage = kzalloc_node(ALIGN(sizeof(*bpage), cache_line_size()),
                            GFP_KERNEL, cpu_to_node(cpu));
        if (!bpage)
                goto fail_free_buffer;
+        rb_check_bpage(cpu_buffer, bpage);
        cpu_buffer->reader_page = bpage;
        addr = __get_free_page(GFP_KERNEL);
        if (!addr)
@@ -594,9 +1020,11 @@ rb_allocate_cpu_buffer(struct ring_buffer *buffer, int cpu)
                goto fail_free_reader;
        cpu_buffer->head_page
-                = list_entry(cpu_buffer->pages.next, struct buffer_page, list);
+                = list_entry(cpu_buffer->pages, struct buffer_page, list);
        cpu_buffer->tail_page = cpu_buffer->commit_page = cpu_buffer->head_page;
+        rb_head_page_activate(cpu_buffer);
        return cpu_buffer;
 fail_free_reader:
@@ -609,15 +1037,22 @@ rb_allocate_cpu_buffer(struct ring_buffer *buffer, int cpu)
 static void rb_free_cpu_buffer(struct ring_buffer_per_cpu *cpu_buffer)
 {
-        struct list_head *head = &cpu_buffer->pages;
+        struct list_head *head = cpu_buffer->pages;
        struct buffer_page *bpage, *tmp;
        free_buffer_page(cpu_buffer->reader_page);
-        list_for_each_entry_safe(bpage, tmp, head, list) {
+        rb_head_page_deactivate(cpu_buffer);
-                list_del_init(&bpage->list);
+        if (head) {
+                list_for_each_entry_safe(bpage, tmp, head, list) {
+                        list_del_init(&bpage->list);
+                        free_buffer_page(bpage);
+                }
+                bpage = list_entry(head, struct buffer_page, list);
                free_buffer_page(bpage);
        }
        kfree(cpu_buffer);
 }
@@ -760,15 +1195,17 @@ rb_remove_pages(struct ring_buffer_per_cpu *cpu_buffer, unsigned nr_pages)
        atomic_inc(&cpu_buffer->record_disabled);
        synchronize_sched();
+        rb_head_page_deactivate(cpu_buffer);
        for (i = 0; i < nr_pages; i++) {
-                if (RB_WARN_ON(cpu_buffer, list_empty(&cpu_buffer->pages)))
+                if (RB_WARN_ON(cpu_buffer, list_empty(cpu_buffer->pages)))
                        return;
-                p = cpu_buffer->pages.next;
+                p = cpu_buffer->pages->next;
                bpage = list_entry(p, struct buffer_page, list);
                list_del_init(&bpage->list);
                free_buffer_page(bpage);
        }
-        if (RB_WARN_ON(cpu_buffer, list_empty(&cpu_buffer->pages)))
+        if (RB_WARN_ON(cpu_buffer, list_empty(cpu_buffer->pages)))
                return;
        rb_reset_cpu(cpu_buffer);
@@ -790,15 +1227,19 @@ rb_insert_pages(struct ring_buffer_per_cpu *cpu_buffer,
        atomic_inc(&cpu_buffer->record_disabled);
        synchronize_sched();
+        spin_lock_irq(&cpu_buffer->reader_lock);
+        rb_head_page_deactivate(cpu_buffer);
        for (i = 0; i < nr_pages; i++) {
                if (RB_WARN_ON(cpu_buffer, list_empty(pages)))
                        return;
                p = pages->next;
                bpage = list_entry(p, struct buffer_page, list);
                list_del_init(&bpage->list);
-                list_add_tail(&bpage->list, &cpu_buffer->pages);
+                list_add_tail(&bpage->list, cpu_buffer->pages);
        }
        rb_reset_cpu(cpu_buffer);
+        spin_unlock_irq(&cpu_buffer->reader_lock);
        rb_check_pages(cpu_buffer);
@@ -949,21 +1390,14 @@ rb_reader_event(struct ring_buffer_per_cpu *cpu_buffer)
 }
 static inline struct ring_buffer_event *
-rb_head_event(struct ring_buffer_per_cpu *cpu_buffer)
-{
-        return __rb_page_index(cpu_buffer->head_page,
-                               cpu_buffer->head_page->read);
-}
-static inline struct ring_buffer_event *
 rb_iter_head_event(struct ring_buffer_iter *iter)
 {
        return __rb_page_index(iter->head_page, iter->head);
 }
-static inline unsigned rb_page_write(struct buffer_page *bpage)
+static inline unsigned long rb_page_write(struct buffer_page *bpage)
 {
-        return local_read(&bpage->write);
+        return local_read(&bpage->write) & RB_WRITE_MASK;
 }
 static inline unsigned rb_page_commit(struct buffer_page *bpage)
@@ -971,6 +1405,11 @@ static inline unsigned rb_page_commit(struct buffer_page *bpage)
        return local_read(&bpage->page->commit);
 }
+static inline unsigned long rb_page_entries(struct buffer_page *bpage)
+{
+        return local_read(&bpage->entries) & RB_WRITE_MASK;
+}
 /* Size is determined by what has been commited */
 static inline unsigned rb_page_size(struct buffer_page *bpage)
 {
@@ -983,22 +1422,6 @@ rb_commit_index(struct ring_buffer_per_cpu *cpu_buffer)
        return rb_page_commit(cpu_buffer->commit_page);
 }
-static inline unsigned rb_head_size(struct ring_buffer_per_cpu *cpu_buffer)
-{
-        return rb_page_commit(cpu_buffer->head_page);
-}
-static inline void rb_inc_page(struct ring_buffer_per_cpu *cpu_buffer,
-                               struct buffer_page **bpage)
-{
-        struct list_head *p = (*bpage)->list.next;
-        if (p == &cpu_buffer->pages)
-                p = p->next;
-        *bpage = list_entry(p, struct buffer_page, list);
-}
 static inline unsigned
 rb_event_index(struct ring_buffer_event *event)
 {
@@ -1024,6 +1447,8 @@ rb_event_is_commit(struct ring_buffer_per_cpu *cpu_buffer,
 static void
 rb_set_commit_to_write(struct ring_buffer_per_cpu *cpu_buffer)
 {
+        unsigned long max_count;
        /*
         * We only race with interrupts and NMIs on this CPU.
         * If we own the commit event, then we can commit
@@ -1033,9 +1458,16 @@ rb_set_commit_to_write(struct ring_buffer_per_cpu *cpu_buffer)
         * assign the commit to the tail.
         */
 again:
+        max_count = cpu_buffer->buffer->pages * 100;
        while (cpu_buffer->commit_page != cpu_buffer->tail_page) {
-                cpu_buffer->commit_page->page->commit =
+                if (RB_WARN_ON(cpu_buffer, !(--max_count)))
-                        cpu_buffer->commit_page->write;
+                        return;
+                if (RB_WARN_ON(cpu_buffer,
+                               rb_is_reader_page(cpu_buffer->tail_page)))
+                        return;
+                local_set(&cpu_buffer->commit_page->page->commit,
+                          rb_page_write(cpu_buffer->commit_page));
                rb_inc_page(cpu_buffer, &cpu_buffer->commit_page);
                cpu_buffer->write_stamp =
                        cpu_buffer->commit_page->page->time_stamp;
@@ -1044,8 +1476,12 @@ rb_set_commit_to_write(struct ring_buffer_per_cpu *cpu_buffer)
        }
        while (rb_commit_index(cpu_buffer) !=
               rb_page_write(cpu_buffer->commit_page)) {
-                cpu_buffer->commit_page->page->commit =
-                        cpu_buffer->commit_page->write;
+                local_set(&cpu_buffer->commit_page->page->commit,
+                          rb_page_write(cpu_buffer->commit_page));
+                RB_WARN_ON(cpu_buffer,
+                           local_read(&cpu_buffer->commit_page->page->commit) &
+                           ~RB_WRITE_MASK);
                barrier();
        }
@@ -1078,7 +1514,7 @@ static void rb_inc_iter(struct ring_buffer_iter *iter)
         * to the head page instead of next.
         */
        if (iter->head_page == cpu_buffer->reader_page)
-                iter->head_page = cpu_buffer->head_page;
+                iter->head_page = rb_set_head_page(cpu_buffer);
        else
                rb_inc_page(cpu_buffer, &iter->head_page);
@@ -1122,6 +1558,163 @@ rb_update_event(struct ring_buffer_event *event,
        }
 }
+/*
+ * rb_handle_head_page - writer hit the head page
+ *
+ * Returns: +1 to retry page
+ *           0 to continue
+ *          -1 on error
+ */
+static int
+rb_handle_head_page(struct ring_buffer_per_cpu *cpu_buffer,
+                    struct buffer_page *tail_page,
+                    struct buffer_page *next_page)
+{
+        struct buffer_page *new_head;
+        int entries;
+        int type;
+        int ret;
+        entries = rb_page_entries(next_page);
+        /*
+         * The hard part is here. We need to move the head
+         * forward, and protect against both readers on
+         * other CPUs and writers coming in via interrupts.
+         */
+        type = rb_head_page_set_update(cpu_buffer, next_page, tail_page,
+                                       RB_PAGE_HEAD);
+        /*
+         * type can be one of four:
+         *  NORMAL - an interrupt already moved it for us
+         *  HEAD   - we are the first to get here.
+         *  UPDATE - we are the interrupt interrupting
+         *           a current move.
+         *  MOVED  - a reader on another CPU moved the next
+         *           pointer to its reader page. Give up
+         *           and try again.
+         */
+        switch (type) {
+        case RB_PAGE_HEAD:
+                /*
+                 * We changed the head to UPDATE, thus
+                 * it is our responsibility to update
+                 * the counters.
+                 */
+                local_add(entries, &cpu_buffer->overrun);
+                /*
+                 * The entries will be zeroed out when we move the
+                 * tail page.
+                 */
+                /* still more to do */
+                break;
+        case RB_PAGE_UPDATE:
+                /*
+                 * This is an interrupt that interrupt the
+                 * previous update. Still more to do.
+                 */
+                break;
+        case RB_PAGE_NORMAL:
+                /*
+                 * An interrupt came in before the update
+                 * and processed this for us.
+                 * Nothing left to do.
+                 */
+                return 1;
+        case RB_PAGE_MOVED:
+                /*
+                 * The reader is on another CPU and just did
+                 * a swap with our next_page.
+                 * Try again.
+                 */
+                return 1;
+        default:
+                RB_WARN_ON(cpu_buffer, 1); /* WTF??? */
+                return -1;
+        }
+        /*
+         * Now that we are here, the old head pointer is
+         * set to UPDATE. This will keep the reader from
+         * swapping the head page with the reader page.
+         * The reader (on another CPU) will spin till
+         * we are finished.
+         *
+         * We just need to protect against interrupts
+         * doing the job. We will set the next pointer
+         * to HEAD. After that, we set the old pointer
+         * to NORMAL, but only if it was HEAD before.
+         * otherwise we are an interrupt, and only
+         * want the outer most commit to reset it.
+         */
+        new_head = next_page;
+        rb_inc_page(cpu_buffer, &new_head);
+        ret = rb_head_page_set_head(cpu_buffer, new_head, next_page,
+                                    RB_PAGE_NORMAL);
+        /*
+         * Valid returns are:
+         *  HEAD   - an interrupt came in and already set it.
+         *  NORMAL - One of two things:
+         *            1) We really set it.
+         *            2) A bunch of interrupts came in and moved
+         *               the page forward again.
+         */
+        switch (ret) {
+        case RB_PAGE_HEAD:
+        case RB_PAGE_NORMAL:
+                /* OK */
+                break;
+        default:
+                RB_WARN_ON(cpu_buffer, 1);
+                return -1;
+        }
+        /*
+         * It is possible that an interrupt came in,
+         * set the head up, then more interrupts came in
+         * and moved it again. When we get back here,
+         * the page would have been set to NORMAL but we
+         * just set it back to HEAD.
+         *
+         * How do you detect this? Well, if that happened
+         * the tail page would have moved.
+         */
+        if (ret == RB_PAGE_NORMAL) {
+                /*
+                 * If the tail had moved passed next, then we need
+                 * to reset the pointer.
+                 */
+                if (cpu_buffer->tail_page != tail_page &&
+                    cpu_buffer->tail_page != next_page)
+                        rb_head_page_set_normal(cpu_buffer, new_head,
+                                                next_page,
+                                                RB_PAGE_HEAD);
+        }
+        /*
+         * If this was the outer most commit (the one that
+         * changed the original pointer from HEAD to UPDATE),
+         * then it is up to us to reset it to NORMAL.
+         */
+        if (type == RB_PAGE_HEAD) {
+                ret = rb_head_page_set_normal(cpu_buffer, next_page,
+                                              tail_page,
+                                              RB_PAGE_UPDATE);
+                if (RB_WARN_ON(cpu_buffer,
+                               ret != RB_PAGE_UPDATE))
+                        return -1;
+        }
+        return 0;
+}
 static unsigned rb_calculate_event_length(unsigned length)
 {
        struct ring_buffer_event event; /* Used only for sizeof array */
@@ -1200,96 +1793,93 @@ rb_move_tail(struct ring_buffer_per_cpu *cpu_buffer,
             struct buffer_page *commit_page,
             struct buffer_page *tail_page, u64 *ts)
 {
-        struct buffer_page *next_page, *head_page, *reader_page;
        struct ring_buffer *buffer = cpu_buffer->buffer;
-        bool lock_taken = false;
+        struct buffer_page *next_page;
-        unsigned long flags;
+        int ret;
        next_page = tail_page;
-        local_irq_save(flags);
-        /*
-         * Since the write to the buffer is still not
-         * fully lockless, we must be careful with NMIs.
-         * The locks in the writers are taken when a write
-         * crosses to a new page. The locks protect against
-         * races with the readers (this will soon be fixed
-         * with a lockless solution).
-         *
-         * Because we can not protect against NMIs, and we
-         * want to keep traces reentrant, we need to manage
-         * what happens when we are in an NMI.
-         *
-         * NMIs can happen after we take the lock.
-         * If we are in an NMI, only take the lock
-         * if it is not already taken. Otherwise
-         * simply fail.
-         */
-        if (unlikely(in_nmi())) {
-                if (!__raw_spin_trylock(&cpu_buffer->lock)) {
-                        cpu_buffer->nmi_dropped++;
-                        goto out_reset;
-                }
-        } else
-                __raw_spin_lock(&cpu_buffer->lock);
-        lock_taken = true;
        rb_inc_page(cpu_buffer, &next_page);
-        head_page = cpu_buffer->head_page;
-        reader_page = cpu_buffer->reader_page;
-        /* we grabbed the lock before incrementing */
-        if (RB_WARN_ON(cpu_buffer, next_page == reader_page))
-                goto out_reset;
        /*
         * If for some reason, we had an interrupt storm that made
         * it all the way around the buffer, bail, and warn
         * about it.
         */
        if (unlikely(next_page == commit_page)) {
-                cpu_buffer->commit_overrun++;
+                local_inc(&cpu_buffer->commit_overrun);
                goto out_reset;
        }
-        if (next_page == head_page) {
+        /*
-                if (!(buffer->flags & RB_FL_OVERWRITE))
+         * This is where the fun begins!
-                        goto out_reset;
+         *
+         * We are fighting against races between a reader that
-                /* tail_page has not moved yet? */
+         * could be on another CPU trying to swap its reader
-                if (tail_page == cpu_buffer->tail_page) {
+         * page with the buffer head.
-                        /* count overflows */
+         *
-                        cpu_buffer->overrun +=
+         * We are also fighting against interrupts coming in and
-                                local_read(&head_page->entries);
+         * moving the head or tail on us as well.
+         *
+         * If the next page is the head page then we have filled
+         * the buffer, unless the commit page is still on the
+         * reader page.
+         */
+        if (rb_is_head_page(cpu_buffer, next_page, &tail_page->list)) {
-                        rb_inc_page(cpu_buffer, &head_page);
+                /*
-                        cpu_buffer->head_page = head_page;
+                 * If the commit is not on the reader page, then
-                        cpu_buffer->head_page->read = 0;
+                 * move the header page.
+                 */
+                if (!rb_is_reader_page(cpu_buffer->commit_page)) {
+                        /*
+                         * If we are not in overwrite mode,
+                         * this is easy, just stop here.
+                         */
+                        if (!(buffer->flags & RB_FL_OVERWRITE))
+                                goto out_reset;
+                        ret = rb_handle_head_page(cpu_buffer,
+                                                  tail_page,
+                                                  next_page);
+                        if (ret < 0)
+                                goto out_reset;
+                        if (ret)
+                                goto out_again;
+                } else {
+                        /*
+                         * We need to be careful here too. The
+                         * commit page could still be on the reader
+                         * page. We could have a small buffer, and
+                         * have filled up the buffer with events
+                         * from interrupts and such, and wrapped.
+                         *
+                         * Note, if the tail page is also the on the
+                         * reader_page, we let it move out.
+                         */
+                        if (unlikely((cpu_buffer->commit_page !=
+                                      cpu_buffer->tail_page) &&
+                                     (cpu_buffer->commit_page ==
+                                      cpu_buffer->reader_page))) {
+                                local_inc(&cpu_buffer->commit_overrun);
+                                goto out_reset;
+                        }
                }
        }
-        /*
+        ret = rb_tail_page_update(cpu_buffer, tail_page, next_page);
-         * If the tail page is still the same as what we think
+        if (ret) {
-         * it is, then it is up to us to update the tail
+                /*
-         * pointer.
+                 * Nested commits always have zero deltas, so
-         */
+                 * just reread the time stamp
-        if (tail_page == cpu_buffer->tail_page) {
+                 */
-                local_set(&next_page->write, 0);
-                local_set(&next_page->entries, 0);
-                local_set(&next_page->page->commit, 0);
-                cpu_buffer->tail_page = next_page;
-                /* reread the time stamp */
                *ts = rb_time_stamp(buffer, cpu_buffer->cpu);
-                cpu_buffer->tail_page->page->time_stamp = *ts;
+                next_page->page->time_stamp = *ts;
        }
-        rb_reset_tail(cpu_buffer, tail_page, tail, length);
+ out_again:
-        __raw_spin_unlock(&cpu_buffer->lock);
+        rb_reset_tail(cpu_buffer, tail_page, tail, length);
-        local_irq_restore(flags);
        /* fail and let the caller try again */
        return ERR_PTR(-EAGAIN);
@@ -1298,9 +1888,6 @@ rb_move_tail(struct ring_buffer_per_cpu *cpu_buffer,
        /* reset write */
        rb_reset_tail(cpu_buffer, tail_page, tail, length);
-        if (likely(lock_taken))
-                __raw_spin_unlock(&cpu_buffer->lock);
-        local_irq_restore(flags);
        return NULL;
 }
@@ -1317,6 +1904,9 @@ __rb_reserve_next(struct ring_buffer_per_cpu *cpu_buffer,
        barrier();
        tail_page = cpu_buffer->tail_page;
        write = local_add_return(length, &tail_page->write);
+        /* set write to only the index of the write */
+        write &= RB_WRITE_MASK;
        tail = write - length;
        /* See if we shot pass the end of this buffer page */
@@ -1361,12 +1951,16 @@ rb_try_to_discard(struct ring_buffer_per_cpu *cpu_buffer,
        bpage = cpu_buffer->tail_page;
        if (bpage->page == (void *)addr && rb_page_write(bpage) == old_index) {
+                unsigned long write_mask =
+                        local_read(&bpage->write) & ~RB_WRITE_MASK;
                /*
                 * This is on the tail page. It is possible that
                 * a write could come in and move the tail page
                 * and write to the next page. That is fine
                 * because we just shorten what is on this page.
                 */
+                old_index += write_mask;
+                new_index += write_mask;
                index = local_cmpxchg(&bpage->write, old_index, new_index);
                if (index == old_index)
                        return 1;
@@ -1875,9 +2469,13 @@ EXPORT_SYMBOL_GPL(ring_buffer_write);
 static int rb_per_cpu_empty(struct ring_buffer_per_cpu *cpu_buffer)
 {
        struct buffer_page *reader = cpu_buffer->reader_page;
-        struct buffer_page *head = cpu_buffer->head_page;
+        struct buffer_page *head = rb_set_head_page(cpu_buffer);
        struct buffer_page *commit = cpu_buffer->commit_page;
+        /* In case of error, head will be NULL */
+        if (unlikely(!head))
+                return 1;
        return reader->read == rb_page_commit(reader) &&
                (commit == reader ||
                 (commit == head &&
@@ -1968,7 +2566,7 @@ unsigned long ring_buffer_entries_cpu(struct ring_buffer *buffer, int cpu)
                return 0;
        cpu_buffer = buffer->buffers[cpu];
-        ret = (local_read(&cpu_buffer->entries) - cpu_buffer->overrun)
+        ret = (local_read(&cpu_buffer->entries) - local_read(&cpu_buffer->overrun))
                - cpu_buffer->read;
        return ret;
@@ -1989,33 +2587,13 @@ unsigned long ring_buffer_overrun_cpu(struct ring_buffer *buffer, int cpu)
                return 0;
        cpu_buffer = buffer->buffers[cpu];
-        ret = cpu_buffer->overrun;
+        ret = local_read(&cpu_buffer->overrun);
        return ret;
 }
 EXPORT_SYMBOL_GPL(ring_buffer_overrun_cpu);
 /**
- * ring_buffer_nmi_dropped_cpu - get the number of nmis that were dropped
- * @buffer: The ring buffer
- * @cpu: The per CPU buffer to get the number of overruns from
- */
-unsigned long ring_buffer_nmi_dropped_cpu(struct ring_buffer *buffer, int cpu)
-{
-        struct ring_buffer_per_cpu *cpu_buffer;
-        unsigned long ret;
-        if (!cpumask_test_cpu(cpu, buffer->cpumask))
-                return 0;
-        cpu_buffer = buffer->buffers[cpu];
-        ret = cpu_buffer->nmi_dropped;
-        return ret;
-}
-EXPORT_SYMBOL_GPL(ring_buffer_nmi_dropped_cpu);
-/**
 * ring_buffer_commit_overrun_cpu - get the number of overruns caused by commits
 * @buffer: The ring buffer
 * @cpu: The per CPU buffer to get the number of overruns from
@@ -2030,7 +2608,7 @@ ring_buffer_commit_overrun_cpu(struct ring_buffer *buffer, int cpu)
                return 0;
        cpu_buffer = buffer->buffers[cpu];
-        ret = cpu_buffer->commit_overrun;
+        ret = local_read(&cpu_buffer->commit_overrun);
        return ret;
 }
@@ -2053,7 +2631,7 @@ unsigned long ring_buffer_entries(struct ring_buffer *buffer)
        for_each_buffer_cpu(buffer, cpu) {
                cpu_buffer = buffer->buffers[cpu];
                entries += (local_read(&cpu_buffer->entries) -
-                            cpu_buffer->overrun) - cpu_buffer->read;
+                            local_read(&cpu_buffer->overrun)) - cpu_buffer->read;
        }
        return entries;
@@ -2076,7 +2654,7 @@ unsigned long ring_buffer_overruns(struct ring_buffer *buffer)
        /* if you care about this being correct, lock the buffer */
        for_each_buffer_cpu(buffer, cpu) {
                cpu_buffer = buffer->buffers[cpu];
-                overruns += cpu_buffer->overrun;
+                overruns += local_read(&cpu_buffer->overrun);
        }
        return overruns;
@@ -2089,8 +2667,10 @@ static void rb_iter_reset(struct ring_buffer_iter *iter)
        /* Iterator usage is expected to have record disabled */
        if (list_empty(&cpu_buffer->reader_page->list)) {
-                iter->head_page = cpu_buffer->head_page;
+                iter->head_page = rb_set_head_page(cpu_buffer);
-                iter->head = cpu_buffer->head_page->read;
+                if (unlikely(!iter->head_page))
+                        return;
+                iter->head = iter->head_page->read;
        } else {
                iter->head_page = cpu_buffer->reader_page;
                iter->head = cpu_buffer->reader_page->read;
@@ -2207,6 +2787,7 @@ rb_get_reader_page(struct ring_buffer_per_cpu *cpu_buffer)
        struct buffer_page *reader = NULL;
        unsigned long flags;
        int nr_loops = 0;
+        int ret;
        local_irq_save(flags);
        __raw_spin_lock(&cpu_buffer->lock);
@@ -2240,30 +2821,56 @@ rb_get_reader_page(struct ring_buffer_per_cpu *cpu_buffer)
                goto out;
        /*
-         * Splice the empty reader page into the list around the head.
         * Reset the reader page to size zero.
         */
+        local_set(&cpu_buffer->reader_page->write, 0);
+        local_set(&cpu_buffer->reader_page->entries, 0);
+        local_set(&cpu_buffer->reader_page->page->commit, 0);
-        reader = cpu_buffer->head_page;
+ spin:
+        /*
+         * Splice the empty reader page into the list around the head.
+         */
+        reader = rb_set_head_page(cpu_buffer);
        cpu_buffer->reader_page->list.next = reader->list.next;
        cpu_buffer->reader_page->list.prev = reader->list.prev;
-        local_set(&cpu_buffer->reader_page->write, 0);
+        /*
-        local_set(&cpu_buffer->reader_page->entries, 0);
+         * cpu_buffer->pages just needs to point to the buffer, it
-        local_set(&cpu_buffer->reader_page->page->commit, 0);
+         *  has no specific buffer page to point to. Lets move it out
+         *  of our way so we don't accidently swap it.
+         */
+        cpu_buffer->pages = reader->list.prev;
-        /* Make the reader page now replace the head */
+        /* The reader page will be pointing to the new head */
-        reader->list.prev->next = &cpu_buffer->reader_page->list;
+        rb_set_list_to_head(cpu_buffer, &cpu_buffer->reader_page->list);
-        reader->list.next->prev = &cpu_buffer->reader_page->list;
+        /*
+         * Here's the tricky part.
+         *
+         * We need to move the pointer past the header page.
+         * But we can only do that if a writer is not currently
+         * moving it. The page before the header page has the
+         * flag bit '1' set if it is pointing to the page we want.
+         * but if the writer is in the process of moving it
+         * than it will be '2' or already moved '0'.
+         */
+        ret = rb_head_page_replace(reader, cpu_buffer->reader_page);
        /*
-         * If the tail is on the reader, then we must set the head
+         * If we did not convert it, then we must try again.
-         * to the inserted page, otherwise we set it one before.
         */
-        cpu_buffer->head_page = cpu_buffer->reader_page;
+        if (!ret)
+                goto spin;
-        if (cpu_buffer->commit_page != reader)
+        /*
-                rb_inc_page(cpu_buffer, &cpu_buffer->head_page);
+         * Yeah! We succeeded in replacing the page.
+         *
+         * Now make the new head point back to the reader page.
+         */
+        reader->list.next->prev = &cpu_buffer->reader_page->list;
+        rb_inc_page(cpu_buffer, &cpu_buffer->head_page);
        /* Finally update the reader page to the new head */
        cpu_buffer->reader_page = reader;
@@ -2717,8 +3324,10 @@ EXPORT_SYMBOL_GPL(ring_buffer_size);
 static void
 rb_reset_cpu(struct ring_buffer_per_cpu *cpu_buffer)
 {
+        rb_head_page_deactivate(cpu_buffer);
        cpu_buffer->head_page
-                = list_entry(cpu_buffer->pages.next, struct buffer_page, list);
+                = list_entry(cpu_buffer->pages, struct buffer_page, list);
        local_set(&cpu_buffer->head_page->write, 0);
        local_set(&cpu_buffer->head_page->entries, 0);
        local_set(&cpu_buffer->head_page->page->commit, 0);
@@ -2734,16 +3343,17 @@ rb_reset_cpu(struct ring_buffer_per_cpu *cpu_buffer)
        local_set(&cpu_buffer->reader_page->page->commit, 0);
        cpu_buffer->reader_page->read = 0;
-        cpu_buffer->nmi_dropped = 0;
+        local_set(&cpu_buffer->commit_overrun, 0);
-        cpu_buffer->commit_overrun = 0;
+        local_set(&cpu_buffer->overrun, 0);
-        cpu_buffer->overrun = 0;
-        cpu_buffer->read = 0;
        local_set(&cpu_buffer->entries, 0);
        local_set(&cpu_buffer->committing, 0);
        local_set(&cpu_buffer->commits, 0);
+        cpu_buffer->read = 0;
        cpu_buffer->write_stamp = 0;
        cpu_buffer->read_stamp = 0;
+        rb_head_page_activate(cpu_buffer);
 }
 /**
@@ -3091,7 +3701,7 @@ int ring_buffer_read_page(struct ring_buffer *buffer,
                read = 0;
        } else {
                /* update the entry counter */
-                cpu_buffer->read += local_read(&reader->entries);
+                cpu_buffer->read += rb_page_entries(reader);
                /* swap the pages */
                rb_init_page(bpage);
diff --git a/kernel/trace/trace.c b/kernel/trace/trace.c
index c22b40f8f576..e793cda91dd3 100644
--- a/kernel/trace/trace.c
+++ b/kernel/trace/trace.c
@@ -50,7 +50,7 @@ unsigned long __read_mostly	tracing_thresh;
 * On boot up, the ring buffer is set to the minimum size, so that
 * we do not waste memory on systems that are not using tracing.
 */
-static int ring_buffer_expanded;
+int ring_buffer_expanded;
 /*
 * We need to change this state when a selftest is running.
@@ -64,7 +64,7 @@ static bool __read_mostly tracing_selftest_running;
 /*
 * If a tracer is running, we do not want to run SELFTEST.
 */
-static bool __read_mostly tracing_selftest_disabled;
+bool __read_mostly tracing_selftest_disabled;
 /* For tracers that don't implement custom flags */
 static struct tracer_opt dummy_tracer_opt[] = {
@@ -89,7 +89,7 @@ static int dummy_set_flag(u32 old_flags, u32 bit, int set)
 */
 static int tracing_disabled = 1;
-static DEFINE_PER_CPU(local_t, ftrace_cpu_disabled);
+DEFINE_PER_CPU(local_t, ftrace_cpu_disabled);
 static inline void ftrace_disable_cpu(void)
 {
@@ -867,10 +867,6 @@ struct ring_buffer_event *trace_buffer_lock_reserve(struct trace_array *tr,
        return event;
 }
-static void ftrace_trace_stack(struct trace_array *tr,
-                               unsigned long flags, int skip, int pc);
-static void ftrace_trace_userstack(struct trace_array *tr,
-                                   unsigned long flags, int pc);
 static inline void __trace_buffer_unlock_commit(struct trace_array *tr,
                                        struct ring_buffer_event *event,
@@ -947,54 +943,6 @@ trace_function(struct trace_array *tr,
                ring_buffer_unlock_commit(tr->buffer, event);
 }
-#ifdef CONFIG_FUNCTION_GRAPH_TRACER
-static int __trace_graph_entry(struct trace_array *tr,
-                                struct ftrace_graph_ent *trace,
-                                unsigned long flags,
-                                int pc)
-{
-        struct ftrace_event_call *call = &event_funcgraph_entry;
-        struct ring_buffer_event *event;
-        struct ftrace_graph_ent_entry *entry;
-        if (unlikely(local_read(&__get_cpu_var(ftrace_cpu_disabled))))
-                return 0;
-        event = trace_buffer_lock_reserve(&global_trace, TRACE_GRAPH_ENT,
-                                          sizeof(*entry), flags, pc);
-        if (!event)
-                return 0;
-        entry   = ring_buffer_event_data(event);
-        entry->graph_ent                        = *trace;
-        if (!filter_current_check_discard(call, entry, event))
-                ring_buffer_unlock_commit(global_trace.buffer, event);
-        return 1;
-}
-static void __trace_graph_return(struct trace_array *tr,
-                                struct ftrace_graph_ret *trace,
-                                unsigned long flags,
-                                int pc)
-{
-        struct ftrace_event_call *call = &event_funcgraph_exit;
-        struct ring_buffer_event *event;
-        struct ftrace_graph_ret_entry *entry;
-        if (unlikely(local_read(&__get_cpu_var(ftrace_cpu_disabled))))
-                return;
-        event = trace_buffer_lock_reserve(&global_trace, TRACE_GRAPH_RET,
-                                          sizeof(*entry), flags, pc);
-        if (!event)
-                return;
-        entry   = ring_buffer_event_data(event);
-        entry->ret                              = *trace;
-        if (!filter_current_check_discard(call, entry, event))
-                ring_buffer_unlock_commit(global_trace.buffer, event);
-}
-#endif
 void
 ftrace(struct trace_array *tr, struct trace_array_cpu *data,
       unsigned long ip, unsigned long parent_ip, unsigned long flags,
@@ -1004,11 +952,11 @@ ftrace(struct trace_array *tr, struct trace_array_cpu *data,
                trace_function(tr, ip, parent_ip, flags, pc);
 }
+#ifdef CONFIG_STACKTRACE
 static void __ftrace_trace_stack(struct trace_array *tr,
                                 unsigned long flags,
                                 int skip, int pc)
 {
-#ifdef CONFIG_STACKTRACE
        struct ftrace_event_call *call = &event_kernel_stack;
        struct ring_buffer_event *event;
        struct stack_entry *entry;
@@ -1029,12 +977,10 @@ static void __ftrace_trace_stack(struct trace_array *tr,
        save_stack_trace(&trace);
        if (!filter_check_discard(call, entry, tr->buffer, event))
                ring_buffer_unlock_commit(tr->buffer, event);
-#endif
 }
-static void ftrace_trace_stack(struct trace_array *tr,
+void ftrace_trace_stack(struct trace_array *tr, unsigned long flags, int skip,
-                               unsigned long flags,
+                        int pc)
-                               int skip, int pc)
 {
        if (!(trace_flags & TRACE_ITER_STACKTRACE))
                return;
@@ -1042,17 +988,14 @@ static void ftrace_trace_stack(struct trace_array *tr,
        __ftrace_trace_stack(tr, flags, skip, pc);
 }
-void __trace_stack(struct trace_array *tr,
+void __trace_stack(struct trace_array *tr, unsigned long flags, int skip,
-                   unsigned long flags,
+                   int pc)
-                   int skip, int pc)
 {
        __ftrace_trace_stack(tr, flags, skip, pc);
 }
-static void ftrace_trace_userstack(struct trace_array *tr,
+void ftrace_trace_userstack(struct trace_array *tr, unsigned long flags, int pc)
-                                   unsigned long flags, int pc)
 {
-#ifdef CONFIG_STACKTRACE
        struct ftrace_event_call *call = &event_user_stack;
        struct ring_buffer_event *event;
        struct userstack_entry *entry;
@@ -1077,7 +1020,6 @@ static void ftrace_trace_userstack(struct trace_array *tr,
        save_stack_trace_user(&trace);
        if (!filter_check_discard(call, entry, tr->buffer, event))
                ring_buffer_unlock_commit(tr->buffer, event);
-#endif
 }
 #ifdef UNUSED
@@ -1087,6 +1029,8 @@ static void __trace_userstack(struct trace_array *tr, unsigned long flags)
 }
 #endif /* UNUSED */
+#endif /* CONFIG_STACKTRACE */
 static void
 ftrace_trace_special(void *__tr,
                     unsigned long arg1, unsigned long arg2, unsigned long arg3,
@@ -1115,62 +1059,6 @@ __trace_special(void *__tr, void *__data,
 }
 void
-tracing_sched_switch_trace(struct trace_array *tr,
-                           struct task_struct *prev,
-                           struct task_struct *next,
-                           unsigned long flags, int pc)
-{
-        struct ftrace_event_call *call = &event_context_switch;
-        struct ring_buffer_event *event;
-        struct ctx_switch_entry *entry;
-        event = trace_buffer_lock_reserve(tr, TRACE_CTX,
-                                          sizeof(*entry), flags, pc);
-        if (!event)
-                return;
-        entry   = ring_buffer_event_data(event);
-        entry->prev_pid                 = prev->pid;
-        entry->prev_prio                = prev->prio;
-        entry->prev_state               = prev->state;
-        entry->next_pid                 = next->pid;
-        entry->next_prio                = next->prio;
-        entry->next_state               = next->state;
-        entry->next_cpu = task_cpu(next);
-        if (!filter_check_discard(call, entry, tr->buffer, event))
-                trace_buffer_unlock_commit(tr, event, flags, pc);
-}
-void
-tracing_sched_wakeup_trace(struct trace_array *tr,
-                           struct task_struct *wakee,
-                           struct task_struct *curr,
-                           unsigned long flags, int pc)
-{
-        struct ftrace_event_call *call = &event_wakeup;
-        struct ring_buffer_event *event;
-        struct ctx_switch_entry *entry;
-        event = trace_buffer_lock_reserve(tr, TRACE_WAKE,
-                                          sizeof(*entry), flags, pc);
-        if (!event)
-                return;
-        entry   = ring_buffer_event_data(event);
-        entry->prev_pid                 = curr->pid;
-        entry->prev_prio                = curr->prio;
-        entry->prev_state               = curr->state;
-        entry->next_pid                 = wakee->pid;
-        entry->next_prio                = wakee->prio;
-        entry->next_state               = wakee->state;
-        entry->next_cpu                 = task_cpu(wakee);
-        if (!filter_check_discard(call, entry, tr->buffer, event))
-                ring_buffer_unlock_commit(tr->buffer, event);
-        ftrace_trace_stack(tr, flags, 6, pc);
-        ftrace_trace_userstack(tr, flags, pc);
-}
-void
 ftrace_special(unsigned long arg1, unsigned long arg2, unsigned long arg3)
 {
        struct trace_array *tr = &global_trace;
@@ -1194,68 +1082,6 @@ ftrace_special(unsigned long arg1, unsigned long arg2, unsigned long arg3)
        local_irq_restore(flags);
 }
-#ifdef CONFIG_FUNCTION_GRAPH_TRACER
-int trace_graph_entry(struct ftrace_graph_ent *trace)
-{
-        struct trace_array *tr = &global_trace;
-        struct trace_array_cpu *data;
-        unsigned long flags;
-        long disabled;
-        int ret;
-        int cpu;
-        int pc;
-        if (!ftrace_trace_task(current))
-                return 0;
-        if (!ftrace_graph_addr(trace->func))
-                return 0;
-        local_irq_save(flags);
-        cpu = raw_smp_processor_id();
-        data = tr->data[cpu];
-        disabled = atomic_inc_return(&data->disabled);
-        if (likely(disabled == 1)) {
-                pc = preempt_count();
-                ret = __trace_graph_entry(tr, trace, flags, pc);
-        } else {
-                ret = 0;
-        }
-        /* Only do the atomic if it is not already set */
-        if (!test_tsk_trace_graph(current))
-                set_tsk_trace_graph(current);
-        atomic_dec(&data->disabled);
-        local_irq_restore(flags);
-        return ret;
-}
-void trace_graph_return(struct ftrace_graph_ret *trace)
-{
-        struct trace_array *tr = &global_trace;
-        struct trace_array_cpu *data;
-        unsigned long flags;
-        long disabled;
-        int cpu;
-        int pc;
-        local_irq_save(flags);
-        cpu = raw_smp_processor_id();
-        data = tr->data[cpu];
-        disabled = atomic_inc_return(&data->disabled);
-        if (likely(disabled == 1)) {
-                pc = preempt_count();
-                __trace_graph_return(tr, trace, flags, pc);
-        }
-        if (!trace->depth)
-                clear_tsk_trace_graph(current);
-        atomic_dec(&data->disabled);
-        local_irq_restore(flags);
-}
-#endif /* CONFIG_FUNCTION_GRAPH_TRACER */
 /**
 * trace_vbprintk - write binary msg to tracing buffer
 *
@@ -2257,8 +2083,8 @@ tracing_trace_options_read(struct file *filp, char __user *ubuf,
                len += 3; /* "no" and newline */
        }
-        /* +2 for \n and \0 */
+        /* +1 for \0 */
-        buf = kmalloc(len + 2, GFP_KERNEL);
+        buf = kmalloc(len + 1, GFP_KERNEL);
        if (!buf) {
                mutex_unlock(&trace_types_lock);
                return -ENOMEM;
@@ -2281,7 +2107,7 @@ tracing_trace_options_read(struct file *filp, char __user *ubuf,
        }
        mutex_unlock(&trace_types_lock);
-        WARN_ON(r >= len + 2);
+        WARN_ON(r >= len + 1);
        r = simple_read_from_buffer(ubuf, cnt, ppos, buf, r);
@@ -3633,9 +3459,6 @@ tracing_stats_read(struct file *filp, char __user *ubuf,
        cnt = ring_buffer_commit_overrun_cpu(tr->buffer, cpu);
        trace_seq_printf(s, "commit overrun: %ld\n", cnt);
-        cnt = ring_buffer_nmi_dropped_cpu(tr->buffer, cpu);
-        trace_seq_printf(s, "nmi dropped: %ld\n", cnt);
        count = simple_read_from_buffer(ubuf, count, ppos, s->buffer, s->len);
        kfree(s);
@@ -4273,7 +4096,6 @@ void ftrace_dump(void)
 __init static int tracer_alloc_buffers(void)
 {
-        struct trace_array_cpu *data;
        int ring_buf_size;
        int i;
        int ret = -ENOMEM;
@@ -4323,7 +4145,7 @@ __init static int tracer_alloc_buffers(void)
        /* Allocate the first page for all buffers */
        for_each_tracing_cpu(i) {
-                data = global_trace.data[i] = &per_cpu(global_trace_cpu, i);
+                global_trace.data[i] = &per_cpu(global_trace_cpu, i);
                max_tr.data[i] = &per_cpu(max_data, i);
        }
diff --git a/kernel/trace/trace.h b/kernel/trace/trace.h
index 8b9f4f6e9559..d682357e4b1f 100644
--- a/kernel/trace/trace.h
+++ b/kernel/trace/trace.h
@@ -467,6 +467,7 @@ void trace_function(struct trace_array *tr,
 void trace_graph_return(struct ftrace_graph_ret *trace);
 int trace_graph_entry(struct ftrace_graph_ent *trace);
+void set_graph_array(struct trace_array *tr);
 void tracing_start_cmdline_record(void);
 void tracing_stop_cmdline_record(void);
@@ -485,9 +486,31 @@ void update_max_tr(struct trace_array *tr, struct task_struct *tsk, int cpu);
 void update_max_tr_single(struct trace_array *tr,
                          struct task_struct *tsk, int cpu);
-void __trace_stack(struct trace_array *tr,
+#ifdef CONFIG_STACKTRACE
-                   unsigned long flags,
+void ftrace_trace_stack(struct trace_array *tr, unsigned long flags,
-                   int skip, int pc);
+                        int skip, int pc);
+void ftrace_trace_userstack(struct trace_array *tr, unsigned long flags,
+                            int pc);
+void __trace_stack(struct trace_array *tr, unsigned long flags, int skip,
+                   int pc);
+#else
+static inline void ftrace_trace_stack(struct trace_array *tr,
+                                      unsigned long flags, int skip, int pc)
+{
+}
+static inline void ftrace_trace_userstack(struct trace_array *tr,
+                                          unsigned long flags, int pc)
+{
+}
+static inline void __trace_stack(struct trace_array *tr, unsigned long flags,
+                                 int skip, int pc)
+{
+}
+#endif /* CONFIG_STACKTRACE */
 extern cycle_t ftrace_now(int cpu);
@@ -513,6 +536,10 @@ extern unsigned long ftrace_update_tot_cnt;
 extern int DYN_FTRACE_TEST_NAME(void);
 #endif
+extern int ring_buffer_expanded;
+extern bool tracing_selftest_disabled;
+DECLARE_PER_CPU(local_t, ftrace_cpu_disabled);
 #ifdef CONFIG_FTRACE_STARTUP_TEST
 extern int trace_selftest_startup_function(struct tracer *trace,
                                           struct trace_array *tr);
@@ -743,13 +770,15 @@ struct event_filter {
        int                     n_preds;
        struct filter_pred      **preds;
        char                    *filter_string;
+        bool                    no_reset;
 };
 struct event_subsystem {
        struct list_head        list;
        const char              *name;
        struct dentry           *entry;
-        void                    *filter;
+        struct event_filter     *filter;
+        int                     nr_events;
 };
 struct filter_pred;
diff --git a/kernel/trace/trace_events.c b/kernel/trace/trace_events.c
index e75276a49cf5..e0cbede96783 100644
--- a/kernel/trace/trace_events.c
+++ b/kernel/trace/trace_events.c
@@ -17,6 +17,8 @@
 #include <linux/ctype.h>
 #include <linux/delay.h>
+#include <asm/setup.h>
 #include "trace_output.h"
 #define TRACE_SYSTEM "TRACE_SYSTEM"
@@ -849,8 +851,10 @@ event_subsystem_dir(const char *name, struct dentry *d_events)
        /* First see if we did not already create this dir */
        list_for_each_entry(system, &event_subsystems, list) {
-                if (strcmp(system->name, name) == 0)
+                if (strcmp(system->name, name) == 0) {
+                        system->nr_events++;
                        return system->entry;
+                }
        }
        /* need to create new entry */
@@ -869,6 +873,7 @@ event_subsystem_dir(const char *name, struct dentry *d_events)
                return d_events;
        }
+        system->nr_events = 1;
        system->name = kstrdup(name, GFP_KERNEL);
        if (!system->name) {
                debugfs_remove(system->entry);
@@ -987,6 +992,32 @@ struct ftrace_module_file_ops {
        struct file_operations          filter;
 };
+static void remove_subsystem_dir(const char *name)
+{
+        struct event_subsystem *system;
+        if (strcmp(name, TRACE_SYSTEM) == 0)
+                return;
+        list_for_each_entry(system, &event_subsystems, list) {
+                if (strcmp(system->name, name) == 0) {
+                        if (!--system->nr_events) {
+                                struct event_filter *filter = system->filter;
+                                debugfs_remove_recursive(system->entry);
+                                list_del(&system->list);
+                                if (filter) {
+                                        kfree(filter->filter_string);
+                                        kfree(filter);
+                                }
+                                kfree(system->name);
+                                kfree(system);
+                        }
+                        break;
+                }
+        }
+}
 static struct ftrace_module_file_ops *
 trace_create_file_ops(struct module *mod)
 {
@@ -1077,6 +1108,7 @@ static void trace_module_remove_events(struct module *mod)
                        list_del(&call->list);
                        trace_destroy_fields(call);
                        destroy_preds(call);
+                        remove_subsystem_dir(call->system);
                }
        }
@@ -1133,6 +1165,18 @@ struct notifier_block trace_module_nb = {
 extern struct ftrace_event_call __start_ftrace_events[];
 extern struct ftrace_event_call __stop_ftrace_events[];
+static char bootup_event_buf[COMMAND_LINE_SIZE] __initdata;
+static __init int setup_trace_event(char *str)
+{
+        strlcpy(bootup_event_buf, str, COMMAND_LINE_SIZE);
+        ring_buffer_expanded = 1;
+        tracing_selftest_disabled = 1;
+        return 1;
+}
+__setup("trace_event=", setup_trace_event);
 static __init int event_trace_init(void)
 {
        struct ftrace_event_call *call;
@@ -1140,6 +1184,8 @@ static __init int event_trace_init(void)
        struct dentry *entry;
        struct dentry *d_events;
        int ret;
+        char *buf = bootup_event_buf;
+        char *token;
        d_tracer = tracing_init_dentry();
        if (!d_tracer)
@@ -1185,6 +1231,19 @@ static __init int event_trace_init(void)
                                 &ftrace_event_format_fops);
        }
+        while (true) {
+                token = strsep(&buf, ",");
+                if (!token)
+                        break;
+                if (!*token)
+                        continue;
+                ret = ftrace_set_clr_event(token, 1);
+                if (ret)
+                        pr_warning("Failed to enable trace event: %s\n", token);
+        }
        ret = register_module_notifier(&trace_module_nb);
        if (ret)
                pr_warning("Failed to register trace events module notifier\n");
@@ -1392,10 +1451,10 @@ static __init void event_trace_self_test_with_function(void)
 static __init int event_trace_self_tests_init(void)
 {
+        if (!tracing_selftest_disabled) {
-        event_trace_self_tests();
+                event_trace_self_tests();
+                event_trace_self_test_with_function();
-        event_trace_self_test_with_function();
+        }
        return 0;
 }
diff --git a/kernel/trace/trace_events_filter.c b/kernel/trace/trace_events_filter.c
index f32dc9d1ea7b..490337abed75 100644
--- a/kernel/trace/trace_events_filter.c
+++ b/kernel/trace/trace_events_filter.c
@@ -176,11 +176,13 @@ static int filter_pred_string(struct filter_pred *pred, void *event,
 static int filter_pred_strloc(struct filter_pred *pred, void *event,
                              int val1, int val2)
 {
-        unsigned short str_loc = *(unsigned short *)(event + pred->offset);
+        u32 str_item = *(u32 *)(event + pred->offset);
+        int str_loc = str_item & 0xffff;
+        int str_len = str_item >> 16;
        char *addr = (char *)(event + str_loc);
        int cmp, match;
-        cmp = strncmp(addr, pred->str_val, pred->str_len);
+        cmp = strncmp(addr, pred->str_val, str_len);
        match = (!cmp) ^ pred->not;
@@ -418,24 +420,29 @@ oom:
 }
 EXPORT_SYMBOL_GPL(init_preds);
-static void filter_free_subsystem_preds(struct event_subsystem *system)
+enum {
+        FILTER_DISABLE_ALL,
+        FILTER_INIT_NO_RESET,
+        FILTER_SKIP_NO_RESET,
+};
+static void filter_free_subsystem_preds(struct event_subsystem *system,
+                                        int flag)
 {
-        struct event_filter *filter = system->filter;
        struct ftrace_event_call *call;
-        int i;
-        if (filter->n_preds) {
-                for (i = 0; i < filter->n_preds; i++)
-                        filter_free_pred(filter->preds[i]);
-                kfree(filter->preds);
-                filter->preds = NULL;
-                filter->n_preds = 0;
-        }
        list_for_each_entry(call, &ftrace_events, list) {
                if (!call->define_fields)
                        continue;
+                if (flag == FILTER_INIT_NO_RESET) {
+                        call->filter->no_reset = false;
+                        continue;
+                }
+                if (flag == FILTER_SKIP_NO_RESET && call->filter->no_reset)
+                        continue;
                if (!strcmp(call->system, system->name)) {
                        filter_disable_preds(call);
                        remove_filter_string(call->filter);
@@ -537,7 +544,8 @@ static filter_pred_fn_t select_comparison_fn(int op, int field_size,
 static int filter_add_pred(struct filter_parse_state *ps,
                           struct ftrace_event_call *call,
-                           struct filter_pred *pred)
+                           struct filter_pred *pred,
+                           bool dry_run)
 {
        struct ftrace_event_field *field;
        filter_pred_fn_t fn;
@@ -549,10 +557,12 @@ static int filter_add_pred(struct filter_parse_state *ps,
        if (pred->op == OP_AND) {
                pred->pop_n = 2;
-                return filter_add_pred_fn(ps, call, pred, filter_pred_and);
+                fn = filter_pred_and;
+                goto add_pred_fn;
        } else if (pred->op == OP_OR) {
                pred->pop_n = 2;
-                return filter_add_pred_fn(ps, call, pred, filter_pred_or);
+                fn = filter_pred_or;
+                goto add_pred_fn;
        }
        field = find_event_field(call, pred->field_name);
@@ -575,9 +585,6 @@ static int filter_add_pred(struct filter_parse_state *ps,
                else
                        fn = filter_pred_strloc;
                pred->str_len = field->size;
-                if (pred->op == OP_NE)
-                        pred->not = 1;
-                return filter_add_pred_fn(ps, call, pred, fn);
        } else {
                if (field->is_signed)
                        ret = strict_strtoll(pred->str_val, 0, &val);
@@ -588,41 +595,33 @@ static int filter_add_pred(struct filter_parse_state *ps,
                        return -EINVAL;
                }
                pred->val = val;
-        }
-        fn = select_comparison_fn(pred->op, field->size, field->is_signed);
+                fn = select_comparison_fn(pred->op, field->size,
-        if (!fn) {
+                                          field->is_signed);
-                parse_error(ps, FILT_ERR_INVALID_OP, 0);
+                if (!fn) {
-                return -EINVAL;
+                        parse_error(ps, FILT_ERR_INVALID_OP, 0);
+                        return -EINVAL;
+                }
        }
        if (pred->op == OP_NE)
                pred->not = 1;
-        return filter_add_pred_fn(ps, call, pred, fn);
+add_pred_fn:
+        if (!dry_run)
+                return filter_add_pred_fn(ps, call, pred, fn);
+        return 0;
 }
 static int filter_add_subsystem_pred(struct filter_parse_state *ps,
                                     struct event_subsystem *system,
                                     struct filter_pred *pred,
-                                     char *filter_string)
+                                     char *filter_string,
+                                     bool dry_run)
 {
-        struct event_filter *filter = system->filter;
        struct ftrace_event_call *call;
        int err = 0;
+        bool fail = true;
-        if (!filter->preds) {
-                filter->preds = kzalloc(MAX_FILTER_PRED * sizeof(pred),
-                                        GFP_KERNEL);
-                if (!filter->preds)
-                        return -ENOMEM;
-        }
-        if (filter->n_preds == MAX_FILTER_PRED) {
-                parse_error(ps, FILT_ERR_TOO_MANY_PREDS, 0);
-                return -ENOSPC;
-        }
        list_for_each_entry(call, &ftrace_events, list) {
@@ -632,19 +631,24 @@ static int filter_add_subsystem_pred(struct filter_parse_state *ps,
                if (strcmp(call->system, system->name))
                        continue;
-                err = filter_add_pred(ps, call, pred);
+                if (call->filter->no_reset)
-                if (err) {
+                        continue;
-                        filter_free_subsystem_preds(system);
-                        parse_error(ps, FILT_ERR_BAD_SUBSYS_FILTER, 0);
+                err = filter_add_pred(ps, call, pred, dry_run);
-                        goto out;
+                if (err)
-                }
+                        call->filter->no_reset = true;
-                replace_filter_string(call->filter, filter_string);
+                else
+                        fail = false;
+                if (!dry_run)
+                        replace_filter_string(call->filter, filter_string);
        }
-        filter->preds[filter->n_preds] = pred;
+        if (fail) {
-        filter->n_preds++;
+                parse_error(ps, FILT_ERR_BAD_SUBSYS_FILTER, 0);
-out:
+                return err;
-        return err;
+        }
+        return 0;
 }
 static void parse_init(struct filter_parse_state *ps,
@@ -1003,12 +1007,14 @@ static int check_preds(struct filter_parse_state *ps)
 static int replace_preds(struct event_subsystem *system,
                         struct ftrace_event_call *call,
                         struct filter_parse_state *ps,
-                         char *filter_string)
+                         char *filter_string,
+                         bool dry_run)
 {
        char *operand1 = NULL, *operand2 = NULL;
        struct filter_pred *pred;
        struct postfix_elt *elt;
        int err;
+        int n_preds = 0;
        err = check_preds(ps);
        if (err)
@@ -1027,24 +1033,14 @@ static int replace_preds(struct event_subsystem *system,
                        continue;
                }
+                if (n_preds++ == MAX_FILTER_PRED) {
+                        parse_error(ps, FILT_ERR_TOO_MANY_PREDS, 0);
+                        return -ENOSPC;
+                }
                if (elt->op == OP_AND || elt->op == OP_OR) {
                        pred = create_logical_pred(elt->op);
-                        if (!pred)
+                        goto add_pred;
-                                return -ENOMEM;
-                        if (call) {
-                                err = filter_add_pred(ps, call, pred);
-                                filter_free_pred(pred);
-                        } else {
-                                err = filter_add_subsystem_pred(ps, system,
-                                                        pred, filter_string);
-                                if (err)
-                                        filter_free_pred(pred);
-                        }
-                        if (err)
-                                return err;
-                        operand1 = operand2 = NULL;
-                        continue;
                }
                if (!operand1 || !operand2) {
@@ -1053,17 +1049,15 @@ static int replace_preds(struct event_subsystem *system,
                }
                pred = create_pred(elt->op, operand1, operand2);
+add_pred:
                if (!pred)
                        return -ENOMEM;
-                if (call) {
+                if (call)
-                        err = filter_add_pred(ps, call, pred);
+                        err = filter_add_pred(ps, call, pred, false);
-                        filter_free_pred(pred);
+                else
-                } else {
                        err = filter_add_subsystem_pred(ps, system, pred,
-                                                        filter_string);
+                                                filter_string, dry_run);
-                        if (err)
+                filter_free_pred(pred);
-                                filter_free_pred(pred);
-                }
                if (err)
                        return err;
@@ -1103,7 +1097,7 @@ int apply_event_filter(struct ftrace_event_call *call, char *filter_string)
                goto out;
        }
-        err = replace_preds(NULL, call, ps, filter_string);
+        err = replace_preds(NULL, call, ps, filter_string, false);
        if (err)
                append_filter_err(ps, call->filter);
@@ -1127,7 +1121,7 @@ int apply_subsystem_event_filter(struct event_subsystem *system,
        mutex_lock(&event_mutex);
        if (!strcmp(strstrip(filter_string), "0")) {
-                filter_free_subsystem_preds(system);
+                filter_free_subsystem_preds(system, FILTER_DISABLE_ALL);
                remove_filter_string(system->filter);
                mutex_unlock(&event_mutex);
                return 0;
@@ -1138,7 +1132,6 @@ int apply_subsystem_event_filter(struct event_subsystem *system,
        if (!ps)
                goto out_unlock;
-        filter_free_subsystem_preds(system);
        replace_filter_string(system->filter, filter_string);
        parse_init(ps, filter_ops, filter_string);
@@ -1148,9 +1141,23 @@ int apply_subsystem_event_filter(struct event_subsystem *system,
                goto out;
        }
-        err = replace_preds(system, NULL, ps, filter_string);
+        filter_free_subsystem_preds(system, FILTER_INIT_NO_RESET);
-        if (err)
+        /* try to see the filter can be applied to which events */
+        err = replace_preds(system, NULL, ps, filter_string, true);
+        if (err) {
                append_filter_err(ps, system->filter);
+                goto out;
+        }
+        filter_free_subsystem_preds(system, FILTER_SKIP_NO_RESET);
+        /* really apply the filter to the events */
+        err = replace_preds(system, NULL, ps, filter_string, false);
+        if (err) {
+                append_filter_err(ps, system->filter);
+                filter_free_subsystem_preds(system, 2);
+        }
 out:
        filter_opstack_clear(ps);
diff --git a/kernel/trace/trace_functions.c b/kernel/trace/trace_functions.c
index 75ef000613c3..5b01b94518fc 100644
--- a/kernel/trace/trace_functions.c
+++ b/kernel/trace/trace_functions.c
@@ -288,11 +288,9 @@ static int
 ftrace_trace_onoff_print(struct seq_file *m, unsigned long ip,
                         struct ftrace_probe_ops *ops, void *data)
 {
-        char str[KSYM_SYMBOL_LEN];
        long count = (long)data;
-        kallsyms_lookup(ip, NULL, NULL, NULL, str);
+        seq_printf(m, "%pf:", (void *)ip);
-        seq_printf(m, "%s:", str);
        if (ops == &traceon_probe_ops)
                seq_printf(m, "traceon");
diff --git a/kernel/trace/trace_functions_graph.c b/kernel/trace/trace_functions_graph.c
index 420ec3487579..3f4a251b7d16 100644
--- a/kernel/trace/trace_functions_graph.c
+++ b/kernel/trace/trace_functions_graph.c
@@ -52,7 +52,7 @@ static struct tracer_flags tracer_flags = {
        .opts = trace_opts
 };
-/* pid on the last trace processed */
+static struct trace_array *graph_array;
 /* Add a function return address to the trace stack on thread info.*/
@@ -166,10 +166,121 @@ unsigned long ftrace_return_to_handler(unsigned long frame_pointer)
        return ret;
 }
+static int __trace_graph_entry(struct trace_array *tr,
+                                struct ftrace_graph_ent *trace,
+                                unsigned long flags,
+                                int pc)
+{
+        struct ftrace_event_call *call = &event_funcgraph_entry;
+        struct ring_buffer_event *event;
+        struct ftrace_graph_ent_entry *entry;
+        if (unlikely(local_read(&__get_cpu_var(ftrace_cpu_disabled))))
+                return 0;
+        event = trace_buffer_lock_reserve(tr, TRACE_GRAPH_ENT,
+                                          sizeof(*entry), flags, pc);
+        if (!event)
+                return 0;
+        entry   = ring_buffer_event_data(event);
+        entry->graph_ent                        = *trace;
+        if (!filter_current_check_discard(call, entry, event))
+                ring_buffer_unlock_commit(tr->buffer, event);
+        return 1;
+}
+int trace_graph_entry(struct ftrace_graph_ent *trace)
+{
+        struct trace_array *tr = graph_array;
+        struct trace_array_cpu *data;
+        unsigned long flags;
+        long disabled;
+        int ret;
+        int cpu;
+        int pc;
+        if (unlikely(!tr))
+                return 0;
+        if (!ftrace_trace_task(current))
+                return 0;
+        if (!ftrace_graph_addr(trace->func))
+                return 0;
+        local_irq_save(flags);
+        cpu = raw_smp_processor_id();
+        data = tr->data[cpu];
+        disabled = atomic_inc_return(&data->disabled);
+        if (likely(disabled == 1)) {
+                pc = preempt_count();
+                ret = __trace_graph_entry(tr, trace, flags, pc);
+        } else {
+                ret = 0;
+        }
+        /* Only do the atomic if it is not already set */
+        if (!test_tsk_trace_graph(current))
+                set_tsk_trace_graph(current);
+        atomic_dec(&data->disabled);
+        local_irq_restore(flags);
+        return ret;
+}
+static void __trace_graph_return(struct trace_array *tr,
+                                struct ftrace_graph_ret *trace,
+                                unsigned long flags,
+                                int pc)
+{
+        struct ftrace_event_call *call = &event_funcgraph_exit;
+        struct ring_buffer_event *event;
+        struct ftrace_graph_ret_entry *entry;
+        if (unlikely(local_read(&__get_cpu_var(ftrace_cpu_disabled))))
+                return;
+        event = trace_buffer_lock_reserve(tr, TRACE_GRAPH_RET,
+                                          sizeof(*entry), flags, pc);
+        if (!event)
+                return;
+        entry   = ring_buffer_event_data(event);
+        entry->ret                              = *trace;
+        if (!filter_current_check_discard(call, entry, event))
+                ring_buffer_unlock_commit(tr->buffer, event);
+}
+void trace_graph_return(struct ftrace_graph_ret *trace)
+{
+        struct trace_array *tr = graph_array;
+        struct trace_array_cpu *data;
+        unsigned long flags;
+        long disabled;
+        int cpu;
+        int pc;
+        local_irq_save(flags);
+        cpu = raw_smp_processor_id();
+        data = tr->data[cpu];
+        disabled = atomic_inc_return(&data->disabled);
+        if (likely(disabled == 1)) {
+                pc = preempt_count();
+                __trace_graph_return(tr, trace, flags, pc);
+        }
+        if (!trace->depth)
+                clear_tsk_trace_graph(current);
+        atomic_dec(&data->disabled);
+        local_irq_restore(flags);
+}
 static int graph_trace_init(struct trace_array *tr)
 {
-        int ret = register_ftrace_graph(&trace_graph_return,
+        int ret;
-                                        &trace_graph_entry);
+        graph_array = tr;
+        ret = register_ftrace_graph(&trace_graph_return,
+                                    &trace_graph_entry);
        if (ret)
                return ret;
        tracing_start_cmdline_record();
@@ -177,49 +288,30 @@ static int graph_trace_init(struct trace_array *tr)
        return 0;
 }
+void set_graph_array(struct trace_array *tr)
+{
+        graph_array = tr;
+}
 static void graph_trace_reset(struct trace_array *tr)
 {
        tracing_stop_cmdline_record();
        unregister_ftrace_graph();
 }
-static inline int log10_cpu(int nb)
+static int max_bytes_for_cpu;
-{
-        if (nb / 100)
-                return 3;
-        if (nb / 10)
-                return 2;
-        return 1;
-}
 static enum print_line_t
 print_graph_cpu(struct trace_seq *s, int cpu)
 {
-        int i;
        int ret;
-        int log10_this = log10_cpu(cpu);
-        int log10_all = log10_cpu(cpumask_weight(cpu_online_mask));
        /*
         * Start with a space character - to make it stand out
         * to the right a bit when trace output is pasted into
         * email:
         */
-        ret = trace_seq_printf(s, " ");
+        ret = trace_seq_printf(s, " %*d) ", max_bytes_for_cpu, cpu);
-        /*
-         * Tricky - we space the CPU field according to the max
-         * number of online CPUs. On a 2-cpu system it would take
-         * a maximum of 1 digit - on a 128 cpu system it would
-         * take up to 3 digits:
-         */
-        for (i = 0; i < log10_all - log10_this; i++) {
-                ret = trace_seq_printf(s, " ");
-                if (!ret)
-                        return TRACE_TYPE_PARTIAL_LINE;
-        }
-        ret = trace_seq_printf(s, "%d) ", cpu);
        if (!ret)
                return TRACE_TYPE_PARTIAL_LINE;
@@ -565,11 +657,7 @@ print_graph_entry_leaf(struct trace_iterator *iter,
                        return TRACE_TYPE_PARTIAL_LINE;
        }
-        ret = seq_print_ip_sym(s, call->func, 0);
+        ret = trace_seq_printf(s, "%pf();\n", (void *)call->func);
-        if (!ret)
-                return TRACE_TYPE_PARTIAL_LINE;
-        ret = trace_seq_printf(s, "();\n");
        if (!ret)
                return TRACE_TYPE_PARTIAL_LINE;
@@ -612,11 +700,7 @@ print_graph_entry_nested(struct trace_iterator *iter,
                        return TRACE_TYPE_PARTIAL_LINE;
        }
-        ret = seq_print_ip_sym(s, call->func, 0);
+        ret = trace_seq_printf(s, "%pf() {\n", (void *)call->func);
-        if (!ret)
-                return TRACE_TYPE_PARTIAL_LINE;
-        ret = trace_seq_printf(s, "() {\n");
        if (!ret)
                return TRACE_TYPE_PARTIAL_LINE;
@@ -934,6 +1018,8 @@ static struct tracer graph_trace __read_mostly = {
 static __init int init_graph_trace(void)
 {
+        max_bytes_for_cpu = snprintf(NULL, 0, "%d", nr_cpu_ids - 1);
        return register_tracer(&graph_trace);
 }
diff --git a/kernel/trace/trace_sched_switch.c b/kernel/trace/trace_sched_switch.c
index a98106dd979c..e1285d7b5488 100644
--- a/kernel/trace/trace_sched_switch.c
+++ b/kernel/trace/trace_sched_switch.c
@@ -20,6 +20,34 @@ static int			sched_ref;
 static DEFINE_MUTEX(sched_register_mutex);
 static int                      sched_stopped;
+void
+tracing_sched_switch_trace(struct trace_array *tr,
+                           struct task_struct *prev,
+                           struct task_struct *next,
+                           unsigned long flags, int pc)
+{
+        struct ftrace_event_call *call = &event_context_switch;
+        struct ring_buffer_event *event;
+        struct ctx_switch_entry *entry;
+        event = trace_buffer_lock_reserve(tr, TRACE_CTX,
+                                          sizeof(*entry), flags, pc);
+        if (!event)
+                return;
+        entry   = ring_buffer_event_data(event);
+        entry->prev_pid                 = prev->pid;
+        entry->prev_prio                = prev->prio;
+        entry->prev_state               = prev->state;
+        entry->next_pid                 = next->pid;
+        entry->next_prio                = next->prio;
+        entry->next_state               = next->state;
+        entry->next_cpu = task_cpu(next);
+        if (!filter_check_discard(call, entry, tr->buffer, event))
+                trace_buffer_unlock_commit(tr, event, flags, pc);
+}
 static void
 probe_sched_switch(struct rq *__rq, struct task_struct *prev,
                        struct task_struct *next)
@@ -49,6 +77,35 @@ probe_sched_switch(struct rq *__rq, struct task_struct *prev,
        local_irq_restore(flags);
 }
+void
+tracing_sched_wakeup_trace(struct trace_array *tr,
+                           struct task_struct *wakee,
+                           struct task_struct *curr,
+                           unsigned long flags, int pc)
+{
+        struct ftrace_event_call *call = &event_wakeup;
+        struct ring_buffer_event *event;
+        struct ctx_switch_entry *entry;
+        event = trace_buffer_lock_reserve(tr, TRACE_WAKE,
+                                          sizeof(*entry), flags, pc);
+        if (!event)
+                return;
+        entry   = ring_buffer_event_data(event);
+        entry->prev_pid                 = curr->pid;
+        entry->prev_prio                = curr->prio;
+        entry->prev_state               = curr->state;
+        entry->next_pid                 = wakee->pid;
+        entry->next_prio                = wakee->prio;
+        entry->next_state               = wakee->state;
+        entry->next_cpu                 = task_cpu(wakee);
+        if (!filter_check_discard(call, entry, tr->buffer, event))
+                ring_buffer_unlock_commit(tr->buffer, event);
+        ftrace_trace_stack(tr, flags, 6, pc);
+        ftrace_trace_userstack(tr, flags, pc);
+}
 static void
 probe_sched_wakeup(struct rq *__rq, struct task_struct *wakee, int success)
 {
diff --git a/kernel/trace/trace_selftest.c b/kernel/trace/trace_selftest.c
index 00dd6485bdd7..d2cdbabb4ead 100644
--- a/kernel/trace/trace_selftest.c
+++ b/kernel/trace/trace_selftest.c
@@ -288,6 +288,7 @@ trace_selftest_startup_function_graph(struct tracer *trace,
         * to detect and recover from possible hangs
         */
        tracing_reset_online_cpus(tr);
+        set_graph_array(tr);
        ret = register_ftrace_graph(&trace_graph_return,
                                    &trace_graph_entry_watchdog);
        if (ret) {
diff --git a/kernel/trace/trace_stack.c b/kernel/trace/trace_stack.c
index 6a2a9d484cd6..0da1cff08d67 100644
--- a/kernel/trace/trace_stack.c
+++ b/kernel/trace/trace_stack.c
@@ -234,15 +234,8 @@ static void t_stop(struct seq_file *m, void *p)
 static int trace_lookup_stack(struct seq_file *m, long i)
 {
        unsigned long addr = stack_dump_trace[i];
-#ifdef CONFIG_KALLSYMS
-        char str[KSYM_SYMBOL_LEN];
-        sprint_symbol(str, addr);
+        return seq_printf(m, "%pF\n", (void *)addr);
-        return seq_printf(m, "%s\n", str);
-#else
-        return seq_printf(m, "%p\n", (void*)addr);
-#endif
 }
 static void print_disabled(struct seq_file *m)
diff --git a/kernel/trace/trace_stat.c b/kernel/trace/trace_stat.c
index aea321c82fa0..07c60b09258f 100644
--- a/kernel/trace/trace_stat.c
+++ b/kernel/trace/trace_stat.c
@@ -49,7 +49,8 @@ static struct dentry		*stat_dir;
 * but it will at least advance closer to the next one
 * to be released.
 */
-static struct rb_node *release_next(struct rb_node *node)
+static struct rb_node *release_next(struct tracer_stat *ts,
+                                    struct rb_node *node)
 {
        struct stat_node *snode;
        struct rb_node *parent = rb_parent(node);
@@ -67,6 +68,8 @@ static struct rb_node *release_next(struct rb_node *node)
                        parent->rb_right = NULL;
                snode = container_of(node, struct stat_node, node);
+                if (ts->stat_release)
+                        ts->stat_release(snode->stat);
                kfree(snode);
                return parent;
@@ -78,7 +81,7 @@ static void __reset_stat_session(struct stat_session *session)
        struct rb_node *node = session->stat_root.rb_node;
        while (node)
-                node = release_next(node);
+                node = release_next(session->ts, node);
        session->stat_root = RB_ROOT;
 }
diff --git a/kernel/trace/trace_stat.h b/kernel/trace/trace_stat.h
index f3546a2cd826..8f03914b9a6a 100644
--- a/kernel/trace/trace_stat.h
+++ b/kernel/trace/trace_stat.h
@@ -18,6 +18,8 @@ struct tracer_stat {
        int                     (*stat_cmp)(void *p1, void *p2);
        /* Print a stat entry */
        int                     (*stat_show)(struct seq_file *s, void *p);
+        /* Release an entry */
+        void                    (*stat_release)(void *stat);
        /* Print the headers of your stat entries */
        int                     (*stat_headers)(struct seq_file *s);
 };
diff --git a/kernel/trace/trace_workqueue.c b/kernel/trace/trace_workqueue.c
index 97fcea4acce1..40cafb07dffd 100644
--- a/kernel/trace/trace_workqueue.c
+++ b/kernel/trace/trace_workqueue.c
@@ -9,6 +9,7 @@
 #include <trace/events/workqueue.h>
 #include <linux/list.h>
 #include <linux/percpu.h>
+#include <linux/kref.h>
 #include "trace_stat.h"
 #include "trace.h"
@@ -16,6 +17,7 @@
 /* A cpu workqueue thread */
 struct cpu_workqueue_stats {
        struct list_head            list;
+        struct kref                 kref;
        int                         cpu;
        pid_t                       pid;
 /* Can be inserted from interrupt or user context, need to be atomic */
@@ -39,6 +41,11 @@ struct workqueue_global_stats {
 static DEFINE_PER_CPU(struct workqueue_global_stats, all_workqueue_stat);
 #define workqueue_cpu_stat(cpu) (&per_cpu(all_workqueue_stat, cpu))
+static void cpu_workqueue_stat_free(struct kref *kref)
+{
+        kfree(container_of(kref, struct cpu_workqueue_stats, kref));
+}
 /* Insertion of a work */
 static void
 probe_workqueue_insertion(struct task_struct *wq_thread,
@@ -96,8 +103,8 @@ static void probe_workqueue_creation(struct task_struct *wq_thread, int cpu)
                return;
        }
        INIT_LIST_HEAD(&cws->list);
+        kref_init(&cws->kref);
        cws->cpu = cpu;
        cws->pid = wq_thread->pid;
        spin_lock_irqsave(&workqueue_cpu_stat(cpu)->lock, flags);
@@ -118,7 +125,7 @@ static void probe_workqueue_destruction(struct task_struct *wq_thread)
                                                        list) {
                if (node->pid == wq_thread->pid) {
                        list_del(&node->list);
-                        kfree(node);
+                        kref_put(&node->kref, cpu_workqueue_stat_free);
                        goto found;
                }
        }
@@ -137,9 +144,11 @@ static struct cpu_workqueue_stats *workqueue_stat_start_cpu(int cpu)
        spin_lock_irqsave(&workqueue_cpu_stat(cpu)->lock, flags);
-        if (!list_empty(&workqueue_cpu_stat(cpu)->list))
+        if (!list_empty(&workqueue_cpu_stat(cpu)->list)) {
                ret = list_entry(workqueue_cpu_stat(cpu)->list.next,
                                 struct cpu_workqueue_stats, list);
+                kref_get(&ret->kref);
+        }
        spin_unlock_irqrestore(&workqueue_cpu_stat(cpu)->lock, flags);
@@ -162,9 +171,9 @@ static void *workqueue_stat_start(struct tracer_stat *trace)
 static void *workqueue_stat_next(void *prev, int idx)
 {
        struct cpu_workqueue_stats *prev_cws = prev;
+        struct cpu_workqueue_stats *ret;
        int cpu = prev_cws->cpu;
        unsigned long flags;
-        void *ret = NULL;
        spin_lock_irqsave(&workqueue_cpu_stat(cpu)->lock, flags);
        if (list_is_last(&prev_cws->list, &workqueue_cpu_stat(cpu)->list)) {
@@ -175,11 +184,14 @@ static void *workqueue_stat_next(void *prev, int idx)
                                return NULL;
                } while (!(ret = workqueue_stat_start_cpu(cpu)));
                return ret;
+        } else {
+                ret = list_entry(prev_cws->list.next,
+                                 struct cpu_workqueue_stats, list);
+                kref_get(&ret->kref);
        }
        spin_unlock_irqrestore(&workqueue_cpu_stat(cpu)->lock, flags);
-        return list_entry(prev_cws->list.next, struct cpu_workqueue_stats,
+        return ret;
-                          list);
 }
 static int workqueue_stat_show(struct seq_file *s, void *p)
@@ -203,6 +215,13 @@ static int workqueue_stat_show(struct seq_file *s, void *p)
        return 0;
 }
+static void workqueue_stat_release(void *stat)
+{
+        struct cpu_workqueue_stats *node = stat;
+        kref_put(&node->kref, cpu_workqueue_stat_free);
+}
 static int workqueue_stat_headers(struct seq_file *s)
 {
        seq_printf(s, "# CPU  INSERTED  EXECUTED   NAME\n");
@@ -215,6 +234,7 @@ struct tracer_stat workqueue_stats __read_mostly = {
        .stat_start = workqueue_stat_start,
        .stat_next = workqueue_stat_next,
        .stat_show = workqueue_stat_show,
+        .stat_release = workqueue_stat_release,
        .stat_headers = workqueue_stat_headers
 };