Wenn Befragungen in die Irre führen…

Um das Kundenerlebnis oder das Nutzererlebnis zu untersuchen, greifen User Researcher:innen, Customer Experience Manager:innen und Marktforscher:innen in der Regel am liebsten zu Befragungen – unmoderiert oder moderiert. Das ist auch einfach zu begründen: ein Fragebogen oder Leitfaden ist relativ einfach erstellt, wenn man es einmal gemacht hat, und skaliert immens. Das heisst, wir können beliebig viele Menschen in überschaubarem Aufwand befragen. Wenn ich dann noch ein bisschen aufgepasst habe, wie ich das Befragungsinstrument erstellt habe, ist sogar die Auswertung relativ leicht. Zum Teil ist sie sogar auf Knopfdruck da. Das Problem ist, dass wir mit dem Befragen von Menschen viele implizite Annahmen machen, die das Ergebnis beeinflussen können. Hier sind einige dieser Annahmen und wie wir damit umgehen können.

Annahme 1: Menschen können sich selbst reflektieren

Wenn wir Menschen zu ihrem Verhalten oder ihrer Verhaltensabsicht befragen, setzen wir auf ihre Fähigkeit zur Selbstreflexion. Diese Fähigkeit ist bei uns jedoch recht unterschiedlich ausgeprägt. Sie zeigt sich darin, wie stark das, was ich von mir behaupte mit dem übereinstimmt, was ich tatsächlich tue. Auch Selbst- und Fremdbildunterschiede fallen hier hinein. Wenn wir einen Nutzertest machen, haben wir zum Beispiel eine Person vor uns, die von sich behauptet, unglaublich gut mit Technik umgehen zu können. Beim Blick auf ein Smartphone ziehen sich dann aber vor Angst die Pupillen zusammen. Das ist ein wichtiger Hinweis darauf, dass ein abzugebendes Gesamturteil dieser Person über das getestete System besser ausfallen wird, als es eigentlich ist.

Das liegt an diesem Bias (= systematischer Fehler bzw. Verzerrung), den die Antwort enthält. Da aber der Fehler weder in Grösse noch in der Systematik (war das heute nur Zufall?) untersucht werden kann, gibt es hinsichtlich der Daten nur zwei Möglichkeiten, darauf zu reagieren: Der Annahme weiter folgen, dass das die richtige Antwort war oder die Person aus der Stichprobe entfernen. Arbeiten wir kleinzahlig und in Zusammenhang mit Beobachtung (wie das in Nutzertests oder Contextual Inquiries üblich ist), haben wir die Chance, mit unserer Erfahrung hier richtig zu wählen oder den Verdacht einer Verschiebung in die Ergebnisinterpretation einfliessen zu lassen. Arbeiten wir mit unbegleiteten Befragungen (z.B. Online-Survey) und haben keine Möglichkeit, weitere Erkenntnisse zu gewinnen, bleibt die Annahme stehen. Fragt euch mal selbst, wenn ihr an 10 beliebige, euch bekannte Menschen denkt, wie viele von ihnen tatsächlich zur kritischen Selbstreflexion in der Lage sind. Übrigens ist das bei Befragungen von Kindern besonders relevant, da die Fähigkeit erst bei Jugendlichen und Heranwachsenden entwickelt wird.

Annahme 2: Menschen sind ehrlich

Ha! Wir lügen doch nicht! Nein, nur durchschnittlich 200mal am Tag, lehrte uns Prof. Stiegnitz, der den Begriff der Mentiologie prägte – die Lehre vom menschlichen Lügen. Und Frauen lügen etwa 20% weniger als Männer. Wir wissen ja aus vielen Berichten ums Lügen, dass das aus sozialen Gründen und der besseren Verträglichkeit im Alltag irgendwie so ist. Aber warum passiert es in Befragungen, wo sich Befragte:r und Befrager:in eigentlich gar nicht weh tun können? Das kann eine Menge Ursachen haben, nur zwei davon sind:

Soziale Erwünschtheit: Ich gebe die Antwort, weil ich denke, dass sie jemand von mir erwartet. Das passiert in Workshops, an denen Chefs teilnehmen. Das passiert bei gesellschaftskritischen oder politischen Inhalten und bei Fragen über andere Menschen, insbesondere solche, die mir persönlich bekannt sind.
Erinnerungsfehler: Wenn wir Menschen danach befragen, was sie in der Vergangenheit erlebt haben, können wir nicht ausschliessen, dass sie zwar überzeugt sind, uns die Wahrheit zu sagen, sie aber trotzdem verfälschen und das Erlebnis überzeichnen, entweder ins Positive oder ins Negative.

Auswirkungen auf die Nutzertests

Wenn ein Unternehmen die eigenen Kundinnen und Kunden beispielsweise dazu befragt, wie sie ihr letztes Beratungs-/Verkaufsgespräch empfunden haben, ist die Antwort in der Regel eine Wiederspiegelung ihrer Stammkundenbeziehung und/oder der Markenwirkung des Unternehmens – also meistens (erfahrungsgemäss) viel positiver als in der Realität. Wir spüren das auch in Nutzertests. Wenn wir im Detail durch eine Applikation mit Testaufgaben führen, wird die Applikation beispielsweise nur als durchschnittlich bewertet. Ist dem Tester bzw. der Testerin das Unternehmen allgemein positiv bekannt oder sind Protagonist:innen des Unternehmens dem Tester bzw. der Testerin sympathisch (z.B. der zuständige Kundendienstmitarbeiter), wird das subjektive Gesamturteil aber besser sein als die Detailergebnisse.

Nach Nutzertests haben wir in der Ergebnisinterpretation von subjektiv beantworteten Fragen die Möglichkeit, auf diesen Effekt einzugehen und ihn entsprechend zu diskutieren. In unmoderierten Befragungen haben wir diese Möglichkeit wieder nicht, im Besonderen nicht auf der einzelnen Antwort. Bei der Ergebnisdiskussion sollte vor diesem Hintergrund ein Bias, also ein möglicher systematischer Fehler, daher stets thematisiert werden. Was, wenn die Zufriedenheit systematisch einen Punkt niedriger wäre als angegeben? Erscheinen dann zum Beispiel offene Kommentare in einem anderen Licht? In der Praxis werden wir den systematischen Fehler nicht bestimmen können, weil uns das zu viel Zeit und/oder Geld kostet. Daher sollten wir uns die zwei Minuten «was wäre wenn» ruhig gönnen.

Annahme 3: Die Methode ist über jeden Zweifel erhaben

Eine anonyme, unmoderierte Befragung kommt leider nicht selten allein, also oft. Aus meinen Erfahrungen mit Ergebnissen solcher Umfragen und wie sie in einem Unternehmen reflektiert werden, ist das der Anfang des koordinierten Stillstandes. Zweifelsohne lässt sich streiten, ob diese quantitativ angelegten, grosszahligen Befragungen Hypothesen über Kunden- und Nutzerverhalten generieren oder prüfen (beides geht). Aber es braucht auf jeden Fall für UX und CX einen qualitativen Begleiter, zum Beispiel Contextual Inquiries, in denen «Warum?» gefragt wird. Zudem gibt es Bereiche, die sich durch (quantitative) Befragungen nicht erschliessen lassen, eben wegen der vielen Effekte, die die Ergebnisse verfälschen. Meiner Erfahrung nach ist das Beratungsgespräch genau so etwas. Befragen wir Berater:innen oder Kundinnen und Kunden über Beratungsgespräche, hat ihr subjektiver Eindruck nur wenig mit dem zu tun, was wirklich in der Situation passiert.

Eine Kombination von Befragung (subjektiv) und Beobachtung (objektiv) eignet sich, um kritisch mit möglichen Effekten umzugehen. Dabei ist es zusätzlich hilfreich, wenn mehrere beobachtende und befragende Personen eingesetzt werden, damit nicht der nächste Effekt auf sich wartet wie der Versuchsleitereffekt. Ein gemeinsames moderiertes Debriefing der Befrager hilft, Mythos und eigene Überzeugung von echten Beobachtungen zu trennen.

Annahme 4: Fragebogen ist Fragebogen und hat nichts mit CX zu tun

Die Formulierung der Fragen beeinflusst zusätzlich:

Fachjargon, bei dem sich Befragte keine Blösse geben wollen und trotzdem antworten,
komplizierte Formulierungen, in denen sich der Befrager oder die Befragerin verewigen wollte,
vorgegebene Tendenzen oder Suggestionen,
kognitiv anspruchsvolle Formen der Fragestellungen wie die doppelte Verneinung
v.m.

Hier hilft, was auch bei unseren Prototypen hilft: das Instrument zu testen mit einigen wenigen Personen, die das Instrument nicht erstellt haben. Und wenn der Fragebogen mal wieder zu lang ist, hilft, was bei überfüllten Screens hilft. Sich zu fragen, was denn die zentrale Fragestellung ist, das Eine, was insgesamt wichtig ist. Kann ich die Daten über andere Informationen anreichern? Demographische Fragen zum Beispiel können schon beim Rekrutieren beantwortet werden. Das spart Zeit für das Wesentliche. Die Customer Experience der Kund:innen, die wir für Befragungen einbeziehen, wird auch vom Touchpoint Fragebogen beeinflusst! Wär doch schön, wenn ihr Erlebnis mit der Befragung nicht ein totaler Tiefpunkt wird!

Annahme 5: Zuhörende haben keinen Effekt auf ein Interview

Es ist richtig, dass in den meisten Fällen Zuhörende im selben Raum nicht wirklich ein Problem darstellen. Wenn jedoch eine Beziehung vorhanden ist, zum Beispiel gleiches Team, Vorgesetzte:r, Mitarbeitende oder Familienmitglied hat die zuhörende Person einen Effekt auf die Befragungsergebnisse. Die Frage ist, wie dramatisch der Effekt sein wird. In der Regel sollten Zuhörende deshalb in einen anderen Raum verschoben werden und durch Übertragung zuhören. Bei unbegleiteten Befragungen haben wir leider keinen Einfluss auf die Umgebung. Aus Telefoninterviews kann ich aber berichten, dass ein im Hintergrund bellender Hund, der gern «Gassi» will oder der Gatte, der nach dem Abendessen fragt, durchaus Störer sind. In moderierten Nutzertests gehen wir zudem davon aus, dass der Testleiter bzw. die Moderatorin lediglich bei der Aufgabenberücksichtigung und beim Zeitmanagement unterstützt und die Tester:innen nicht beeinflusst.

Wenn ein Tester aber weiss, dass er ein Tester ist, kann das sein Verhalten und seine Entscheide in der Testsituation beeinflussen – der Hawthorne-Effekt. Er könnte sich mehr Mühe geben und deshalb die Aufgaben besser bewältigen als in der Realität. Tatsächlich passiert das in der Praxis so gut wie nie. Der Nutzertest kann von diesem Effekt befreit werden, wenn wir den Nutzenden kein Feedback zu ihrer Leistung geben (z.B.: «gut gefunden!») und tatsächlich komplett neutral bleiben, aber auch indem wir den Blick auf die Probleme lenken. Dass Nutzende mit etwas nicht zurechtkommen, etwas nicht finden oder sich davon verwirren lassen, lässt sich nur schlecht vortäuschen oder überspielen.

Was kann man tun?

Womit lassen sich also den 5 Annahmen begegnen, ausser sich ihnen bewusst zu sein:

Befragungen, wenn es irgend möglich ist, mit weiteren Methoden kombinieren – das Contextual Inquiry ist ein gutes Beispiel
und das sollten wiederum nur Menschen tun, die sich mit der Datenerhebung und Auswertung, Interpretation und dem Kontext dafür auskennen

Das bisschen Befragen kann doch jeder!? Ja, Befragen kann man noch rasch lernen. Zwei, drei Mal als Beobachter:in dabei, dann ein paar Mal mit Feedback eines senioren Researchers bzw. einer senioren Researcherin und dann geht das. Das Erstellen eines guten Befragungsinstruments und die Analyse der Daten sollte dann jemand tun, der tatsächlich auf dem Gebiet zurecht kommt. So lassen sich über rein deskriptive Erkenntnisse noch tiefere Informationen ausgraben. Bei der kontextsensitiven Interpretation wird es jetzt besonders tricky. Ein Researcher, der das Thema, um das es geht, nicht versteht, das Produkt nicht richtig kennt oder die Grundlagen von Nutzer- und Kundenerlebnis nicht versteht, wird andere Einsichten (oft generischere) liefern, als jemand der diese Kenntnisse hat.

Von Susanne

Wenn Befragungen in die Irre führen…

Annahme 1: Menschen können sich selbst reflektieren

Annahme 2: Menschen sind ehrlich

Auswirkungen auf die Nutzertests

Annahme 3: Die Methode ist über jeden Zweifel erhaben

Annahme 4: Fragebogen ist Fragebogen und hat nichts mit CX zu tun

Annahme 5: Zuhörende haben keinen Effekt auf ein Interview

Was kann man tun?

Business Process Reengineering - menschzentriert!

Erst Wireframe Library, dann Erstaunliches aus dem Designprozess – Ein Fundstück aus unserem Lab

Welche Auswirkungen hat Empathie auf das Kundenerlebnis?