Feynmans Formel für optimale Dining-Experience

Unter Physikern nehmen zunächst harmlose Konversationen manchmal einen etwas seltsamen Verlauf – ein Umstand, der die Sitcom „The Big Bang Theory“ durch zwölf Staffeln getragen hat. An einem Abend am Ende der Siebzigerjahre zum Beispiel besuchte Richard Feynman (1918 bis 1988), einer der Väter der modernen Quantenfeldtheorie, mit seinem Freund Ralph Leighton das Thai-Restaurant „Indra“ in Glendale bei Los Angeles.

Leighton fragte sich, ob er wieder sein Standardgericht Hühnchen mit Ingwer bestellen oder mal etwas anderes probieren sollte. Zwischen Feynman und Leighton entspann sich nun offenbar eine Diskussion über ein allgemeineres Problem: Wer oft hintereinander ein Restaurant mit umfangreicher Speisekarte aufsucht, wird bei seinen ersten Besuchen mal dieses, mal jenes Gericht probieren, dann aber bei dem bleiben, was er bis dahin am liebsten mochte. Aber nach dem wievielten Restaurantbesuch sollte dieser Strategiewechsel vom Erkunden (exploration) der Optionen zum Ausnutzen (exploitation) des bislang Erfahrenen stattfinden, um die kumulative Dinner-Erfahrung – also den addierten Genuss vieler Restaurantbesuche – zu optimieren?

Algebra beim Abendessen

Feynman zog Stift und Notizpapier hervor und löste das Problem auf zwei Seiten. Die Zettel blieben erhalten, wurden aber erst jetzt von Thomas Griffiths, einem Professor für Computer-Kognitionswissenschaft der Princeton University, und zwei Psychologen aus Oxford und New York entziffert und in der Fachzeitschrift PNAS veröffentlicht.

In ihrem Artikel zeigen Griffiths und Kollegen, dass Feynmans Lösung tatsächlich die optimale ist, präsentieren weitere Lösungen für allgemeinere Fälle und führen ein psychologisches Experiment durch, um die theoretisch optimale Strategie mit dem Vorgehen zu vergleichen, das Menschen in solchen Fällen tatsächlich an den Tag legen.

Dabei untersuchten sie allerdings eine etwas andere, mathematisch jedoch völlig äquivalente Situation: Angenommen, jemand reist für eine bestimmte Zahl von Tagen in eine andere Stadt und geht dort jeden Abend essen. Zunächst erkundet er immer andere Restaurants. Nach Griffiths’ Interpretation der Notizen aus Glendale hatte Feynman angenommen, die Qualität der Gerichte auf der Speisekarte sei mit einer Zahl zwischen null und eins zu bewerten und die Bewertungen seien alle gleich wahrscheinlich.

Wann soll man sich mit dem bisher Besten zufriedengeben?

Setzt man nun das Gleiche für die Qualität der Restaurants voraus – nimmt also an, es sei nicht wahrscheinlicher oder unwahrscheinlicher, auf ein besseres Restaurant zu treffen als auf ein schlechtes –, dann gibt es einen Schwellenwert tn der Restaurantqualität. Soll heißen: Bei einer bestimmten Zahl n der Abende, die man in jener Stadt noch vor sich hat, sollte man nicht mehr wechseln, sondern nun immer in demselben Restaurant essen, in dem man zum ersten Mal eine Qualität tn oder besser feststellt. Wie Feynman herausgefunden hatte, berechnet sich tn als Quadratwurzel von n geteilt durch eins plus die Quadratwurzel von n.

Dieser Schwellwert tn wird umso niedriger, je weniger Abende man noch vor sich hat. Denn je länger man bereits in der Stadt ist, desto geringer die Motivation, noch was Neues auszuprobieren, um doch noch das ganz tolle Restaurant zu finden. Denn selbst wenn man es fände, bliebe nur noch wenig Zeit, um dieses dann zu genießen. Besser, man gibt sich irgendwann mit der besten der gastronomischen Einrichtungen zufrieden, die man bis dahin ausprobiert hat.

Das „Sekretärinnenproblem“

Damit gehört die Feynman’sche Restaurant-Frage einer Klasse entscheidungstheoretischer Probleme an, die unter dem Titel „optimal stopping“ laufen. Hier ist eine Entscheidung zwischen Optionen zu treffen, die man nicht alle vergleichen kann, weil eine Anzahl davon noch nicht bekannt ist. Exemplarisch ist dafür das „Sekretärinnen-Problem“.

Hier sucht jemand eine Bürokraft, lädt Kandidatinnen nacheinander zum Vorstellungsgespräch ein, muss dann aber sofort entscheiden, ob die Bewerberin den Job bekommt oder nicht – etwa weil der Arbeitsmarkt so leer gefegt ist, dass Bewerberinnen, die nicht gleich eine Zusage bekommen, sogleich nicht mehr zur Verfügung stehen. Das ist ein allenfalls marginal realistisches Szenario, aber dafür lässt sich hier mit ziemlich elementaren mathematischen Mitteln eine optimale Strategie finden: Demnach lehne man die ersten 37 Prozent der Kandidatinnen ab und wähle danach diejenige, die besser ist als alle, die sich bis dahin vorgestellt haben.

Das ist dann der goldene Mittelweg zwischen „nimm die Erstbeste“ und „hoffe bis zum Schluss auf die Traumkandidatin“. Zuweilen wird das Sekretärinnen-Problem auch als „Heiratsproblem“ bezeichnet, insofern die Weisheit „drum prüfe, wer sich ewig bindet, ob er nicht doch was Besseres findet“ sich nicht unbegrenzt beherzigen lässt.

Sind die meisten Restaurants mies, lohnt sich längeres erkunden

Auch im Restaurant-Problem wird ein Mittelweg gesucht, diesmal zwischen einer „exploration“, die zu viel ausprobiert, was die Gesamtbilanz trübt – und einer „exploitation“, die zu wenig ausprobiert und der damit zu viel entgeht. Allerdings geht es hier nicht darum, ein bestmögliches Restaurant (oder Gericht) zu identifizieren, sondern um die Optimierung eines kumulativen Erfolgs. Zudem ist die Verteilung der Wahrscheinlichkeiten, auf ein besseres oder schlechteres Restaurant zu treffen, vorgegeben.

Feynman hatte diese Verteilung als konstant angenommen. Griffiths und Kollegen haben auch drei andere Fälle untersucht und Formeln für den Schwellenwert tn gefunden. In einem davon gibt es in jener Stadt exponentiell mehr schlechtere als bessere Restaurants. Dann liegt der Schwellenwert für ein bestimmtes n deutlich über dem Feynman’schen Fall einer Gleichverteilung. Denn ist die Wahrscheinlichkeit höher, in ein schlechteres Gasthaus zu geraten, lohnt es sich, länger im Erkundungsmodus zu bleiben. Denn dann hat man bessere Chancen, in der zur Verfügung stehenden Zeit doch noch halbwegs passabel zu dinieren.

Schließlich wollten die Autoren noch wissen, wie echte Menschen mit dem Problem umgehen. Ihre 2520 Probanden schickten sie aber nicht tatsächlich in Restaurants, sondern simulierten die Situation mit Methoden der experimentellen Psychologie. Eine Gruppe hatte 28 Abende in der imaginierten Stadt voller Restaurants mit verschieden verteilten Qualitäten zu verbringen, eine andere 14 und eine dritte sieben Abende.

Wie erwartet unterschieden sich die Schwellenwerte, bei denen die Teilnehmer typischerweise von der „exploration“ zur „exploitation“ übergingen, von denen der Theorie – aber erstaunlicherweise nicht sehr: Die tn waren bei echten Menschen lineare Funktionen von n – die Schwellenwerte waren also proportional zur Anzahl der verbliebenen Abende. Doch diese linearen Funktionen näherten sich den komplizierteren der mathematischen Theorie – also etwa Feynmans Quadratwurzel-Ausdruck – über den größten Teil des Wertebereiches von n recht passabel an.

Menschen haben also offenbar eine ganz gute Intuition dafür, wann sie das Experimentieren besser sein lassen und bei dem bleiben, was sich als das bis dahin Beste erwiesen hat. Allerdings mit einer interessanten Abweichung: Für große n – also wenn die meisten Restaurant-Abende in der fremden Stadt noch vor ihnen lagen – waren die Probanden signifikant erkundungsfreudiger, als es optimal gewesen wäre. Es scheint, als opferten sie intuitiv ein Stück ihres am Ende erzielbaren Erfolgs für die Möglichkeit, am Anfang mehr ausprobieren zu können. Vielleicht ist der Mensch eben einfach gerne neugierig und bereit, einen Preis dafür zu zahlen.