ChatGPT und Co.: Wie zuverlässig sind Informationen zu Krebstherapien?

In den vergangenen Jahren wurden dank der Möglichkeiten von künstlicher Intelligenz (KI) große Fortschritte im Bereich der Krebsdiagnostik erzielt – so kommen u.a. KI-basierte Modelle im Rahmen von Routinekoloskopien zum Einsatz. Allerdings gilt es, den Einsatz von KI angesichts des rasanten Tempos an immer neuen Entwicklungen sorgfältig zu prüfen. Eine Studie der Harvard Medical School in Boston ergab nun, dass vor allem bei den von ChatGPT ausgegebenen Informationen zur Krebsbehandlung Vorsicht geboten ist.

E learning technology concept. Online education, webinar, online — Viele Patienten nutzen inzwischen nicht mehr nur das Internet zur Selbstaufklärung, sondern auch Chatbots. Diese sind jedoch keine zuverlässige Quelle für Behandlungsinformationen, so die aktuelle Studie.

Für viele Patientinnen und Patienten erscheint es verlockend, bei Chatbots wie bspw. ChatGPT eine Auskunft auf ihre Fragen zur Krebsdiagnose und den therapeutischen Optionen zu erhalten. Dabei können die schnellen und detaillierten Antworten der Chatbots leicht darüber hinwegtäuschen, dass sie möglicherweise nicht immer zuverlässig und genau sind.

Eine Arbeitsgruppe um Shan Chen wertete nun die Leistung von Chatbots bei der Bereitstellung von Behandlungsempfehlungen für Brust-, Prostata- und Lungenkrebs aus, indem sie deren Übereinstimmung mit den Richtlinien des National Comprehensive Cancer Network (NCCN) verglichen. Dafür bewerteten drei zertifizierte Onkologen die Richtlinienkonkordanz des Chatbot-Outputs anhand von fünf Kriterien.

Um als übereinstimmend zu gelten, musste eine Ausgabe nicht alle möglichen Therapien empfehlen, aber der empfohlene Behandlungsansatz musste eine NCCN-Option sein. Da der Wissensstand des bewerteten Chatbots (ChatGPT) im September 2021 endete, verglichen die Autoren die Empfehlung des Chatbots entsprechend mit den NCCN-Richtlinien von 2021.

Über 12% der Antworten waren Halluzinationen der KI

Der Chatbot gab in 98% der Aufforderungen mindestens eine Therapieempfehlung ab, wobei der Output auch mindestens eine NCCN-konforme Behandlung enthielt. Bei 34,3% der Ausgaben, die mindestens eine Therapieempfehlung umfassten, empfahl der Chatbot allerdings auch eine oder mehrere nicht konkordante Behandlungen. Das bedeutet, etwa ein Drittel der vom Chatbot empfohlenen Behandlungen stimmte zumindest teilweise nicht mit den NCCN-Leitlinien überein.

Hinzu kommt, dass der Chatbot in 12,5% aller Ausgaben halluzinierte, das heißt, dass die ausgegebene Behandlungsempfehlung nicht mit den Empfehlungen der NCCN-Richtlinien übereinstimmte.

Fazit

Wenngleich die Studie mit ChatGPT nur einen von zahlreichen derzeit verfügbaren Chatbots bewertet hat, so seien die Ergebnisse dennoch wegweisend für den Umgang mit von Chatbots ausgegeben Behandlungsempfehlungen. Die Studienautoren fordern Ärzte dazu auf, Patienten vor einem unbedachten Umgang mit Chatbots in Bezug auf Therapieempfehlungen zu warnen: Es sei für Laien schwer, die falschen Empfehlungen zu erkennen. Sowohl Ärzte als auch Patienten müssten sich den Grenzen dieser Technologien bewusst sein.