Potenzial und Grenzen von ChatGPT beim Zusammenfassen medizinischer Forschung für Ärzte

Große Sprachmodelle (LLMs) sind nichtlineare, neuronale Netzidentitäten, die sich auf detaillierte statistische Verstehensweise der geschriebenen Sprache stützen. Sie stellen unterschiedliche Anforderungen dar, wie Textgenerierung, Zusammenfassung, Softwareentwicklung oder Prognosestellung. Manchmal enthalten sie jedoch scheinbar korrekte, aber objektiv falsche Aussagen.

Potenzial und Grenzen von ChatGPT

Diese Arbeit fragt danach, ob ein populäres LLM – ChatGPT-3.5 – qualitativ hochwertige, präzise und neutrale Zusammenfassungen von medizinischen Forschungsarbeiten erstellen und über die Relevanz verschiedener Zeitschriften in verschiedenen Fachbereichen der Medizin entscheiden kann. Zehn Artikel aus dem Jahr 2022 wurden nach dem Zufall aus jeweils vierzehn gewählten Journals ausgewählt. Darin wurde dann ChatGPT aufgefordert eine Übersicht zu machen als Reflexion seiner eigenen Schlussfolgerungen hinsichtlich ihrer Qualität, Richtigkeit und Vorurteil sowie deren diagnostische Performance zur Klassifizierung der Artikel/Zeitschriften in den verschiedenen Bereichen der Medizin (Kardiologie, Atemwegserkrankungen, Familienmedizin, Innere Medizin (Inn), Public Health Medicine: Primärversorgung Neurologie Psychiatrie Geburtshilfe/Gynäkologie Allgemeine Chirurgie).

Auch menschlichen Ärzten sagte man die Qualität der Abstracts und die richtige Zuordnung des Journals und des Artikels zu einem bestimmten Gebiet der Medizin voraus. Insgesamt wurden die Ergebnisse von 140 Abstracts aus 14 Fachzeitschriften zusammengefasst. ChatGPT erzeugte Abstrakte, die um 70% kürzer waren als das Original. Es wurde sowohl von ChatGPT als auch von den Gutachtern als qualitativ hochwertig, genau und nicht vorurteilshaft eingestuft. Vier von einhundertvierzig dieser Zusammenfassungen wiesen gravierende Fehler auf. Minimale Ungenauigkeit wurde in zwanzig Fällen unter den hundertvierzig festgestellt.

Obwohl ChatGPT in der Lage war, Zeitschriften mit den relevanten medizinischen Fachgebieten zu korrelieren, konnte es dies nicht für bestimmte Artikel tun. Die Schlussfolgerung ist somit, dass die Abstracts einige selten vorkommende jedoch bedeutende Unvollkommenheiten enthalten, was sie als gültige Quelle ausschließt.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen
-->