Aktuelles, Experten, Studien - geschrieben von dp am Samstag, Mai 9, 2026 0:28 - noch keine Kommentare

Code-Test mittels LLMs: Komplexität Großer Sprachmodelle muss sich lohnen

Tags: BIFOLD, Große Sprachmodelle, KI, Komplexität, LLM, Programmcode, Quellcode, Software

BIFOLD zeigte in einer Studie auf, dass einfache Code-Analysemethoden in manchen Fällen durchaus mit LLMs mithalten können

[datensicherheit.de, 09.05.2026] Fast jeder von Software unterstützten Alltagstätigkeit liegen heute Tausende Zeilen Programmcode zugrunde – egal ob z.B. bei der App für das Online-Banking, das Patienten-Web-Portal einer Klinik oder die Software im eigenen Auto: Ein einziger unentdeckter Fehler im Code kann dann zu Sicherheitslücken mit teils gravierenden Auswirkungen führen, beispielsweise zum Abgreifen sensibler Daten oder gar Ausfall kritischer Systeme. Um solche Systeme vor ihrem Einsatz zu überprüfen, werden heute oft sogenannte Große Sprachmodelle („Large Language Models“ / LLMs) eingesetzt. Ein Forschungsteam vom „Berlin Institute for the Foundations of Learning and Data“ (BIFOLD) an der TU Berlin hat nun aber in einer aktuellen Studie aufgezeigt, dass sich der immense technische Aufwand dieser LLMs nicht immer auszahlt.

bifold-abstract-llm-based-vulnerability-discovery-through-the-lens-of-code-metrics

Abbildung: BIFOLD

Abstract der Studie „LLM-based Vulnerability Discovery through the Lens of Code Metrics“

Bislang immer größere und komplexere LLMs mit immer mehr Parametern eingesetzt

Die Publikation „LLM-based Vulnerability Discovery through the Lens of Code Metrics“ von Felix Weißberg, Lukas Pirch, Erik Imgrund, Jonas Möller, Dr. Thorsten Eisenhofer und Prof. Dr. Konrad Rieck wurde demnach jetzt auf der „48th IEEE/ACM International Conference on Software Engineering (ICSE) 2026“, einer der weltweit wichtigsten Konferenzen im Bereich Softwaretechnik, vorgestellt.

Felix Weißberg, Lukas Pirch, Erik Imgrund, Jonas Möller, Thorsten Eisenhofer, Konrad Rieck: LLM-based Vulnerability Discovery through the Lens of Code Metrics. Proceedings of the 48th IEEE/ACM International Conference on Software Engineering (ICSE), 2026.

Große Sprachmodelle gelten allgemein als besonders leistungsfähig, wenn es darum geht, Programmcode zu erzeugen, zu verstehen und vor allem auch zu analysieren. Unter der Annahme, dass bei der Analyse von Code mehr Komplexität auch bessere Ergebnisse bringt, konzentrierte sich die Forschung in den vergangenen Jahren darauf, immer größere und komplexere Modelle mit immer mehr Parametern zu bauen.

Klassisches Erkennungssystem kann bereits 98% der Erkennungsrate der besten modernen LLMs erreichen

Das BIFOLD-Team hat nun in seiner Arbeit die Gegenfrage gestellt: „Welchen Mehrwert bringen diese großen Modelle, verglichen mit der Analyse von einfachen, sogenannten Code-Metriken, die bereits seit den 1970er Jahren eingesetzt werden?“ Code-Metriken sind einfache, quantitative Kennzahlen, die zum Beispiel die Größe des Quellcodes in Zeilen oder Zeichen nennen; komplexere Metriken versuchen die Verständlichkeit des Quellcodes zu beurteilen.

„Nach dem Grundsatz ,Korrelation ist nicht gleich Kausalität‘ können solche Metriken nur einen Hinweis auf eine mögliche Schwachstelle geben, sie sind aber kein direkter Nachweis”, so Mit-Autor Lukas Pirch. Im Gegensatz dazu sollten LLMs inhaltlich „verstehen“, was ein Stück Code tut.

Das zentrale Ergebnis der Studie: Ein klassisches Erkennungssystem, welches sich auf lediglich 23 Code-Metriken stütze, erreiche bereits 98 Prozent der Erkennungsrate der besten modernen LLMs und benötige dafür nur sechs Prozent der Parameter. Selbst ein nur auf eine einzige Metrik beschränktes Erkennungssystem erziele noch mehr als 90 Prozent der Erkennungsleistung eines deutlich ressourcen-aufwändigeren Sprachmodells.

Frage, ob immense Größe heutiger LLMs überhaupt notwendig ist

„Für die IT-Sicherheit sind das gute Nachrichten: Vielleicht können wir viele Fehler in Software auch mit weniger Ressourcen finden und beheben“, kommentiert der Team-Leiter, Konrad Rieck. In einem zweiten Schritt untersuchten die Wissenschaftler die Ursache für diesen auffälligen Gleichstand.

Mit-Autor Felix Weißberg berichtet: „Mithilfe statistischer Verfahren konnten wir zeigen, dass sämtliche untersuchten LLMs Code-Metriken einsetzen oder sehr ähnliche Muster haben und ihre Vorhersagen eng mit diesen korrelieren. Für einige Modelle konnten wir sogar starke Indikatoren für eine Kausalität nachweisen: Die Entscheidungen der LLMs beruhte, zumindest teilweise, auf den simplen, seit Jahrzehnten bekannten Mustern.”

„Dass der Unterschied zwischen beiden Ansätzen unter realistischen Bedingungen so klein ist, hat uns überrascht”, so Riecks Fazit zu den Ergebnissen seines Teams. Er erläutert: „Unsere Ergebnisse zeigen, dass die jüngsten Fortschritte bei der Erkennung von Schwachstellen mittels KI weniger auf die Fähigkeiten der LLMs selbst zurückgehen als auf die Werkzeuge und die Umgebung, in denen sie operieren. Es stellt sich daher die Frage, ob die immense Größe heutiger Modelle für diese Aufgabe überhaupt notwendig ist.“

Weitere Informationen zum Thema:

BIFOLD
BIFOLD Institute / About BIFOLD: Cross-linking Machine Learning and Big Data Management

BIFOLD
Lukas Pirch

BIFOLD
Prof. Dr. Konrad Rieck

BIFOLD MLSEC
Felix Weißberg

ICSE ’26, Rio de Janeiro, Brazil
LLM-based Vulnerability Discovery through the Lens of Code Metrics

datensicherheit.de, 05.05.2026
Berliner KI-Forschung: BIFOLD Day 2026 im neuen Zuhause / Der neue Standort wird am 6. Mai 2026 von der Berliner Senatorin für Wissenschaft, Gesundheit und Pflege, der TUB-Präsidentin und BIFOLD-CO-Direktor Professor Müller offiziell eröffnet

Kommentare sind geschlossen.

Aktuelles, Experten, Studien - geschrieben von dp am Samstag, Mai 9, 2026 0:28 - noch keine Kommentare

Code-Test mittels LLMs: Komplexität Großer Sprachmodelle muss sich lohnen

Bislang immer größere und komplexere LLMs mit immer mehr Parametern eingesetzt

Klassisches Erkennungssystem kann bereits 98% der Erkennungsrate der besten modernen LLMs erreichen

Frage, ob immense Größe heutiger LLMs überhaupt notwendig ist

Kooperation

Mitgliedschaft

Mitgliedschaft

Multiplikator

Aktuelles, Experten, Studien - Mai 9, 2026 0:28 - noch keine Kommentare

Code-Test mittels LLMs: Komplexität Großer Sprachmodelle muss sich lohnen

weitere Beiträge in Experten

Aktuelles, Branche - Mai 7, 2026 0:41 - noch keine Kommentare

Vermeintlicher Tech Support: Scam-Kampagne adressiert C-Level in Unternehmen

weitere Beiträge in Branche

Aktuelles, A, Experten, Service, Wichtige Adressen - Jan. 13, 2026 1:08 - noch keine Kommentare

Registrierung bei ELEFAND: Krisen- und Katastrophenvorsorge bei Auslandsaufenthalten

weitere Beiträge in Service