­čĺÖ Help Ukraine, click for information ­čĺŤ
Cover Image

Die Evolution der KI-Sprachmodelle: Eine Studie ├╝ber das Verhalten von GPT-4 und GPT-3.5

Die fortschreitende Entwicklung der K├╝nstlichen Intelligenz (KI) wird nicht nur durch die Produktion immer leistungsf├Ąhigerer Modelle erkennbar, sondern auch durch die dynamische Ver├Ąnderung des Verhaltens bestehender Modelle im Laufe der Zeit. Eine k├╝rzlich durchgef├╝hrte Studie untersuchte die Drifts, d.h. Ver├Ąnderungen im Verhalten, von zwei Schl├╝ssel-KI-Sprachmodellen von OpenAI, GPT-4 und GPT-3.5, ├╝ber einen Zeitraum von einigen Monaten. Dieser Blog-Beitrag fasst die wichtigsten Ergebnisse dieser Untersuchung zusammen, die du hier finden kannst und ├╝ber welche Golem auch berichtete.

Untersuchung der Denkketten-Effekte

Die Studie zeigte eine signifikante Ver├Ąnderung in der Genauigkeit und Verbosit├Ąt beider Modelle im Verlauf von M├Ąrz bis Juni. Die Forscher schlugen vor, dass diese Unterschiede auf die Drifts der sogenannten "Denkketten-Effekte" zur├╝ckzuf├╝hren sein k├Ânnten. Im M├Ąrz konnte GPT-4 eine Aufgabe, wie die Pr├╝fung, ob eine Zahl eine Primzahl ist, erfolgreich in mehrere Schritte zerlegen und das korrekte Ergebnis liefern. Bis Juni jedoch, schien die Kette der Denkprozesse nicht mehr zu funktionieren, und das Modell produzierte eine einfache, falsche Antwort.

Ähnlich verhielt es sich mit GPT-3.5, das ursprünglich dazu neigte, zuerst eine falsche Antwort zu generieren und dann die korrekten Denkschritte durchzuführen. Mit der Juni-Version schien dieses Problem behoben zu sein, da das Modell zuerst die Denkschritte durchlief und dann die korrekte Antwort generierte.

Reaktion auf sensible Fragen und Schutzma├čnahmen

Ein weiterer wichtiger Aspekt, den die Studie untersuchte, war die Reaktion der KI-Modelle auf sensible Fragen. Dabei stellten die Forscher fest, dass GPT-4 im Juni weniger sensible Fragen beantwortete als im M├Ąrz, w├Ąhrend GPT-3.5 mehr sensible Fragen beantwortete. Dies deutet darauf hin, dass GPT-4 m├Âglicherweise eine st├Ąrkere Sicherheitsschicht im Juni-Update erhielt, w├Ąhrend GPT-3.5 weniger konservativ wurde.

Code-Generierung und visuelles Reasoning

Die F├Ąhigkeit der Modelle, ausf├╝hrbaren Code zu generieren, war ein weiterer Bereich, der untersucht wurde. Hier zeigte sich ein signifikanter R├╝ckgang in der Anzahl der direkt ausf├╝hrbaren Code-Generationen von M├Ąrz bis Juni f├╝r beide Modelle.

Zum Schluss wurde auch die F├Ąhigkeit zur visuellen Argumentation untersucht, wobei nur marginale Verbesserungen f├╝r beide Modelle festgestellt wurden.

Schlussfolgerungen und Ausblick

Die Studie zeigte deutlich, dass das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit erheblich variiert hat. Das unterstreicht die Notwendigkeit, das Verhalten von KI-Modellen in Produktionsanwendungen kontinuierlich zu bewerten und zu beurteilen.

F├╝r Nutzer oder Unternehmen, die auf KI-Sprachmodelle in ihrem Arbeitsablauf angewiesen sind, empfehlen die Forscher daher, ├Ąhnliche ├ťberwachungsanalysen durchzuf├╝hren, um sicherzustellen, dass die KI-Dienste nach wie vor zuverl├Ąssig und sicher sind.

Das Bewusstsein f├╝r diese sogenannte "KI-Drift" und das Verst├Ąndnis ihrer Implikationen sind entscheidend, um die Sicherheit und Effektivit├Ąt von KI-Modellen in der Praxis zu gew├Ąhrleisten. Es zeigt auch, dass die Entwicklung der KI nicht nur in der Produktion neuer Modelle, sondern auch in der kontinuierlichen Anpassung und Verbesserung bestehender Modelle zu sehen ist.