Large Language Models (LLM) basieren auf künstlichen neuronalen Netzwerken, die speziell für die Verarbeitung natürlicher Sprache entwickelt wurden. Inspiriert von der Funktionsweise des menschlichen Gehirns, unterscheiden sich ihre Algorithmen jedoch grundlegend von biologischen Neuronen. Dieser Artikel blickt auf die Technologie hinter LLMs und gibt Tipps für bessere Prompts.

Begriffe in der Übersicht

  • Künstliche Intelligenz (KI) dient als Überbegriff für Technologien, die nicht nur vorprogrammierte Abläufe abarbeiten, sondern aus Daten lernen und komplexe Probleme lösen – Aufgaben, die bisher menschliche Intelligenz erforderten.
  • Maschinelles Lernen, eine Teildisziplin der KI, lässt Computer aus Erfahrung lernen. Zu unterscheiden ist zwischen überwachtem Lernen (Modelle lernen aus gekennzeichneten Daten), unüberwachtem Lernen (Modelle finden Muster in unmarkierten Daten) und bestärkendem Lernen (Modelle lernen durch Feedback in Form von „Belohnung“ und „Bestrafung“).
  • Künstliche neuronale Netze bestehen aus verbundenen Knoten (Neuronen) und können große Datenmengen strukturierter und unstrukturierter Daten auswerten, wie Texte, Bilder, Audio und Video.
  • Large Language Models sind eine Art neuronaler Netze mit vortrainierten Textdaten, die auf Sprachverständnis trainiert sind. Sie verarbeiten komplexe Anweisungen, beantworten Fragen, leiten mathematische Zusammenhänge her und schreiben Texte sowie Code.
  • Multimodale Modelle unterstützen auch Audio und Video. Neben ChatGPT Voice für Gespräche bietet zum Beispiel Google NotebookLM eine Funktion, die aus einem hochgeladenen PDF einen erstaunlich realistischen und interessant klingenden Dialog in Podcast-Format generiert (derzeit nur auf Englisch). Ausprobieren lohnt sich.

Selbstlernende Algorithmen sind schon lange im Einsatz. Neu ist, dass die breite Masse über Sprachmodelle wie ChatGPT, Google Gemini und Claude mit lernfähigen Computersystemen interagieren kann. Sie markieren einen Schritt in die Richtung zur Künstlichen Allgemeinen Intelligenz (Artificial General Intelligence, AGI).

Hinweis: Ein Neuron ist eine Nervenzelle, die mit anderen Nervenzellen verbunden ist und elektrische Signale weitergibt. Das menschliche Gehirn hat circa 86 Milliarden Neuronen, verbunden durch rund 100 Billionen Synapsen. GPT-3 besitzt rund 175 Milliarden Parameter, wegen der unterschiedlichen Funktionsweise lassen sich diese Zahlen jedoch nicht direkt vergleichen.

Große Auswahl an günstigen Domain-Endungen – schon ab 0,08 € /Monat
Jetzt Domain-Check starten

Wie funktionieren Large Language Models?

LLMs wie GPT basieren auf Transformer-Modellen, die aus Schichten von Selbstaufmerksamkeitsmechanismen und Feedforward-Netzwerken bestehen. Sie erkennen Beziehungen zwischen allen Wörtern in einem Satz, unabhängig von der Wortposition, und verarbeiten große Datenmengen parallel.

LLMs lernen aus großen Textdaten die Wahrscheinlichkeit von Wortfolgen. Die Wahrscheinlichkeitsverteilungen ermöglichen, bisherigen Kontext zu betrachten und das wahrscheinlichste nächste Wort zu berechnen. So bestimmen sie mithilfe von Selbstaufmerksamkeitsmechanismen Wort für Wort.

Der Trainingsablauf

Die Fähigkeiten hängen also von der Menge der Trainingsdaten und dem Transformator-Modell ab. Ein Large Language Modell wird mit gewaltigen Datenmengen in der Größenordnung von Petabytes trainiert. Zunächst mit einem unbeaufsichtigten Ansatz und unstrukturierten Daten, dann folgt die Feinabstimmung durch überwachtes Lernen. Im Trainingsprozess lernt das LLM mithilfe von Deep Learning und Selbstaufmerksamkeit, Beziehungen in den Mustern zu erkennen. Das Modell weist Elementen (Token) eine Bewertung zu und legt so die Beziehung fest.

Ein Problem sind Halluzinationen, bei denen Large Language Models falsche oder erfundene Antworten liefern.

Was LLMs können

Abhängig von den Trainingsdaten können große LLMs viele unterschiedliche Aufgaben erledigen:

  • Texte erstellen, zusammenfassen und in verschiedene Sprachen übersetzen
  • Code in vielen Programmiersprachen generieren
  • Informationen aus großen Textmengen extrahieren
  • Moleküle und Proteine verstehen und bei der Suche nach Heilmitteln für Krankheiten helfen

Tipp: WordPress-Nutzer können die Fähigkeiten von LLMs auf vielfältige Weise nutzen und zum Beispiel einen KI-Chatbot wie AI ChatBot for WordPress oder AI Engine auf ihrer Website integrieren. Mit rasend schnellem WordPress-Hosting von Host Europe sind Anwender für die Zukunft gerüstet.

Tipps zum Prompt Engineering

Die Interaktion zwischen Mensch und LLM erfolgt durch Text- oder Spracheingabe (Prompt). Die Antwortgenauigkeit hängt von der Qualität der Eingabe ab, und die Optimierung dieser Eingaben für bessere Antworten nennt man Prompt Engineering.

Je eindeutiger die Aufgabenerklärung und je besser die Hintergrundinformationen, desto präziser die Antworten. Klare Formulierungen in einfacher Sprache verbessern das Ergebnis.

Few Shot Learning

Mit Few Shot Learning verstehen LLMs Aufgaben anhand weniger Beispieleingaben. Sie lernen, die gezeigten Muster zu generalisieren, und wenden diese auf neue Eingaben an.

Beispiel:

Bestimme die Stimmung in Sätzen.
Beispiel 1: „Ich liebe italienisches Essen.“ → Positiv
Beispiel 2: „Ich finde den Film langweilig.“ → Negativ
Satz: „Ich freue mich über die Einladung zum Essen“ →

Chain-of-Thought Prompting

Nutzer fragen nicht direkt nach einer Antwort, sondern fordern das LLM zur Erklärung von Überlegungen und Zwischenschritten auf, um das Ergebnis zu verbessern und die Korrektheit nachvollziehen zu können.

Beispiel: Eine Münze wird 2x geworfen. Wie groß ist die Wahrscheinlichkeit, dass beide Male „Zahl“ erscheint? Erkläre die Berechnung in klaren Schritten.

Rollenspiel

Der Anwender gibt eine Rolle vor, um spezialisierte Antworten zu erhalten.

Beispiel: Du bist erfahrener Zahnarzt. Welche Ratschläge würdest du jemandem geben, der unter entzündetem Zahnfleisch leidet?

Antwortformatierung

Die Struktur des gewünschten Ausgabeformats wird vorgegeben.

Beispiel: Erstelle eine Liste von Zutaten für selbst gemachtes Cordon bleu und eine Kurzanleitung für die Zubereitung.

Limitierungen und Grenzen setzen

Auf Anweisung ignorieren Sprachmodelle bestimmte Informationen oder konzentrieren sich bei der Antwort auf einen Aspekt.

Beispiel: Beschreibe die deutsche Wiedervereinigung, ohne Personen oder bestimmte Daten zu nennen.

Large Language Models und Prompt Engineering – Fazit

Large Language Models arbeiten mit Wahrscheinlichkeiten und bestimmen so bei Antworten das nächste Wort. Für Privatpersonen und Unternehmen ergeben sich diverse Anwendungsfälle, von der Unterstützung bei der Urlaubsplanung bis zur Analyse von Finanzdaten und Erweiterung der Fähigkeiten mit eigenen Daten – zum Beispiel für einen Kundenservice-Chatbot. Die Technologie schreitet mit großen Schritten voran.

Titelmotiv: Photo by Solen Feyissa on Unsplash

Host Europe

Große Auswahl an günstigen Domain-Endungen – schon ab 0,08 € /Monat
Jetzt Domain-Check starten