Die Gefahr von Closed Source LLMs
Bis heute ist nicht publiziert worden, wie die Sprachmodelle von großen AI-Chat-Hostern trainiert wurden. Ganz im Gegenteil: immer wieder kommen Meldungen auf, Teile der Trainingsdaten seien urheberrechtlich geschützt.
Solange das Trainingsverfahren nicht offengelegt wird, besteht auch immer die Gefahr, dass jede Nachricht, jede Webseite, jeder Text und damit potentiell auch interne Firmendaten für das Training genutzt werden.
Denn eins ist auch klar: Entwickler von Sprachmodellen leben von den Daten und müssen Sprachmodelle permanent weitertrainieren. Woher kann man neue Daten nehmen, wenn bereits das gesamte freie Internet genutzt wurde?
Machen Sie Ihre Daten zu Ihrer Stärke
Die bahnbrechende Eigenschaft von großen AI-Chat-Hostern ist nicht etwa, dass im Hintergrund eine Art Superintelligenz werkelt, die den Menschen ersetzen kann. Da es sich nur um Wahrscheinlichkeitsrechnung handelt, ist ein Chatbot kein intelligentes Wesen. Auch wenn das Konstrukt in Gänze hochkomplex ist, ist das erfolgsversprechende Element simpel: Sprache. Large Language Modelle ermöglichen die Interaktion mit Computersystemen durch natürliche, menschliche Sprache. Die Schnittstelle wird noch weiter vereinfacht: ein Chat. Kommunikation mit einem Computer, als würde man einem Freund via Messenger schreiben.
Die Unterstützungsmöglichkeiten sind gewaltig: ein Trainingsplan zur erfolgreichen Absolvierung eines Triathlons? Kein Problem. Quälend lange Mails oder Verträge auf die Kernelemente zusammenfassen? In Sekunden erledigt. Analyse von Auffälligkeiten in großen SAP-LOG-Dateien? Sofort abgeschlossen.
Verknüpft man ein LLM nun noch mit eigenen Daten, ist das Potential schier unendlich. Man stelle sich nur mal vor, was alles möglich ist, wenn man sein ganzes Ticketsystem als Wissensdatenbank mit natürlicher Sprache befragen kann. Ihre Daten sind Ihre Stärke. LLMs schöpfen das größtmögliche Potential aus dieser Stärke aus. LLMs machen Ihre Daten lebendig.
Die Lösung der Datenproblematik
Nachdem z.B. OpenAI keinen Einblick gewährt, kann man sich der Sicherheit der eigenen Daten hinter den verschlossenen Türen nie sicher sein. Doch genau diese geschlossene Tür ist es, die eine andere öffnet: Open Source. Open Source liefert den Schlüssel: Jedes Detail kann im Programmcode nachverfolgt, jede Anpassung geprüft werden. Dadurch wissen Sie, was mit Ihren Daten passiert: nichts. Denn Sie senden keine Daten an irgendeine Firma – ganz im Gegenteil, Sie holen sich das Produkt ins eigene Haus. Es ist in etwa so, als könnten Sie ChatGPT als fertiges Produkt kaufen und in Ihr Rechenzentrum stellen. Sie haben den Schlüssel und damit die volle Kontrolle, wie und ob Ihre Daten mit KI verknüpft werden. Zusammengefasst ist der Vorteil von Open Source: Transparenz.
Verknüpfung der eigenen Daten
Zuerst wird auf starker Hardware eine Inference-Engine installiert, die den Betrieb von Sprachmodellen ermöglicht. Es fehlt noch das passende LLM, welches man auf Huggingface für jeden Einsatzzweck finden kann.
Um dann auf Ihre Daten zuzugreifen, bieten sich zwei Möglichkeiten: Finetuning und Retrieval Augmented Generation (RAG). Während Finetuning zu viel Leistung und Kosten benötigt, bietet RAG eine günstige Alternative. Hierbei verändert man die Daten des LLM nicht, sondern liefert einen Kontext aus dem eigenen Datenbestand mit. So als würden Sie dem LLM sagen: „Hier ist mein Ticket 1234, fasse mir den Inhalt zusammen“. Dadurch, dass der Kontext stets mitgegeben wird, ergibt sich ein weiterer Vorteil: Im Gegensatz zu den Online-Anbietern ist der Datensatz immer aktuell.
Fazit
Mit RAG und einem quelloffenen LLM haben Sie alle Voraussetzungen in der Hand, um eigene Daten mit der Technologie zu verknüpfen. Die Antwort auf die Frage, wie man mit dem technologischen Wandel Schritt halten und sich dennoch keine Sorgen um die Sicherheit der eigenen Daten machen kann, ist letztendlich einfach: Open Source.
Dieser Beitrag erschien zuerst im E-3 Magazin.