Generative KI-Chats wie ChatGPT, Bard und ähnliche Systeme erfreuen sich derzeit großer Beliebtheit. Diese sprachbasierten Anwendungen basieren auf sogenannten Large Language Models (LLMs), also großen Sprachmodellen. Diese Modelle wurden mithilfe umfangreicher Datenmengen trainiert und nutzen verschiedene Deep-Learning-Verfahren, um menschenähnlichen Text zu generieren und komplexe sprachliche Aufgaben zu bewältigen. Es existieren bereits zahlreiche Erklärungen und Definitionen zu diesem Thema (siehe beispielsweise hier).

Viele Unternehmen möchten derzeit in die sprachbasierten KI Systeme investieren und eigene LLMs trainieren oder anpassen. Es stellt sich die Frage nach der Vorgehensweise:

Was ist besser: Ein Open Source Modell zu trainieren? Oder ein erworbenes von Open AI oder Google nutzen?

Wir werden heute die Vor- und Nachteile von Open Source und Closed Shop für Unternehmen näher erörtern.

Vorneweg muss man jedoch sagen, dass der Markt für Sprachmodelle derzeit sehr dynamisch ist. Es wird hier noch viel passieren, vor allem auch rechtlich.

Open Source Modelle

People will not pay for a restricted model when free, unrestricted alternatives are comparable in quality.“

Google Mitarbeiter (https://www.semianalysis.com/p/google-we-have-no-moat-and-neither)

Insbesondere Meta (ehemals Facebook) leistete einen maßgeblichen Beitrag zum Start von Open Source. Meta traf frühzeitig die Entscheidung, den Zugang zu Sprachmodellen zu demokratisieren. Das Unternehmen stellte eine (kleinere) Version seines Sprachmodells auf GitHub zur Verfügung und ermöglichte somit einem breiten Publikum den Zugang. Den Zugang zum vollständigen Modell erhielten ausgewählte Organisationen und wissenschaftliche Einrichtungen.

Es kam, was kommen musste: im Frühling 2023 leakte jemand das Modell (bekannt als LLaMA) an die Öffentlichkeit. Das Modell wurde auf der Plattform 4chan veröffentlicht und der Rest ist Geschichte. Innerhalb von Stunden breitete sich das Modell im Netz aus. Auf seiner Basis entstanden sehr schnell Nachfolgemodelle, finegetuned und angepasst an diverese Anforderungen.

Im Gegensatz zu Meta haben es Google und OpenAI ihre Large Language Models bislang unter Verschluss gehalten.

Die wichtigsten OpenSource LLMs

Die Welt der Open Source LLMs ist sehr dynamisch. Fast täglich kommen neue Modelle hinzu. Ich liste die bisher wichtigsten Modelle auf:

LLaMA – Large Language Model Meta AI (Meta)

Wie bereits gesagt, basieren die meisten Open Source Modelle auf dem geleakten Large Laguage Model der Meta mit dem Namen „Large Language Model Meta AI“ oder kurz LLaMA. Generell wird aber nicht die LLaMA in der ursprünglichen Fassung genutzt, sondern in verschiedenen Abwandlungen und Verbesserungen.

LLaMA in seiner ursprünglichen Form ist nicht sehr effizient. Zudem ist das Modell an sich nur der erste Teil des Trainings. Es ist eine Art rohes Modell, welches man noch weiter trainieren und anpassen muss. Ähnlich wie beim ChatGPT, welches vom Prinzip aus zwei Teilen besteht: GPT-3/4 transformerbasierten Modell sowie einem Verfahren, welches als Reinforcement Learning with Human Feedback (RHLF) bekannt ist.

Kurzgesagt: das Modell wurde nicht „gentuned“ und bedarf somit weiterer Arbeit, damit es konkret auf die Anfragen reagieren kann. Das Finetuning kann auf verschiedene Art und Weise erzielt werden. Das Finetuning werde ich in meinem Newsletter beschreiben. Ihr könnt euch dafür hier anmelden.

LLaMA + LLaMA.cpp

Eines der ersten Modelle und eine direkte Abwandlung der LLaMA ist die sogenannte LLaMA.ccp, geschrieben in C/C++. Das ursprüngliche Meta Modell LLaMA lästst sich nur sehr schwer auf einem PC zum Laufen bringen. Es erfordert sehr viel Rechenkapazität. Georgi Gerganov hat deshalb eine effizientere Version für MacBook entwickelt. Die Modellgewichte und die Beschreibung können auf GitHub (Link) heruntergeladen werden.

BLOOM

BLOOM ist ein selbständiges Large Language Model, das ähnlich wie ChatGPT transformerbasiert ist. Das Modell wurde von Hugging Face (einer Open Source Plattform) entwickelt.

„With its 176 billion parameters, BLOOM is able to generate text in 46 natural languages and 13 programming languages.“

Bloom: https://bigscience.huggingface.co/blog/bloom

Laut eigener Angaben darf das Modell auch kommerziell genutzt werden: „That said, it does not impose any restrictions on reuse, distribution, commercialization, adaptation as long as the model is not being applied towards use-cases that have been restricted.“ (Webseite).

GPT4ALL

Die Firma Nomic hat ein open source Modell „GPT4All“ entwickelt. Es ist sowohl ein Modell als auch ein Ökosystem. Das Modell kann lokal auf der CPU ausgeführt werden. So wie ich es verstanden habe, wurde GPT4All an GPT-3 trainiert und nutzt auch die LLaMA Architektur. Deshalb ist es (noch?) nicht für kommerzielle Nutzung geeignet.

Alpaca

Das Modell Alpaca basiert auch auf GPT-3 (speziell: text-davinci-003) sowie dem LLaMA Model und wurde von einem Wissenschaftlerteam der Stanford University entwickelt. Generell ist Alpaca nur für nicht komerzielle Nutzung zugelassen.

Koala

Auch auf LLaMA basiert der Chatbot der Berkeley Universität: Koala. Das Modell wurde (wie auch die anderen) auf großen Mengen an Textdaten aus dem Netz trainiert sowie mit Hilfe von ChatGPT-Output und LLaMA.

Die Autoren haben beim Training von Koala auf Qualität und nicht auf Quantität der Trainingdatesätze fokusiert. Auch dieses Modell ist für kommerzielle Nutzung nicht erlaubt.

Open Assistant

Open Assistant ist ein Chatbot, welcher aber auch kommerziel genutzt werden darf (solange man ihn nicht mit LLaMA betreibt). Er basiert wahlweise auf Pythia (Transformerbaisert) oder LLaMA (in diesem Fall lieber keine kommerzielle Nutzung). Open Assistant wird von Freiwilligen sowie der Firma LAION AI entwickelt. Die Nutzung ist auch für kommerzielle Zwecke erlaubt (wenn man die Variante mit Pythia nutzt).

Das Problem der LLaMA basierten Modelle ist die ungeklärte rechtliche Lage, da das Modell ja geleakt wurde. Meta muss sich vermutlich erst dazu positionieren.

Vorteile und Nachteile vom Open Source

Kommerzielle Nutzung

Wenn wir planen das LLM komerziell zu nutzen, muss zunächst geklärt werden, ob das ausgesuchte Open Souce LLM kommerziell genutzt werden darf . Modelle, die auf Basis von geleakten LLaMA entwickelt wurden, sind im Moment nicht für kommerzielle Nutzung geeignet. Ähnlich sieht es aus mit Modellen, die GPT-3 (z.B. text-davinci-003) nutzen, da diese der Open AI gehören. Auf Pythia baiserende Modelle sind aber beispielsweise für kommerzielle Nutzung geeignet. Es ist hier sinnvoll sich juristisch beraten zu lassen.

Datensicherheit (+)

Im Gegensatz zu Modellen von OpenAI oder Google haben wir im Fall von Open Source mehr Kontrolle über unsere Daten. Wir können beispielsweise einen Open Source Chatbot an unsere Bedürfnisse anpassen. Die Modelle dürfen vollständig heruntergeladen werden und In-House auch an sensiblen Daten trainiert werden.

Kostenfaktor (+)

Mit der Zeit werden Open Source Modelle effizienter arbeiten und es könnte unter Umständen für eine Firma günstiger werden eigene Modelle zu haben und sie nicht von OpenAI zu mieten.

Outputqualität (-)

Outputqualität oder auch KI Allignment. Wenn unser Modell als bspw. Chatbot Kontakt zu Kunden und Kundinnen hat, sollte er besser keine kontroversen Inhalte produzieren. Zudem muss so ein Chatbot gegen Hackingangriffe wie Prompt Injection gewappnet sein. Diese Bedingung erfüllen die Closed Shop Modelle vermutlich besser, da sie bereits jetzt stark in Sicherheit investieren.

Rechtliche Lage (-)

Im Augenblick ist die Lage bezüglich kommerzieller Nutzung der Open Source LLMs völlig unklar. Da das LLaMA Modell geleakt wurde, sind Modelle die auf LLaMA basieren (vorerst) nicht für kommerzielle Nutzung geeignet. Es sieht auch danach aus, dass der gesamte Bereich der Generative KI durch die EU (und auch international) reguliert wird. Hier kann noch vieles passieren und die Lage sollte beobachtet werden.

Closed Shop LLMs

In diesem Bereich gibt es im Moment zwei große Player: Open AI und Google.

Open AI /Microsoft

Das wohl bekannteste Modell ist hier der Chatbot ChatGPT (GPT-4). OpenAI bietet aber auch andere Modelle zur Auswahl (Liste auf der Webseite). Ohne Frage ist GPT-4 (ChatGPT) der leistungsstärkste Marktführer im LLM Bereich. ChatGPT liefert bislang die besten Ergebnisse und ist auch vergleichsweise sicher, wenn es um kontroversen Output geht.

Google Bard

Demnächst wird vermutlich auch Google eigene LLMs kommerziell zur Verfügung stellen:

The secret sauce is becoming less secret as Google plans to onboard individual developers, creators and enterprises to test out its Generative Language API, initially powered by LaMDA with a range of models to follow thereafter.

https://erp.today/bard-for-business-google-enters-the-chatbot-game/

Im Mai 2023 hat Google bekannt gegeben, dass sein Chatbot Bard auf den sogenannten Pathways Language Model (PaLM) basiert. Ähnlich wie GPT-4 (Grundlage für ChatGPT) basiert auch PaLM auf einem Transformer. Derzeit ist Bard innerhalb der EU noch nicht verfügbar.

Vorteile und Nachteile von Closed Shop

Kommerzielle Nutzung

Im Gegensatz zu manchen Sprachmodellen von Open Source dürfen die Closed Shop Sprachmodelle von Google und Open AI kommerziell genutzt werden. Die rechtliche Lage ist dort klarer.

Kosten (-)

Um die LLMs von Open AI und Google zu nutzen, muss man Zugang zu der jeweiligen API haben. Je nach Datenmenge variieren die Kosten. Bei größeren Datenumfang können somit auch höhere Kosten entstehen.

Datensicherheit (-)

Mit der Nutzung von API teilen wir die Daten mit den Firmen, denen das LLM gehört (im Moment wahlweise Open AI/Microsoft oder Google). Diese Firmen bieten sichere Möglichkeiten ihre LLMs zu nutzen. Trotzdem gibt es natürlich keine 100% Sicherheit, dass es keine Leaks gibt. Viele Unternehmen möchten aus verschiedenen Gründen ihre Daten nicht mit externen Firmen teilen.

Abhängigkeit (-)

Falls es einen Ausfall gibt, kann man auf den Dienst nicht zugreifen. Ähnlich wie mit einem Cloudservice können Ausfälle passieren. Langfristig macht man sich auch unter Umständen von der Infrastruktur und ihren Anforderungen abhängig.

Einfachheit (+)

Sowohl Open AI als auch Google verfügen über Sprachmodelle, die bereits fertig trainiert sind. Wir können sie vom Prinzip direkt anwenden. Das ist bei Open Source im Moment nicht der Fall. Sie benötigen noch stärkere Anpassung und Bearbeitung. Generell sind für eine Anpassung und Trainig Menschen mit entsprechenden Skills notwendig.

Outputsicherheit (+)

Der Output der Closed Shop Chats wurde „alligned“. Die Firmen haben ihre Modelle so angepasst, dass sie in der Regel keine kontroversen Inhalte liefern. Das spielt vor allem eine Rolle, wenn wir ein „customer-facing“ Produkt bauen.

Ein weiterer Aspekt sind Hacking Angriffe, die sogenannten Prompt Injections, die z.B. den Chat zwingen können personenenbezogene Daten weiterzugeben. Die Gefahr ist im Fall von Open AI vermutlich geringer, da das System stärker in diese Richtung getestet wird. Vom Prinzip aber ist kein Chatsystem im Moment vor Prompt Injections sicher.

Ein Beispiel für Prompt Injection:

Zusammenfassung

Es lässt sich nicht eindeutig entscheiden für wen welches Modell am sinnvollsten ist. Dazu kommt die derzeitige unsichere rechtliche Lage. Dieser Beitrag ist als ein Einstieg in die Thematik gedacht.

Es ist aber empfehlenswert Open Source Modelle auszuprobieren, um ein Gefühl für die Thematik zu entwickelt und auch Kompetenzen innerhalb der Firma aufzubauen.

Letztendlich hängt die Wahl zwischen Open-Source-Modellen und kommerziellen Modellen von den spezifischen Anforderungen, Ressourcen und Zielen eines Projekts ab. Es ist wichtig, die Vor- und Nachteile sorgfältig abzuwägen, um die bestmögliche Entscheidung zu treffen.