Diesen Februar hat das Linzer Startup 506.ai seine künstliche Intelligenz für Unternehmen, CompanyGPT 2.0, veröffentlicht. Dabei handelt es sich um eine europäische, unabhängige und sichere KI-Alternative. Die ITWELT.at hat mit Unternehmensgründer und Geschäftsführer Gerhard Kürner gesprochen. [...]
Wie kam es zur Gründung von 506.ai?
Wir haben das Unternehmen 2020 gegründet, weil ich überzeugt bin, dass in der maschinellen Verarbeitung der eigenen Daten noch großes, ungenutztes Potenzial liegt. Am Beginn stand Marketing Data Science, also die Analyse von großen Datenmengen mit Machine Learning und ein wenig KI – noch bevor es ChatGPT gab. Im weiteren Verlauf haben wir immer stärker auf KI, Large Language Models und Co. gesetzt.
Wir haben viele Kunden aus dem Medienbereich. Es ist kein Zufall, dass die APA unsere Technologie verwendet, dort heißt unsere Lösung »CompanyGPT der APA«. Wir sind Technologiepartner der APA und der Tiroler Tageszeitung, einer unserer ältesten Kunden. Von der Analyse sind wir dann in den Conversational Bereich gekommen und wollten diesen datenschutzkonform umsetzen – ohne Nutzung von Servern in den USA und mit voller Herrschaft über die eigenen Daten. Und am Ende des Tages soll zudem nicht nur mit den bereits trainierten KIs, sondern auch mit den eigenen Daten gearbeitet werden können, sprich mit dem eigenen Unternehmenswissen.
So haben wir voriges Jahr begonnen, CompanyGPT in einer einfachen, sicheren Variante zu bauen – mit Vorlagen für Aufgaben, damit auch Menschen, die keine KI-Experten sind – der Großteil der Berufstätigen – produktiver sein können. Und jetzt haben wir die Version 2 herausgebracht. Hier können Firmen mit Drag-and-Drop ihre wichtigen, eigenen Unternehmensdaten einfach und sicher für die Befragung und Bearbeitung durch die KI nutzen.
Wo werden bei CompanyGPT die eigenen Unternehmensdaten gespeichert? Bleiben diese in der Firma?
Wir kommen aus dem Datenschutzbereich. Zu unseren Kunden zählen im Analytics-Bereich die Nationalbanktochter Münze Österreich oder die Kirche. Für uns war und ist Datenschutz und Privacy-by-Design immer die Grundvoraussetzung. Bei CompanyGPT erhält jeder Kunde einen eigenständigen Server, eine eigenständige Applikation, Datenbank und eine komplett eigenständige KI. Dieser Server steht in Frankfurt und auch die LLM-Services, die wir von Microsoft oder von anderen beziehen, liegen ausschließlich in europäischen Hostingcentern, wobei alle Daten verschlüsselt sind. Wir haben Kunden, die nicht nur personenbezogene Daten besitzen, sondern beispielsweise Lebensläufe in der HR-Abteilung oder ähnliche Dinge, die nach einer Frist von sechs Monaten wieder gelöscht werden müssen. Deswegen brauche ich eine transparente Übersicht, welche Daten vorliegen, mit welchen Daten gefragt wird und auch wer auf welche Daten zugreifen darf. Das ist mit einer normalen KI-Lösung gar nicht in dieser Form möglich.
Welche LLMs verwenden Sie? Oder haben Sie eigene?
Wir sind ein sehr forschungsintensives Unternehmen. Wir haben vier Forschungsprojekte bereits hinter uns und schließen gerade ein FFG-Projekt ab. Aktuell nutzen wir die LLM-GPT-Modelle, die Microsoft zur Verfügung stellt, wobei wir diese Services immer nur für einen Kunden benutzen. Sie werden also nicht geteilt. Wir gehen davon aus, dass wir im heurigen Jahr auch europäische Modelle datenschutzkonform mit einbinden können. Datenschutzkonform heißt, es werden keine Daten zum Training oder Finetuning benutzt, diese Modelle müssen in sicheren europäischen Hostingcenters laufen und unseren Qualitäts-, Funktionalitäts- und Geschwindigkeitsansprüchen entsprechen.
Wenn ich das richtig verstehe, können ihre Kunden zusätzlich zu den vortrainierten Daten der LLMs noch eigene Daten hochladen und damit weiter trainieren?
Nein, nicht weiter trainieren. Sondern wir zwingen diese Modelle, dass sie ausschließlich Antworten von ihren eigenen Daten geben. Ein Beispiel: Sie möchten gerne wissen, was Sie letzten Dezember über KI geschrieben haben und haben die Artikel dem Archiv zur Verfügung gestellt. Dann zwingen wir diese Modelle, keine allgemeine, vortrainierten Antwort zu geben, sondern ausschließlich die Information zu nennen, die sie in den Daten aus dem eigenen Archiv finden.
Versuchen Sie auf diese Art ein Halluzinieren der KI zu verhindern?
Nicht nur ein Halluzinieren, sondern dass die KI auch nicht andere Informationen dazu gibt. Ein Beispiel: Ein Kunde von uns, der viele Unternehmensstudien aus dem Bereich Marketing und Sales besitzt, will wissen, welche Familien in Österreich Urlaub machen. Wenn Sie jetzt ChatGPT oder Copilot fragen, würden diese wahrscheinlich antworten, dass die meisten Urlauber in Österreich aus Deutschland kommen. Das ist nicht falsch, es ist einfach allgemeines Wissen. In unserem Fall wollen wir aber wissen, welche Familien woher kommen, basierend auf exakt den vorhandenen Studien, nicht auf dem, was das Modell kann. Auf diese Art erhalten wir Infos, wie Länder, Prozentangaben und Durchschnittsalter der Besucher, weil die KI alle Informationen aus dieser Studie gelernt hat. Die vortrainierten, allgemeinen Informationen haben wir verboten.
Somit stammt das Detailwissen von den Firmen selbst. Ist es das, was sie von Microsoft Copilot und IBM WatsonX unterscheidet?
Genau. Und zwar ohne IT-Projekt und für jeden User einfach übersichtlich und – ganz wichtig – unabhängig und sicher. Sicher werden die anderen KI-Modelle auch werden. Das ist nur noch eine Frage der Zeit. Aber unabhängig heißt bei uns, dass alle Daten immer im Besitz des Unternehmens bleiben, alle Informationen immer nur auf dem Server des jeweiligen Unternehmens sind, und mit nichts und niemanden geteilt werden. Zudem kann ich theoretisch demnächst auch weitere europäische KIs dazunehmen. Ich bin nicht mehr abhängig von einem amerikanischen oder einem anderen Konzern. Und ich weiß ganz genau, wo meine Daten sind.
Wie wichtig ist Ihnen Nachhaltigkeit? Abgesehen vom xLSTM-Modell von Sepp Hochreiter verbrauchen gegenwärtige Large Language Model ja nicht wenig Strom …
Sehr wichtig. Da sind zwei Themen wesentlich: Nachhaltigkeit und Ressourcenhunger. Letzterer wird beim Trainieren wohl nicht ganz weggehen. Aber es macht einen Riesenunterschied in der Inferenz, also in der Zurverfügungstellung, ob Sie ein Rechenzentrum mit zigtausenden GPU-Clustern brauchen oder ob eine KI auf einem PowerMac mit einem M3-Prozessor läuft – wie wir es im Forschungsbereich mit dem kleineren Mistral – das 8 x 7 oder Mixtral – bereits gesehen haben. Es ist noch nicht auf GPT-4-Level, aber schon über jenem von GPT 3.5. Das heißt innerhalb der nächsten 24 Monate werden wir wohl von diesen Monsterressourcen herunter kommen. Würden nämlich jetzt alle, die eine KI wollen, auch eine KI in die Umsetzung bringen, wäre das mit den großen Modellen technisch gar nicht möglich, da die Ressourcen gar nicht vorhanden sind – egal wie viel Energie wir liefern würden.
Sie haben mit der französischen KI Mistral schon experimentiert. Ist auch angedacht, ein eigenes LLM zu entwickeln?
Ein eigenes LLM zu entwickeln, ist eine Spezialdisziplin, in der sich Hochreiter mit xLSTM, Mistral, Aleph Alpha und Nyonic in Deutschland tummeln. Es macht für uns keinen Sinn, sozusagen das Kraftwerk zu bauen, obwohl wir Elektroautos fertigen. Interessanter ist vielmehr das Ausreizen durch das Prompting und was damit möglich ist. Vor kurzem wurde das Systemprompt von GPT 4 geleakt. Da waren 1.700 broken source links. Das ist eigentlich der komplette Irrsinn, dass mit so einem langen Systemprompt so ein großes Modell angesteuert wird. Also in der Bedienung ist noch sehr viel Potenzial und – höflich formuliert – sind 50 Prozent noch gar nicht erforscht. Ein Function Call, bei dem also das LLM eine Tätigkeit ausführt, z.B. ein Programm startet oder etwas programmiert, funktioniert in sieben von zehn Fällen und in drei Fällen schreibt die KI einfach irgendwo einen Beistrich dazu – und schon funktioniert das Programm nicht mehr. In der Stabilität, Accuracy und der Bedienung steckt noch sehr viel Potenzial. Es tauchen jetzt die ersten ganz kleinen Use Cases auf, wo das sogenannte Finetuning Sinn machen kann. Ich nehme also ein bereits trainiertes Modell und lehre ihm eine weitere spezielle Fähigkeit, zum Beispiel im Medienbereich, die Anzahl von Zeichen, Formatierungen, Schriftstile. Das sind alles Dinge, die ein klassisches LLM sehr schwer oder gar nicht schafft, man aber trainieren kann – nur ist das halt noch sehr, sehr aufwendig. Das Erstellen großer Modelle ist eine eigene Disziplin und es werden nicht viele hier erfolgreich sein können.
Liegt Ihr Fokus auf Österreich oder wollen Sie expandieren, z.B. Nach Deutschland oder in die Schweiz?
Mit der Expansion haben wir bereits begonnen. Wir haben zum Beispiel gerade einen ersten großen Schweizer Kunden gewonnen und arbeiten bereits mit dem ersten größeren deutschen Kunden im Agenturbereich zusammenarbeiten. Bei uns erhalten Kunden alles aus einer Hand: sie bekommen das Modell und innerhalb von zehn Tagen ein fix und fertiges, lauffähiges System. Sie brauchen dazu keine IT-Ressourcen und es ist trotzdem ihr eigenes System. Doch viele der Kunden wollen am Anfang begleitet werden. Wenn Sie einem normalen Mitarbeiter einfach ein Chat-Fenster mit ein paar Vorlage hinstellen, und er ist jetzt nicht ein besonderer KI-Fan, bekommen sie keinen Produktivitätsgewinn. Am Anfang muss man diese Projekte begleiten. Da wir alles aus einer Hand anbieten, ist für uns in den nächsten zwei Jahren der DACH-Raum relevant und wir sehen dort auch tatsächliche Produktivitätssteigerungen – wenn man die Einführung mitbegleitet. Wobei wir hier nicht von einer technischen Einführung sprechen – es ist wirklich ein Change-Prozess, bei dem Menschen dann anders arbeiten. Und es ist ganz egal, welche Technik Sie verwenden: wenn Sie den Menschen nicht berücksichtigen, werden Sie keinen Erfolg haben.
Wie lange begleiten Sie die Unternehmen? Sind Webinare inkludiert oder kosten diese extra?
Wir brauchen weniger als zehn Tage, um das System für den Kunden aufzustellen. Und bei der Implementierung ist ein gemeinsamer Workshop automatisch inkludiert – in den meisten Fällen ist es ein Train-the-Trainer-Prinzip, in dessen Rahmen wir den Firmen zeigen, wie man mit dem System umgeht und wie man Vorlagen für Aufgaben baut. Darüber hinaus wollen viele Unternehmen die ersten drei Monate noch begleitet werden, das ist dann nach Größenordnung ausgerichtet.
Zielen Sie auf Großunternehmen oder auf kleine und mittelständische Betriebe?
Unsere Zielgruppe sind in erster Linie KMU. Wir haben auch einige größere Unternehmen, die aus einem Geschwindigkeitsvorteil nicht warten wollen, bis die hauseigene IT die entsprechenden Services liefert. Dennoch richten wir uns eher an KMU, die einfach ohne große Komplexität eine sichere Variante haben wollen, die sie sehr schnell und vor allem produktiv einsetzen können, die überschaubar ist vom Ressourceneinsatz und von den Kosten klar kalkulierbar – ohne dabei gleichzeitig ein großes Projekt anzustoßen.
Ist Company GPT Ihr Hauptprodukt? Wird es andere Produkte geben? Was wird Company GPT 3 bringen?
Company GPT ist unser Hauptprodukt. Wir kommen aus dem Analytics-, dem Trackingbereich, dort wo es um datenbasiertes Marketing geht. Das betreiben wir immer noch auf Projektbasis, es ist aber nicht unser Schwerpunkt.
Warum Company GPT 2.0? Das war eine große Versionsänderung, im Prinzip ist es ein völlig neues Produkt. Was dieses Jahr noch kommen wird: Ein Berechtigungswesen ist gerade in der Fertigstellung. Damit kann ich bestimmen, wer auf welche Datenquelle zugreifen darf. Dann soll die Integration in Unternehmen einfacher werden, sprich Single Sign-on. API-Fähigkeiten werden im zweiten Quartal kommen und am Horizont bereits ersichtlich ist die Unterstützung von neuen Dateiarten, also das Einspielen von Audiodateien direkt 1:1 oder das Erkennen von Bildern.
Warum ist das wichtig? Wer eine Bedienungsanleitung benutzt, weiß, der Text ist interessant, aber es wäre auch gut, wenn man mit den oft vorhandenen Ablaufdiagrammen oder Grafiken auch arbeiten kann. Hier warten wir gespannt darauf, dass wir Mistral oder ein anderes europäisches LLM unter die Motorhaube stecken können. Dann sind wir glücklich, denn damit haben wir den wirklichen europäischen sicheren Technologie-Stack beieinander.
Be the first to comment