Mit Software die Welt verständlicher machen

Totoy ist ein Start-up, das eine gleichnamige auf Künstlicher Intelligenz basierende App entwickelt hat, mit der abfotografierte Behördenbriefe übersetzt und in einfacher Sprache wiedergegeben werden können. Die ITWELT.at hat mit Gründer und CEO Francis Rafal gesprochen. [...]

Francis Rafal, ist Mitgründer und CeO von Totoy. Er hält auch Vorträge über Totoy, wie hier beim TEDxDonauinsel-Talk. (c) Kirill Lialin / Conntento, TEDxDonauinsel
Francis Rafal, ist Mitgründer und CeO von Totoy. Er hält auch Vorträge über Totoy, wie hier beim TEDxDonauinsel-Talk. (c) Kirill Lialin / Conntento, TEDxDonauinsel

Gegen Fachkräftemangel hilft Bildung. Neben anerkannten Fachhochschulen oder Universitäten gibt es auch noch nicht so bekannte Ausbildungsmöglichkeiten, wie die gemeinnützige Programmierschule 42 Vienna. Die App Totoy wurde in der seit 2022 in Wien bestehenden Programmierschule 42 Vienna entwickelt, wo sich die fünf Unternehmensgründer kennengelernt haben. Sie werden bei 42 in einem eigenen, neu geschaffenen Bereich demnächst ihr Büro beziehen. 

Ihr habt euch bei 42 Vienna kennengelernt und dann im Rahmen eurer Ausbildung ein Projekt entwickelt und ein Startup gegründet. Wie war das genau?

Francis Rafal: Wir sind fünf Studierende des ersten Jahrgangs und haben 2022 begonnen. Wir haben alle unterschiedliche Backgrounds, einer ist Mediziner, ein anderer hat eine Lehre als KFZ-Mechaniker gemacht, einer hat im E-Commerce-Bereich und ein weiterer im Customer Support gearbeitet. Ich habe mich schon unternehmerisch betätigt und im Filmbereich gearbeitet. Wir haben uns alle bei 42 Vienna kennengelernt, wo wir Programmieren lernen wollten. 

Im November 2022 hatte ich ein Gespräch mit einem Wiener Filmkollegen mit serbisch-ungarischen Wurzeln. Wir haben uns darüber unterhalten, wie schwer es oft für unsere Eltern ist, komplizierte Behördenbriefe zu verstehen. Meine Eltern stammen aus den Philippinen. Sie können zwar Deutsch, aber sie haben Probleme mit dem Juristen- oder Amtsdeutsch. Da hatten wir gerade mit der aufkommenden KI die Idee, wie einfach es wäre, wenn man ein Foto von einem Dokument machen könnte und dann wird der Inhalt in der jeweiligen Muttersprache in einfacher Sprache erklärt. Wobei es ChatGPT damals noch nicht gab. Die Idee habe ich dann nicht weiterverfolgt, aber 2022/2023 lernte ich programmieren und hatte im März 2023 genug Skills, um einen Prototyp zu bauen. Ich erinnere mich, dass ich in der Wiener U3 eine E-Mail mit dem Zugang zur Schnittstelle von OpenAI bekommen habe. Durch das Studium bei 42 Vienna habe ich gelernt, wie man technische Dokumentationen liest. Denn das ist, was wir bei 42 täglich machen: Wir müssen uns selber Sachen beibringen. Noch in der U-Bahn habe ich also auf meinem Handy die Dokumentation gelesen und wieder zu Hause innerhalb von ein, zwei Stunden auf der Apple Shortcuts App – das ist ein No-Code-Builder auf dem iPhone – einen ersten Prototypen gebaut. Es hat funktioniert. Ich war fasziniert davon, dass auf meinem Handy ein deutschsprachiger Behördenbrief in Filipino erklärt wurde. Ich habe das meinen Kollegen bei 42 Vienna gezeigt, und wir haben zu fünft entschieden, dass wir neben dem Studium an dieser App arbeiten wollen. Und im September 2023 haben wir die App unter dem Namen Totoy im App Store gelauncht. Der Name kommt aus dem Filipino. „Totoy, ano ba ‘yan“ bedeutet dort „Kleiner Junge, was ist das?“, eine Frage, die ich oft von meinen Eltern hörte, wenn sie etwas in einem Behördenbrief nicht genau verstanden haben. 

Totoy ist ein KI-Assistent, der einem hilft, Dokumente in ein paar Sekunden zu verstehen. Künftig wollen wir einen KI-Assistent für alle offiziellen Dinge daraus entwickeln, der einem helfen kann, Formulare auszufüllen und Behördenbriefe zu verstehen. Arztbriefe etc.

So funktioniert Totoy: Behördendokument einfach abfotografieren und danach in einfacher Sprache, z.B. auf Deutsch, Englisch oder Filipino, lesen. (c) Totoy / Francis Rafal

Die Programmierausbildung bei 42 Vienna basiert auf den Programmiersprachen auf C und C++. Ist Totoy in C programmiert? 

Die App ist in der Programmiersprache Dart geschrieben. Das ist eine Programmiersprache, die wir auch im Rahmen der Recherche kennengelernt haben. Denn mit Dart kann man für mehrere Plattformen entwickeln. Da unsere User nicht unbedingt immer die neuesten Handys haben, war von Anfang an klar, dass die App multiplattform sein muss, wenn wir die Menschen erreichen wollen, die Probleme mit Behördenbriefen haben. Mit Dart war das machbar. Und von 42 kennen wir, dass wir uns neue Sachen beibringen müssen und so haben wir einfach Dart gelernt. 

Ist Totoy eine Web-App?

Es ist eine mobile App, die für iPhone und Android verfügbar ist. 

Bezieht ihr die Informationen in einfacher Sprache von den Websites der Ministerien oder wandelt ihr das selbst um? 

Wir wandeln das selbst um. Wir verwenden ein Large Language Modul. Anfangs haben wir mit OpenAI gearbeitet, mittlerweile sind wir auf das Modell von Microsoft gewechselt. Das hat dieselbe Funktionalität wie jenes von OpenAI, wird aber komplett in der EU gehostet – das verwenden wir zum Zusammenfassen, Übersetzen und Vereinfachen und Erklären in einfacher Sprache. 

Du hast die Idee gehabt und ihr habt euch zusammengeschlossen. Alle zusammen haben programmieren gelernt, aber jeder bringt andere Skills mit ein. Wie verwertet ihr das im Unternehmen? Wie arbeitet ihr zusammen? 

Mittlerweile sind wir sehr gut eingespielt. Wir sind zwei Geschäftsführer, Simon Hoffmann ist der zweite Geschäftsführer und COO. Er ist auch für UI/UX zuständig und hat das Design gestaltet. Ich bin für das Wachstum der App zuständig und alles, was das Geschäftliche und Public Speaking betrifft – ich versuche, unsere Mission, funktionalen Analphabetismus zu lösen, nach außen zu tragen und User zu akquirieren. Meine drei Kollegen, Benedikt Hielscher, Michael Perger und Marcel Koller sind für die App-Entwicklung zuständig; Bene entwickelt das Frontend in Dart und Marcel und Michi arbeiten am Backend und machen LLMOps, also Large Language Model Operations, ein bei der Arbeit neu entstandener Job. 

Wenn ihr die Oberfläche optimiert, holt ihr euch Beratung von außerhalb oder experimentiert ihr selber oder fragt Freunde, was besser funktioniert?  

Prinzipiell orientieren wir uns daran, was uns die User sagen. Wir reden viel mit den Usern, versuchen herauszufinden, warum sie die Apps verwenden und wie sie die App verwenden. Und das ist eigentlich das, worauf unsere Entscheidungen aufbauen. Und so priorisieren wir, welche Features wir als nächstes bauen. 

Im November 2023 habt ihr den A1 Award Start-up Award erhalten. Was bedeutet er für euch? 

Wir fühlen uns sehr geehrt, dass der A1 Startup Award an uns gegangen ist. Vor allem, weil echt gute Start-ups mit angetreten sind, die wirklich an sehr interessanten und wichtigen Problemen arbeiten – von Klimaschutz bis hin zu Bildung für Kinder. Das Preisgeld hat uns natürlich geholfen, da wir bis dahin alles unbezahlt gemacht haben, und wir auch Cloud Credits von A1 bekommen, die für unsere interne IT verwenden. Es hat auf jeden Fall auch geholfen, neue User zu akquirieren. Auf der anderen Seite überlegen wir auch Totoy für HR-Departments in Unternehmen zu lizenzieren – vor allem für Unternehmen, die mit sehr vielen Menschen mit Migrationshintergrund arbeiten. Durch den Award haben wir Aufmerksamkeit, um an diese Unternehmen heranzutreten. 

Wie oft wurde die App bereits heruntergeladen? Wie sieht das Verhältnis von Android und iOS aus? 

Das Verhältnis zwischen Android und iOS ist ungefähr fifty/fifty. Aktuell haben wir 15.000 Downloads und 7000 aktive User, die die App wirklich verwenden, um damit Dokumente zu verstehen. 

Ist die App gratis?

Es ist ein Freemium-Modell. In der kostenlosen Version kann man sich pro Monat fünf einseitige Dokumente erklären lassen. Die Bezahlvariante erlaubt die Erklärung mehrseitiger Dokumente bis zu 50 Fotos, also 50 Scans von einem Dokument, oder bis zu 100 Seiten starken PDFs. Auch kann man sich eine unlimitierte Anzahl an Dokumenten erklären lassen. 

Das wäre ja schon der Funktionsumfang für die zuvor genannten HR-Abteilungen in Unternehmen… 

Genau. Wir haben bereits die ersten Leads an HR-Abteilungen. Sie bekunden, dass sie es sich aufgrund des eklatanten Fachkräftemangels nicht leisten können, Menschen nicht anzustellen, nur weil sie zum Beispiel nicht perfekt Deutsch können. Da hilft unsere App sehr, um die Beantwortung von Fragen von Mitarbeitern zu automatisieren: einerseits beim Onboarding-Prozess, in dem Arbeitsverträge und auch Arbeitsanweisungen besser verstanden werden, aber auch generell kann so in der internen Unternehmenskommunikation die Arbeitszufriedenheit für die Angestellten gesteigert werden. 

Wie sieht es mit der Haftung aus? Das sind ja oft Rechtsdokumente und die müssen trotz vereinfachter Sprache auch rechtlich halten. Wie stellt ihr das sicher? 

Zuallererst versuchen wir das Problem des Halluzinierens der KI, also falscher Informationen, zu beseitigen. Das machen wir mit sogenanntem Grounding. Das heißt, bevor eine Frage beantwortet wird, instruieren wir das Large Language Model, dass es sich ausschließlich auf den Kontext beziehen soll, der ihm zur Verfügung gestellt wird. Und falls es die Antwort nicht weiß, soll die KI auch sagen, dass es eben die Antwort nicht weiß. So generieren wir die Antworten, das heißt, die Information ist in dem Dokument enthalten und wir schreiben sie so um, dass sie einfacher verständlich ist. 

Zum zweiten Punkt, ob die generierte Antwort inhaltlich mit dem Originaldokument übereinstimmt oder nicht: In der Entwicklung arbeiten wir mit sogenannten LLM Evals, also Large Language Model Evaluations. Das kann man sich so vorstellen, wie beim Testen normaler Software, wo man mit sogenannten Unit-Tests arbeitet. Dabei testet man beispielsweise bei einer Additionsfunktion, ob 1+1 auch wirklich 2 ergibt. Jetzt ist die KI aber ein probabilistisches Modell. Man erhält nicht immer dieselbe Antwort. Hier kommen die LLM Evaluations ins Spiel, wo wir mit einer zweiten KI die von Totoy generierten Antwort überprüfen. Der Punkt ist: es ist einfacher zu überprüfen, ob eine Antwort korrekt ist bzw. mit einem Originaltext übereinstimmt, als zum Beispiel eine neue Antwort zu generieren. Das heißt, wir haben Evaluationen, um zu überprüfen, ob die Ergebnisse wirklich stimmen. So versuchen wir, die Qualität zu erhöhen. Trotzdem ist es so, dass wir keine Haftung für die Erklärungen übernehmen, da rechtlich immer nur das Original-Dokument gültig ist. Darüber informieren wir natürlich den User bei jeder Anwendung. Es gibt bei jedem Chat einen entsprechenden Link mit Informationen zur Funktionsweise von Totoy und zudem weist Totoy immer darauf hin, dass es Fehler machen kann.

Wollt ihr weiter auf dieses eine Produkt setzen oder sind andere Produkte schon in der Pipeline? 

Es sind schon andere Produkte in der Pipeline, aber generell geht es uns immer um das Problem „Funktionaler Analphabetismus“, das ist unsere Unternehmensaufgabe. Wir entwickeln Software-Lösungen, die helfen, die Welt für alle verständlicher zu machen und das Problem funktionaler Analphabetismus zu lösen. Die genauen Produkte ergeben sich mit unserer Arbeit.


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*