Podcast

DeepSeek R1

Ein Wal liegt am Strand

DeepSeek R1 sorgte im Januar für Aufsehen: Ein chinesisches KI-Modell, das mit offenen Gewichten und ausgefeiltem Reasoning die etablierten US-amerikanischen Modelle wie o1 herausfordert – und das zu einem Bruchteil der bisher als notwendig erachteten Kosten. Die Ankündigung ließ sogar die Aktienkurse namhafter Chiphersteller einbrechen. Wie gelang DeepSeek dieser Durchbruch? Welche innovativen Engineering-Ansätze ermöglichten den Sprung vom klassischen Foundation Model zum leistungsstarken Reasoning-Modell? Ole und Robert nehmen die Evolution von DeepSeek R1 unter die Lupe und analysieren die mehrschichtigen technischen Innovationen, die hinter diesem Erfolg stehen. Sie diskutieren außerdem die konkreten Auswirkungen dieser Entwicklung auf den deutschen Unternehmenssektor.
Listen to other episodes

Shownotes & Links

We‘d love to show you a YouTube video right here. To do that, we need your consent to load third party content from youtube.com

Transkript

show / hide transcript

Robert Glaser: Herzlich willkommen zum INNOQ Podcast. Der liebe Ole ist heute wieder bei mir zu Gast. Hallo Ole.

Ole Wendland: Hallo Robert.

Robert Glaser: Schön, dass du da bist. Wir machen hier eine Notfallfolge, weil in der letzten Woche ganz viel passiert ist und wir wollten darüber mal quatschen, was so passiert ist, das für euch hoffentlich ein bisschen einordnen. Es geht mal wieder in unserem Podcast um das Thema AI. Letzte Woche habt ihr vielleicht mitbekommen in den News - wenn ihr ganz nah dran seid oder wenn ihr ein bisschen weiter weg steht - dass ein Wal an den Strand gespült wurde. Die erste Metapher rutscht mir hier raus, und zwar kam das Foundation Model bzw. Large Language Model DeepSeek R1 an den Strand und liegt jetzt da. Das ist eine ganz passende Metapher, finde ich, weil das Logo von DeepSeek, dem AI Lab aus China, ja auch ein Wal ist. Hat sich offenbar den Walen verschrieben. Das liegt jetzt da. Was machen wir damit? Das hat in den News Wellen geschlagen und es hat nicht nur in den Nachrichten Wellen geschlagen. Es hat vor allen Dingen auch an der Börse Wellen geschlagen, Ole, oder? Was ist denn da passiert?

Ole Wendland: Ja, alle, die sich für Aktien interessieren, waren quasi gezwungen, sich damit zu beschäftigen. Der Nvidia Aktienkurs ist steil bergab gegangen, nachdem es eigentlich nur eine Richtung gab: bergauf. Ich glaube, der größte Verlust der Tech-Börse, Tagesverlust ever in der Geschichte - 600 Milliarden vernichtet. Also, was heißt vernichtet? Ist nach unten gegangen. Ich finde diese Wal-Assoziation übrigens lustig. In dem Sinne habe ich noch gar nicht drüber nachgedacht, weil so ein Wal ja meistens nicht so gut riecht, wenn er am Strand angelandet ist. Eigentlich finde ich das Modell sehr elegant.

Robert Glaser: So, bisschen falsch gegriffen die Metapher meinerseits. Der Wal ist lebendig, schön und schwimmt. Er ist aber da in unseren Gewässern. Deswegen gucken wir uns den Wal doch mal an. Was ist denn eigentlich passiert? Also, ich fasse es mal kurz zusammen: DeepSeek ist ein AI Labor aus China. Das gehört zu einem Hedgefonds namens Highflyer. Könnt ihr einfach mal googeln oder andere Suchmaschinen nutzen. Das bringt hier so ein bisschen den Rahmen. Der Mensch, der dieses DeepSeek AI Lab gegründet hat, ist chinesischer Milliardär und man findet zu dem gar nicht so wahnsinnig viel. Es gibt aber ein, zwei Interviews, die sehr interessant sind. Da hat man ihn unter anderem gefragt, warum er denn sowas tut - Foundation Models zu entwickeln. Wie er zumindest sagt, hat er wenig kapitalistisches Interesse daran, sondern sehr viel Forscherinteresse.

Aber das nur am Rande als Info, um einzuordnen, wer dieses Modell baut und trainiert. DeepSeek R1 ist quasi ein Reasoning Modell. Viele von euch kennen sicherlich ChatGPT - wir machen hier noch mal eine kurze Einordnung, nicht als Modell, sondern als Produkt um das Modell GPT-4o herum. Das heißt, wenn ihr ChatGPT benutzt, nutzt ihr alle GPT-4o als Foundation Model. Und in ChatGPT gibt’s mittlerweile so einen Junk Drawer, einen liebevollen, wo man das Modell seiner Wahl für den jeweiligen Chat auswählen kann. Da befindet sich 4o drin, da gibt’s jetzt auch ganz neu 4o mit geplanten Aufgaben. Da kann ich auch sagen, schick mir bitte einmal pro Woche mittwochs ein Nachrichten-Update für meine Interessen im Bereich KI und Java-Entwicklung. Dann erfüllt er eben diese Aufgaben.

Dann gibt’s noch andere Modelle, es gibt die alten - GPT-4, 3.5 gibt’s, glaube ich, gar nicht mehr zur Auswahl, sollte man unter keinen Umständen mehr benutzen. Und neu ist seit letztem Jahr, dass man dort o1 auswählen kann bzw. o1 Mini. Je nach Tarifstufe, die man in ChatGPT gebucht hat, hat man das zur Verfügung oder eben nicht. Mit einem Free Account hat man es, glaube ich, nicht zur Verfügung. Was sich jetzt bei o3 - die Modelle erscheinen wieder im Vier-Wochen-Takt Ole, diese Folge wird wahnsinnig schnell veralten - seit dieser Woche gibt es noch o3-mini und bald werden wir o3 sehen. Das sind alles Reasoning Modelle.

o3-mini kann ich, glaube ich, sogar als ChatGPT Free Nutzerin oder Nutzer nutzen. Auch da gibt’s ein Rate Limit. Das müssen wir aber hier gar nicht im Detail ausbreiten. Wo ist jetzt der Unterschied von einem Reasoning Modell wie o1 zu einem Standard Foundation Model wie GPT-4o oder Claude 3.5 Sonnet? Magst du das mal erklären, Ole?

Ole Wendland: Sehr gerne. Gerade, wo du es erwähnt hast, müssen wir den Tag und die Uhrzeit noch erwähnen, wie bei guten Podcastern, weil die Nachrichten wirklich gerade veralten. Wir nehmen am 4. Februar um 10 Uhr auf. Es geht halt unfassbar schnell. Was ich gestern noch mitgekriegt habe: OpenAI hat die Research angekündigt, was wohl intern wieder auf dem richtigen o3 Modell basiert, also nicht o3-mini, sondern im vollen o3 Modell. Das kostet zurzeit. Das ist wahnsinnig deep hier in der Folge. Vielleicht ist das die Retourkutsche, weil sie das R1 von o1 das Namensschema sich übernommen haben. Jetzt kommt OpenAI zurück und sagt, dann nennen wir unser nächstes Ding auch Deep.

Robert Glaser: Lass uns aber die Deep Research Geschichten, die es ja auch bei Google gibt, ein bisschen ausklammern. Da geht’s nämlich schon Richtung Agenten und da sollten wir mindestens mal eine extra Folge zu aufnehmen.

Ole Wendland: Sehr gerne. Aber um auf deine Frage zurückzukommen: Man soll sie ja nicht zu sehr vermenschlichen, aber vielleicht hilft es für die Konversation - es gab dieses Buch “Schnelles Denken, langsames Denken”, wo System 1 und System 2 vorgestellt wurde. Die normalen Chatmodelle, also ein Claude Sonnet oder GPT-4o, basieren primär auf System 1 Denken. Es nimmt sich also eine Frage und antwortet aus seinem Gedächtnis, was schon gut ist, weil es ein richtig großes Gedächtnis hat im Vergleich zu Menschen.

Die Reasoning Modelle sind eher Richtung System 2 angelegt. Sie haben sowas wie einen inneren Monolog. Wenn man ihm eine komplexe Frage stellt, sei es eine schwere Multiplikationsaufgabe 128 x 17, dann denkt es erstmal drüber nach: Wie muss ich denn schriftlich multiplizieren? Oder wenn man ihm eine Informatik-Aufgabe stellt - “schreibe mir einen REST Controller” - dann denkt es erstmal nach: Was ist mit Sicherheit? Was sollte ich rausloggen? Sollte ich Retry einbauen? Es schafft sich erstmal in seinem Kontext ein Feld drumherum: Woran sollte ich auch noch denken? Es lädt dann quasi sein Kontextfenster auf in so einem inneren Monolog und fängt erst dann an, diese Antwort zu generieren. Diese Antworten sind in nahezu allen Fällen viel besser, als wenn es direkt nur aus seinem Gedächtnis geantwortet hätte.

Robert Glaser: Okay, ich fasse das mal zusammen. Die Foundation Models wie GPT4o, Claude 3.5 Sonnet, Gemini 2.0 basieren alle auf der Technik, dass sie sofort Tokens rausströmen und für uns ersichtlich im Chat anfangen zu plappern. Wir sehen ja, wie die Tokens bzw. der Text für uns als Tokens in Text überführt werden und rausprudeln. Das ist für mich manchmal auch eine schöne menschliche Eigenschaft, die man bei einigen Menschen sieht - wir sind alle anders, alle unterschiedlich und das ist auch gut so. Manche müssen eben einfach mal anfangen zu plappern, um Gedanken zu formen. Böse Zungen behaupten, dass es bei mir auch so wäre. Ich würde das auch nicht abstreiten wollen.

Das wird auch oft kritisiert bei Foundation Models, dass sie eigentlich keinen Gedankenprozess machen. Sie können per Definition nicht nachdenken. Wenn man sich aber rein auf der Ebene aufhält, was können die per Definition und was nicht - das kann man in der akademisch-philosophischen Diskussion tun, ist auch zum gewissen Grad unterhaltsam. Was für uns eigentlich relevant ist als IT-Entwickler, Architekten oder Praktiker ist: Wie funktionieren die? Was können die besonders gut und wie können wir das nutzen?

Du hast jetzt die sogenannten Reasoner - kürzen wir das mal ab - die Reasoning Foundation Models kurz eingeordnet. Hier geht’s also drum, dass die nicht sofort anfangen für uns ersichtlich Tokens rauszusprudeln, sondern die gehen erstmal in einen sogenannten Gedankengang über. Das nennt man Chain of Thought. Eigentlich fangen die auch direkt an zu plappern. Das ist ja das Interessante. Es ist eher in der UX, wenn wir das z.B. bei ChatGPT o1 benutzen oder o3-mini zum Aufnahmetag dieser Folge, dann sehen wir ein etwas anderes UI, nämlich steht da “Thinking” oder “Reasoning”. Die ändern das aktuell relativ oft. Da kann ich was aufklappen und wenn ich das aufklappe, dann sehe ich so drei bis fünf, manchmal auch mehr, je nachdem wie komplex das Problem ist, mitartige Texte, was das Ding gerade macht.

Robert Glaser: Interessant ist aber, das sind nicht die Reasoning-Tokens, die das Ding produziert. Das ist eine sehr stark zusammengefasste, quasi zensierte Form von OpenAI. Und wir können auch, glaube ich, direkt sagen, warum die uns nicht den vollständigen Gedankengang in ChatGPT zeigen - nämlich gibt es reale Befürchtungen, dass man den rohen Chain of Thought, den rohen Gedankengang, würde man den immer unverändert ausgeben, können andere AI Labs hingehen, sich den schnappen oder einfach selbst die API nutzen von OpenAI und ihre Modelle anhand dieser Gedankengänge trainieren.

Aber jetzt haben wir erstmal grob eingeordnet, was bei diesem Reasoning eigentlich passiert. Die fangen, wie die anderen Modelle auch, die kein Reasoning machen, an zu plappern, nur sie haben halt erstmal ein anderes Ziel. Sie sollen nicht direkt die Antwort formulieren, sondern sie sollen erstmal ihren Weg zur Antwort darlegen. Und am Ende, wenn sie denken, sie haben es jetzt - das dauert auch unterschiedlich lange, da gibt’s natürlich auch Limits, wie lange sie das tun dürfen - dann kommen sie erst zur finalen Antwort, die wir dann rauskriegen.

Ole hat es gerade gesagt, es gibt Dinge, die Large Language Models - ich wechsel jetzt zu Foundation Models, weil es eigentlich der korrektere Begriff ist - per Definition nicht gut können können. Das sind Dinge wie Zählen, Mathematik und so weiter. Ihr könnt einfach mal in eurem ChatGPT reinwerfen, nehmt GPT-4o und lasst die “R” in dem Wort “Strawberry” zählen. Es wird vermutlich falsch sein. Wenn ihr Zugriff auf o1 oder o3-mini habt - o3-mini solltet ihr mindestens nutzen können - dann könnt ihr das ja mal auch probieren und da wird das Ergebnis so gut wie immer richtig sein.

Das ist einfach eine Erkenntnis, die man hatte in der Modellentwicklung, dass dieser sogenannte Chain of Thought relativ wichtig ist, um die Ergebnisqualität zu verbessern. Wie bekommt man eigentlich einen Chain of Thought her, Ole? Du hast es gerade anhand des Buchs erklärt. Aber es ist, glaube ich, auch eine relativ beliebte Prompting-Technik, oder?

Ole Wendland: Ja, auf jeden Fall. Man hat das Kontext-Window, also das was es nimmt, um sein nächstes Token zu berechnen, immer schon versucht mit Informationen aufzuladen, Dokumente reinzugeben. In dem Fall greift es auf Wissen zurück, was es aus dem Pretraining hat. Irgendwann hat man sich überlegt, ob man das nicht automatisieren kann. Es ist wie du schon sagst, es ist ein Paradigmenwechsel. Es werden mehr Tokens zur Testzeit verwendet. Es denkt jetzt drüber nach, es braucht länger um zu antworten, was auch nicht in jeder Aufgabe gut ist. Es gibt auch bestimmt Aufgaben, wo man das nicht möchte, gerade bei Batch-Aufgaben. Also mir persönlich ist es egal, ob die Antwort jetzt nach 5 oder nach 15 Sekunden kommt, aber wenn ich 100.000 Datensätze durchjagen muss, dann will ich das nicht unbedingt immer haben.

Es sind halt mehr Tokens zur Testzeit, aber es stellt sich raus, bei komplexen Aufgaben braucht man das einfach. Das ist das Gebiet, wo die größten Sprünge an Leistung in letzter Zeit gemacht wurden. Das Pretraining hat man mittlerweile gut im Griff. Der Datensatz wächst auch nicht ins Unendliche und jetzt fragt man sich, wie können wir diese Daten eigentlich besser nutzen?

Robert Glaser: Ich muss dich noch mal kurz ausbremsen. Ich fasse noch mal zusammen: Chain of Thought war und ist immer noch eine beliebte Prompting-Technik, zusammen mit Few-Shot eine der erfolgversprechendsten - zumindest für etwas komplexere bis hin zu komplexen Aufgaben. Was man da tut ist, wenn ihr schon mal ein Prompt geschrieben habt, wenn ihr ChatGPT benutzt habt - der hat das schon mal gepromtet. Es gibt so eine Technik, die nennt sich Chain of Thought, und die heißt nichts anderes als in meinen Prompt reinzuschreiben, sehr vereinfacht gesprochen: “Denke schrittweise nach” oder “Gehe schrittweise vor und antworte erst dann mit deiner finalen Antwort.”

Robert Glaser: So ein Satz reicht vollkommen aus, um den Kontext so zu modifizieren, dass das Modell erstmal - es muss ja per Definition anfangen zu plappern - fängt auch weiterhin sofort an zu plappern, aber es plappert erstmal eine Art von Gedankengang. Da können Dinge drin stehen, je nachdem was das Modell entscheidet, wie umfangreich es diesen Chain of Thought darlegt. Da steht dann zum Beispiel: “Okay, um diese Aufgabe zu lösen, muss ich erstmal mein Wissen im Bereich Medizin nutzen. Von mir wurde verlangt, dies und das zu lösen, also darf ich nicht die erstbesten naheliegendsten Antworten nehmen, sondern muss erstmal um die Ecke denken.”

Entscheidend ist, dass der Chain of Thought vor der finalen Antwort ausgegeben wird, denn diese Tokens müssen vorher produziert werden. Wenn wir Feature-Prompts schreiben, keine ChatGPT-Nachrichten, sondern Prompts, die Antworten erzeugen sollen, die wir in unseren Produkten verwenden, dann wollen wir wahrscheinlich eine strukturierte Antwort, vielleicht im JSON-Format, vielleicht in XML. Dann würde man sich diesen Chain of Thought in ein extra Tag oder einen extra Key legen, der vor dem eigentlichen Ergebnis-Key geschrieben wird.

Das ist Chain of Thought - im Prinzip sehr vereinfacht nichts anderes als zu sagen: “Gehe schrittweise vor, gebe dann deine Antwort aus.” Es gibt noch umfangreichere Varianten dieser Prompting-Technik, wo ich den Chain of Thought als Mensch vorgebe. Ich könnte ihm - wir sagen beide immer “ihm” und “er”, wir vermenschlichen also diese Modelle schon - auch sagen: “Bevor du deine Antwort triffst, mache erst Schritt eins, dann guck dir mal Schritt zwei an und als dritten Schritt machst du bitte erst das, und dann gibst du deine finale Antwort.” Also ich baue ihm, ich kaue ihm den Gedankengang eigentlich schon ein bisschen vor. Das ist auch eine Variante von Chain of Thought.

Robert Glaser: So, und jetzt stehen wir vor diesen Reasoning-Modellen und müssen uns diese Prompting-Technik eigentlich wieder abtrainieren. Die API-Dokumentation sagt, wir dürfen sie nicht mehr anwenden, weil das Modell ja schon darauf trainiert ist, diesen Gedankengang selbst auszugeben und sich den auch so zurechtzustricken, wie es vermutlich am hilfreichsten ist. Wenn wir jetzt dazwischen grätschen als Menschen und sagen “nimm aber den Chain of Thought” oder “geh eben Schritt für Schritt vor” - was die sowieso tun - dann bringen wir das so ein bisschen aus dem Takt.

Jetzt haben wir, glaube ich, ein paar Dinge eingeordnet, die wissenswert sind, um zu besprechen, was nun mit diesem Wal namens DeepSeek R1 passiert ist. Ole, wurde R1 vorletzte Woche oder letzte Woche veröffentlicht? Ich glaube, vorletzte Woche, oder?

Ole Wendland: Nee, R1 wurde schon am 10. Januar veröffentlicht. Das hat nur keiner mitgekriegt, inklusive mir. Mir ist es auch erst bekannt geworden, als die Aktienkurse einbrachen. Aber tatsächlich wurde das am 10. Januar veröffentlicht und am 20. Januar haben sie die ganzen distillten Models, also da kommen wir auch noch gleich zu, was das ist, die ganzen kleineren Models veröffentlicht. Aber das ist so neu gar nicht. Es ist nur bei den meisten unterm Radar geflogen, inklusive bei mir.

Robert Glaser: Also ein steinzeitliches Modell schon. Zwei Wochen alt. Der wirklich spannende Teil ist ja, wie sie zu diesem Chain of Thought Reasoning gekommen sind, und da unterscheiden sie sich ja schon von OpenAI. Der Grund, warum OpenAI das immer so geheim gehalten hat, ist, dass sie mit gelabelten Daten gearbeitet haben. Also Menschen haben ihnen quasi vorgekaut, wie sie vorgehen müssen, wenn sie schriftlich dividieren oder wie sie vorgehen müssen, wenn sie diese oder jene Programmieraufgabe lösen. Das war natürlich viel Arbeit und darum wollten sie das natürlich geheim halten, darum hat man nie diesen richtigen Prompt gesehen.

Ole Wendland: Und die Idee, auf die DeepSeek jetzt gekommen ist: Was ist, wenn wir das ohne Menschen können? Sie haben sich überlegt, wie können wir weg von diesen gelabelten Daten, und sind dann zu Prinzipien gekommen, die man eigentlich eher aus der Robotik kannte. Policy Optimization - sie haben sich so einen Flavor daraus überlegt, GRPO - Group Relative Policy Optimization. Was man früher bei Policy Optimization immer brauchte, war ein Value Model, auch wieder ein relativ komplexes Model, was eigentlich bestimmen kann: Bewege ich mich in die richtige Richtung? Ist das eigentlich gut, was ich da mache?

Wenn du keine Labels hast, wenn du keine Menschen hast, muss ja irgendwer anders entscheiden, gehe ich in die richtige Richtung oder gehe ich in die falsche Richtung. Da diese Modelle fast genauso komplex sind wie ein Large Language Model selbst, haben sie sich überlegt, wie können wir das loswerden? Sie haben sich überlegt, dass man zu jeder Frage 64 Antworten generiert. Sie haben sich die Antwort und einen Lösungsweg zu der Antwort überlegt, und wenn die Antworten korrekt waren, dann haben sie die Lösungswege gerankt. Wenn du in der oberen Hälfte dieser 64er Group warst, dann wurden die verstärkt, und wenn du in der unteren Hälfte dieser 64er Gruppe warst - also die Baseline ist immer der Durchschnittswert der Gruppe - wenn du drüber warst, wurdest du verstärkt, wenn du drunter warst, wurdest du geschwächt. So haben sie es geschafft, dieses Value Model, was eigentlich bei dieser Policy Optimization benötigt wird, loszuwerden und sind auch die gesamten menschlichen Labeler und Trainingsbeispiele dabei losgeworden. Das ist schon revolutionär. Ich glaube, das Wort kann man da durchaus in den Mund nehmen.

Robert Glaser: Okay. Du hast ganz früh schon ein bisschen gespoilert, nämlich hast du von Destillaten gesprochen. Da sollten wir jetzt noch mal drüber sprechen. Kurz vorher versuche ich das noch mal abzubinden: Wir haben also einen mehrschrittigen Prozess gehabt bei DeepSeek, einen mehrschrittigen Entwicklungstrainingsprozess hin von V3, was etliche Innovationen in der Effizienz des Pretrainings schon gemacht hatte, hinzu einem Zwischenmodell R10, was enorme Benchmark-Sprünge produziert hat. Also der Weg von einem klassischen Foundation Model zu einem Reasoning Modell, analog zu GPT zu GPT-4o zu o1, was aber noch krumm geplappert hat. Und dann hat man einen letzten Schritt gemacht, auch wieder ohne Menschen, auch wieder eine Innovation zu einem wohlgeformten R1, das hohe Akzeptanzwerte bei menschlichen Nutzern erzeugt.

Du hast gerade noch erwähnt - lass uns da vielleicht noch kurz zu sprechen, bevor wir zu den Destillaten kommen, die auch super interessante Entwicklungen sind - dass China einem Chipbann unterliegt. Der wurde unter der Biden-Administration auch deutlich verschärft. China darf gar nicht mehr die fortschrittlichsten GPUs z.B. von Nvidia importieren. Nvidia hat da quasi ein Monopol. Was China lange importieren durfte, ist H800. Könnte man denken, oh, die Zahl ist doch höher, ist doch besser. Das ist eher umgekehrt.

Nun weiß man nicht, was bei DeepSeek so in den Rechenzentren steht. Es gibt Zahlen von Leuten, die sich mit der Materie auskennen, dass die 50.000 H800 hätten. Kann man alles nicht so genau belegen. Am Ende guckt man da auch nur von außen drauf und die wollen sich natürlich auch nicht so ganz in die Karten schauen lassen.

Robert Glaser: Wenn man sich die Analysen von Marcel Weiß durchliest - schönen Gruß an der Stelle, war auch schon hier im Podcast - gibt es Indikationen dafür, dass China natürlich so einen Chipbann auch versucht temporär zu umgehen. Zum Beispiel importiert Singapur sehr viel mehr GPUs, als sie dort Strom hätten, um die zu betreiben. An solchen Indikationen macht man fest, dass China eben Umwege kennt.

Interessant ist aber, wie auch immer die jetzt trainiert haben mit welchen GPUs, dass sie es irgendwie hingekriegt haben, in nicht monströsen Laufzeiten absolut vergleichbare Modelle zu trainieren. Und das kommt, sagen viele, eben auch durch die Constraints. Die können nicht so viele Chips haben und sich hinstellen, und vor allen Dingen nicht die Top-Chips, sodass sie Engineering nutzen müssen und so ein bisschen aus der Not Erfindungen machen müssen. Unter engen Constraints arbeiten Engineers ja oftmals auch sehr viel innovativer, als wenn die gebratenen Tauben quasi durch den Raum fliegen.

Aber jetzt lass uns doch mal zu den sogenannten Destillaten kommen. Hier reden wir nicht von Schnaps, aber es ist so ein bisschen ähnlich. Denn ich könnte ja jetzt sagen, Ole, lass uns doch mal den Wal runterladen und auf unseren MacBook Pros, die auch ganz gut ausgestattet sind, starten - da legen wir uns sehr schnell lang. Warum? Weil das Modell so groß ist. Was gibt’s für Alternativen? Was kann ich tun?

Ole Wendland: Ja, auch wenn es kein extrem großes Modell ist, ist es immer noch viel zu groß, um es auf einem normalen Notebook laufen zu lassen. Da kommen die Destillate ins Spiel, die sich einer Sache zu Nutze machen: Viele Daten, die man im Internet sieht oder die im Trainingslauf gesehen hat, sind redundant. Wir kennen das von Nachrichtenartikeln - “Die Ampel ist zerbrochen” - dieser Artikel kam in jeder Zeitung. In einem Crawl wird es auch hundertmal drüber gelaufen sein.

Eigentlich möchte man ja nur die Gestalt, die Struktur von diesem Wissen erhalten, und vieles ist redundant, vieles ist häufig auch mit Null belegt, weil es in bestimmten Bereichen keine Relevanz hat. Was ein Destillat macht: Es nimmt das große Model und stellt per API Anfragen. Man fragt quasi das große Model: Was hast du denn gelernt über Mathematik, über schriftliches Multiplizieren, über Physik, über Chemie? Es macht sich damit zu Nutze, was es in vielen Läufen auch über redundante Informationen gelernt hat. Mir fällt auch kein viel besseres Wort als Destillat ein - es nimmt halt die konzentrierte Form des Wissens und daraus trainiert man dann das Model.

Robert Glaser: Lass uns mal kurz gucken, was hier bei den DeepSeek R1 Destillaten speziell ist. DeepSeek hat nicht nur den Mutterwal veröffentlicht - also ein sehr sehr großes Modell von 671 Milliarden Parametern. Nicht ablenken lassen von dem B, das steht für Billion und da wissen wir ja, dass das im US-amerikanischen Sprachgebrauch für Milliarden steht. Also 671 Milliarden Parameter - das kann ich auf gar keinen Fall auch nicht auf zwei parallel geschalteten sehr gut ausgestatteten MacBook Pros betreiben, da brauche ich schon einen ordentlichen Cluster von Hochleistungscomputern.

Robert Glaser: Es gibt Versuche, dass man irgendwie neun Mac Minis zusammenschließt mit dem M-Chip, weil die Apple-Architektur eben Shared Memory hat und damit die GPU automatisch immer sehr viel mehr Speicher zur Verfügung hat, als würde ich mir irgendwie die Gaming-GPUs von Nvidia kaufen. Die sind oftmals bei 32 GB RAM zu Ende. Deswegen sind die Macs eigentlich relativ interessant, wenn ich lokale Modelle betreiben will, aber DeepSeek R1 ist einfach zu groß.

Das wissen die auch. Nicht jeder kann sich diesen Riesenwal in Betrieb nehmen. Auch wenn es für Unternehmen, gerade in Compliance-komplexen Situationen, natürlich ein enormer Wettbewerbsvorteil wäre, sowas zu tun, die eben keine Cloud-Modelle nutzen können. Deswegen haben sie parallel mit R1 mehrere Destillate veröffentlicht. Da haben sie im Prinzip bestehende Open Weights Modelle von unterschiedlichen Herstellern - Llama zum Beispiel von Meta, bis hin zu den Qwen-Modellen (Qwen ist auch ein chinesisches AI Lab, gehört zum Alibaba-Konzern) - sehr gute Modelle in verschiedenen Gewichtsklassen genommen. Das Llama-33 hat 70 Milliarden Parameter, die Qwen-Geschichten auch, wobei die hier Qwens mit 32 Milliarden Parameter und ein paar kleinere noch genommen haben.

Das sind alles Modelle, die kein Reasoning können, und denen haben sie jetzt quasi Reasoning rein destilliert von ihrem Mutterwal. Die haben sie also per Reinforcement Learning am Ende noch lernen lassen, dass sie eben Chain of Thought ausgeben, bevor sie ihre finale Antwort formulieren.

Robert Glaser: Das führt dazu, dass wir jetzt, wenn wir ein gut ausgestattetes MacBook Pro haben, uns einen Llama-33 mit 70 Milliarden Parametern runterladen können oder ein Qwen mit 32 Milliarden Parametern und können uns entscheiden, das R1-Destillat davon zu nehmen. Dann haben wir einfach auf unserem Rechner oder in unserem Rechenzentrum ein modernes Reasoning-Modell. Die sind natürlich im Modellgewicht immer noch extrem viel kleiner als der R1-Mutterwal, aber die performen bei komplexen Aufgaben besser als ihre Urvariante ohne diesen Reasoning-Part. Das ist auch ein ziemliches Achievement, das so nebenbei mit rausgetröpfelt ist.

Ole Wendland: Das ist gerade für uns und unsere Kunden extrem interessant. Das ist das erste Mal, dass man auch privat oder als Unternehmen ein Modell betreiben kann, was zumindest zu 80% an die Leistung der Topmodelle rankommt. Damit eröffnen sich ganz neue Welten. Man kann es intern betreiben, man ist nicht mehr datenschutzmäßig so eingeschränkt, man kann ihm sensible Daten mitteilen und es geht gar nicht mehr nach China oder in die USA, was ja für viele auch schon ein Dealbreaker ist. “Intelligenz wird eine Commodity” habe ich häufiger gelesen und das ist tatsächlich so - auf einmal kann man das privat oder als Unternehmen selber ausführen. Das ist auch eine Revolution, weil wenn man die Top-Level Performance haben wollte, musste man halt in die USA gehen vorher, und das muss man jetzt nicht mehr.

Robert Glaser: Ja. Das heißt, wenn ich als Unternehmen zum Beispiel eine schwierige Compliance-Situation habe, wo ich auch nicht mit US-amerikanischen Unternehmen Vertragsdinge abwickeln darf, dann bin ich eben leider raus, dann bin ich auch bei der OpenAI-Region bei Microsoft Azure in Schweden raus. Da muss ich eben gucken, und da steht Europa halt relativ nackt. Es gibt halt Mistral aus Paris, was konkurrenzfähige Modelle entwickelt, die aber Stand heute auch nicht mit den Frontier Models aus den USA konkurrieren können. Und die sind bis heute relativ kompliziert in ihren Lizenzen.

Auch das hat Mistral erkannt und geht jetzt wieder bei Apache 2.0, womit sie eigentlich mal angefangen hatten, wieder voll rein - das haben sie zumindest angekündigt. Aber die haben eigentlich eine eigene Lizenz gehabt für ihre fortschrittlichen Modelle, und dann war das auch nicht einfach mal so in Betrieb zu nehmen. Ich musste erst lizenzrechtliche Dinge klären oder eben deren Cloud nutzen. Aber wenn ich sogar keine europäischen Cloudanbieter nutzen darf, kann oder will, dann wird es langsam echt schwierig.

Das hat DeepSeek geändert mit diesen Destillaten von führenden Open Weights Modellen. Du hast es gesagt, ich kann mir jetzt so ein Ding auf dem Mac laufen lassen, ich könnte es auf dem Hetzner-Rechner oder irgendeinem anderen Cloudanbieter laufen lassen. Ich kann aber auch den DeepSeek-Mutterwal mir runterladen. Wie viel Gigabyte sind das, oder geht das schon in die Terabyte? Wahrscheinlich fast 700 GB, ne?

Ole Wendland: Ja, hohe dreistellige Gigabyte-Zahl.

Robert Glaser: Genau, und da muss ich eben gucken. Was stelle ich dahin, damit ich eben Inferenz damit betreiben kann, damit ich es überhaupt erstmal in den Speicher gehievt bekomme und damit ich Anfragen von Nutzern oder Features dagegen laufen lassen kann. Da muss ich ein bisschen mehr betreiben, aber ich kann das jetzt und ich habe jetzt auch die Lizenz - es ist die MIT-Lizenz, die lizenzrechtlich einfach ist in Anführungsstrichen. Ich kann starten. Es liegt eigentlich an mir als Unternehmen, wie gehe ich jetzt vor. Wenn ich die Kisten mir hinstelle oder eben anmiete beim Cloudanbieter, dann kann ich auch den Mutterwal in Betrieb nehmen. Wenn mir das zu teuer ist, nehme ich Destillate in Betrieb, aber wichtig ist ja, dass wir jetzt starten können.

Wir reden heute über Open Weights Modelle, die selbst ohne diese Destillate viel viel besser sind als das, was wir vorm Jahr hatten. Wir haben jetzt eigentlich GPT4-Level Modelle, die wir lokal oder in unserem eigenen Rechenzentrum betreiben können. Das gab’s vorm Jahr nicht. Da war finsterste Steinzeit bei lokalen Modellen angesagt. Jetzt haben wir sogar Reasoner-Modelle. Also ist spannend zu sehen, was wir in zwei Monaten wahrscheinlich haben werden.

Wenn ich jetzt, sagen wir mal, wir nehmen den Mutterwal in Betrieb in unserem Rechenzentrum bei einer Versicherung oder was auch immer. Dann müssen wir da schon einiges hinstellen. Wenn wir jetzt Inferenz dagegen laufen lassen, also wenn User ihre Fragen stellen oder unsere Features gegen die API trommeln und Antworten generiert bekommen von dem Modell, dann passiert was und das nennt man die Inferenz, also die Laufzeit. Du hast es ganz am Anfang schon Testtime genannt. Was ist hier bei Deepseek besonders? Ich habe gelesen, dass die gar nicht immer für jede Anfrage ihr volles Gehirn anwerfen, sondern nur Teile davon. Ole, wie funktioniert das und ist das schlau in Bezug auf Performance, Speicherbedarf, Stromverbrauch?

Ole Wendland: Ist es auf jeden Fall schlau. Man braucht nicht diese ganzen fast 700 Milliarden Parameter gleichzeitig. Wenn du was über Programmieren wissen willst, dann interessieren dich deine Backrezepte gerade nicht - obwohl sie einen meistens doch interessieren, aber das geht ja oft einher. Man kann ja ganz häufig Wissensgebiete voneinander trennen. Das ist jetzt auch keine Erfindung von Deepseek. Man nennt das Mixture of Experts. GPT4 war auch schon - also OpenAI ist ja nicht mehr ganz so open - aber man munkelt zumindest, dass GPT4 auch schon ein Mixture of Expert System war.

Das heißt, am Anfang hat man einen Router, der sagt, das gehört wahrscheinlich zu diesem Themengebiet, und dann aktiviert man immer nur einen Teil seiner Parameter. 37 Milliarden Parameter hat wohl so ein Expert von Deepseek. Aber sie haben das noch weiterentwickelt. Es gibt jetzt halt Meta-Experts und die Experts können jetzt auch miteinander reden. Da haben sie noch mal deutliche Effizienzsteigerung rausgeholt, weil es nicht mehr so ganz feste Bahnen sind, sondern sie die Bahnen etwas gelockert haben. Sie können sich ihre Trainingsergebnisse auch teilen. Also der Experte fürs Backen kann jetzt mit dem Experten für Mathe reden, um seine Mehlverhältnisse besser auszurechnen, und man musste nicht mehr diesem Experten für Backen auch die Mathe-Dinge beibringen.

Robert Glaser: Das heißt, Mixture of Experts ist ja auch wieder nichts Neues. Das hat Deepseek nicht erfunden. Wer es erfunden hat, wissen wir sowieso jetzt hier gerade ad hoc nicht, aber Modellentwickler sogar in Europa - Mistral - setzt Mixture of Experts schon seit vielen Modellgenerationen ein und die nennen sich dann Mixtral, diese Modelle.

Robert Glaser: Die funktionieren quasi so wie Ole beschrieben hat: Die gucken am Anfang - jetzt sehr vereinfacht formuliert - was ist das für eine Anfrage, welchen meiner Gehirnteile muss ich jetzt anschmeißen, welchen meiner Experten, und da wird dann die Antwort generiert. Das war relativ starr, und ein Durchbruch von Deepseek ist jetzt, dass das nicht mehr so starr ist. Wenn ich in der einen Gehirnregion lande bei dem neuronalen Netz, dann bin ich da nicht auf Gedeih und Verderb gefangen, und wenn da eben Anwaltswissen noch nützlich wäre oder beim Matheexperten auch noch Bäckereiwissen - ich weiß auch gar nicht, warum du da so drauf rumreitest - dann können die quasi Informationen austauschen untereinander.

Das macht’s ja, glaube ich, auch in der Inferenz für uns als Unternehmen billiger, oder? Wenn ich jetzt zwar diesen Riesenwal habe, knapp 700 GB, wo ich denke, der muss ja erstmal in den Speicher, und wenn die Inferenz läuft, wird der immer im vollen Umfang genutzt. Das ist nicht so, ne?

Ole Wendland: Der wird nur das genutzt, was man auch wirklich braucht.

Robert Glaser: Wie groß ist so ein Expert? Hast du da noch eine Hausnummer?

Ole Wendland: Man sagt 37 Milliarden Parameter.

Robert Glaser: Okay. Das ist also in der Größenordnung von einem Qwen 32B jetzt mal als Beispiel, was gut auf einem halbwegs gut ausgestatteten MacBook laufen kann. Und wenn wir jetzt mal ein bisschen hochskalieren gedanklich - der Wal bei uns im Rechenzentrum, der in der Inferenz für jede Query effektiv nur 37 Milliarden Parameter hochfährt - genaue Zahl lassen wir mal so stehen, wir müssen hier so viel mit Zahlen jonglieren, hier ist auch schon alles voller Zettel bei mir. Aber in der Größenordnung ist das natürlich in der Inferenz sehr viel effizienter als immer den ganzen Wal aufzuwecken.

Das ist auch Haupttreiber dafür, einer der Haupttreiber, warum die Inferenz um Größenordnungen günstiger ist, als man das bei o1 vermutet. Bei dem noch aktuell führenden Reasoning Modell von OpenAI sehen wir ja nur die Kosten, die uns als Kunden in Rechnung gestellt werden für die Inferenz. Aber man kann sagen, die Inferenzkosten von R1 von Deepseek sind ein Zehntel der Inferenzkosten von o1. Wir kennen die internen von OpenAI nicht, aber es wird wahrscheinlich eine Marge drin enthalten sein, deswegen kann man es nicht eins zu eins vergleichen, aber ein Zehntel ist schon erstmal hochinteressant, wenn wir das lokal in Betrieb nehmen wollen oder im Rechenzentrum.

Lass uns doch noch mal zu diesem Destillieren kurz zurückgehen. Was da ja passiert ist, dass ein großes Modell ein kleineres lehrt, schlauer zu werden. Oder Modelle sich sogar selbst lehren, wie zum Beispiel in dem Zwischenschritt von R10 zu R1. Für mich riecht das so ein bisschen, als passiert hier gerade was Großes. Wenn ich - also wir wollen jetzt hier nicht diese elenden Skynet-Metaphern bemühen - aber wenn wir sehen, dass Modelle andere Modelle anlehren oder sich selber lehren und danach deutlich besser sind, passiert hier ganz offenbar was, was uns wahrscheinlich wieder einen beträchtlichen Streckenteil weiterbringt oder eben unendlich lang weiterbringt.

Robert Glaser: Das ist die große Frage, die wahrscheinlich heutzutage niemand beantworten kann. Es werden ja Aussagen getroffen von Leuten wie Sam Altman, der Weg zu AGI wäre prinzipiell verstanden. Der lässt sich natürlich nicht in die Karten gucken, das tut hier noch niemand. Wahrscheinlich ist das ein Teil des Weges oder der Anfang des Weges, sagt zum Beispiel Ben Thompson, der macht die Publikation Stratechery. Der redet von einem AI Takeoff - er mutmaßt, er kann es ja auch nicht wissen. Er ist Analyst, aber er redet hier von einem möglichen AI Takeoff. Was ist ein AI Takeoff?

Ole Wendland: Das ist genau, was du schon beschrieben hast, dass AI AI trainiert quasi wie bei Alpha Go und dadurch, dass sie miteinander reden, besser werden als die Summe der Inputs, die vorher durch Menschen erzeugt wurden. Wobei ich das ein bisschen einschränken muss: Wir sehen keine revolutionär neuen Fähigkeiten, wir sehen nur Augenhöhe mit anderen, was eine riesen Leistung ist. Sie haben tatsächlich in ihrem Paper auch ein Segment darüber geschrieben über Reinforcement Learning und wo sie die Grenzen sehen.

Man sieht keine neuen Fähigkeiten, keine “enhanced capabilities” haben sie es genannt. Es geht eher darum, Wissen, was schon in diesen Modellen drin war, besser zu heben. Ich sehe den Takeoff zu AGI da noch nicht so ganz. Es ist eher eine Effizienzsteigerung der Modelle und es macht sie für alle verfügbarer. Es wird aber nicht der reine Weg zu AGI sein. Das sieht man auch so ein bisschen an der Arc AGI Challenge von François Chollet.

Ole Wendland: Da schneidet es nicht revolutionär besser ab. Da ist das o3 Model von OpenAI - also diese Arc AGI Challenge ist ein Benchmark, der speziell dafür entwickelt wurde, sie darauf zu testen, wie sie mit unbekannten und mit abstrakten Situationen zurechtkommen. Also Dingen, die sie nicht im Pretraining gesehen haben, weil François Chollet immer gesagt hat, die machen zu 80% Memorization, also sie geben das wieder, was sie in ihrem Pretraining gesehen haben. Sie können aber nicht abstrakt und nicht selber denken, sie können keine neuen Lösungsstrategien entwickeln.

Dafür wurde diese Challenge gegründet, wo er im April letzten Jahres noch 1 Million darauf gewettet hat, dass sie lange nicht gelöst wird, vielleicht nie gelöst wird. Dann hatte o3 im Dezember schon 88% gelöst. 85% ist das, was als Limit zum Lösen galt - das schafft ein Mensch in der Regel, 85% mit wirklich neuen Problemen. Technisch gilt sie als noch nicht gelöst, weil es ein Limit gibt, wie viel Leistung man da reinstecken darf. Man könnte das theoretisch auch brute forcen. Darum hatte man bei der Challenge einfach gesagt, wenn du so und so viel Computer reinsteckst, dann gilt das nicht mehr, um das Brute Forcing zu unterbinden. o3 hat diese Benchmark, also das Limit gerissen, darum gilt es offiziell noch nicht als gelöst, aber es hat nicht gebrute forced, sondern wirklich gedacht.

Robert Glaser: Die haben aber sehr hohe Inferenzkosten da investiert. Die genaue Summe habe ich nicht im Kopf, aber o3 hat um diesen Arc AGI Benchmark mit 88% zu schaffen, nicht einfach 10 Sekunden Chain of Thought machen lassen. Das war ein bisschen länger und das hat verdammt viel Geld gekostet. Das war auch nicht fünfstellig, das war auch, glaube ich, nicht mehr sechsstellig. Müssen wir noch mal gucken.

Robert Glaser: Tut hier auch nichts zur Sache, aber das kann man eben machen, wenn man von Skaleneffekten ausgeht. Lass uns den Weg zu AGI auch wieder verlassen. Das ist für uns alle heute, morgen, übermorgen vermutlich auch nicht relevant. Für uns ist eben relevant, was gibt’s jetzt, was können wir damit tun? Viele Leute sagen - ich predige das auch immer - wenn man heute ein internationales Moratorium ausruft, “AI darf nicht weiterentwickelt werden”, da brauchen wir immer noch als Menschheit 10 Jahre, um rauszufinden, was wir mit der bestehenden Technik denn alles machen können, weil die Use Cases endlos sind. Zwecktechnologie.

Was Moratorien betrifft und auch den EU AI Act, die haben jetzt eh ein Problem. Wenn die Dinger so groß sind, dass man sie lokal betreiben kann, dann ist das eigentlich alles relativ gescheitert, würde ich sagen. Da muss nachgebessert werden. Im EU AI Act stehen zum Beispiel Dinge wie Investitionsvolumina und sowas, die bei der Legislatur diese Skaleneffekte und Innovationseffekte, die wir jetzt hier so sehen, nicht berücksichtigt haben. Deswegen wird quasi eine automatische Kategorisierung von Grundlagenmodellen vorgenommen anhand der Trainingsinvestments. All das sinkt ja, die Inferenz wird billiger. Wir sehen eigentlich seit Monaten und Monaten nur die Preise purzeln, und zwar nicht klein, sondern in großen Maßstäben. KI wird nicht teurer, die wird billiger.

Robert Glaser: Wie ist es wenn wir o3 jetzt schon vorgegriffen haben - das ist zu Anfang teuer, und am Ende ist auch das Skaleneffekten unterlegen. Du hast ja am Anfang von Aktienkurs-Talfahrten gesprochen, speziell jetzt mal die Nvidia-Aktie. Stand Anfang Januar oder Ende letzten Jahres galt ja Nvidia so als der Monopolist, der einzig fähige Konzern GPUs in einer Größe und Effizienz zu bauen, wie das eben niemand anders konnte. Und die brauchten alle, weil man immer davon ausging, dass der Skalierungsfahrt der Foundation Models das Pretraining ist.

Davon ist man ja nun weg, denn man hat quasi den Pfad gewechselt, weil die Skalierungskurve stark abgenommen hat. Ilia Sutskever hat - ich zitiere ihn jetzt mal - gesagt: “Daten sind das neue Fossil Fuel.” Das fossile Öl. Deswegen hat es keinen Sinn, daran ewig festzuklammern und es war eigentlich schon aus. Die Skalierungskurve geht jetzt wieder steil hoch, weil man jetzt eben auf die Inferenzebene gewechselt ist. Das, was nicht mehr im Training passiert, sondern während die Antwort geschrieben wird, das skaliert man nun über die Testtime Compute, also die Inferenz. Die Antworten dauern bewusst länger, als sie es vorher getan haben, dafür werden sie besser. Am Ende ändert sich das auch wieder, dass die so viel länger dauern. Auch das ist Skaleneffekten unterworfen.

So, da sind wir jetzt auf der Skalierungskurve. Wenn wir uns jetzt mal angucken, wo stehen wir heute? Vor allen Dingen mit DeepSeek R1, dann haben wir eben ein Reasoning Modell, was ich effizient auch bei mir im Rechenzentrum betreiben könnte oder in seiner destillierten Form auch auf lokalen Computern. Wir haben jetzt darüber gesprochen, was DeepSeek R1 und die Destillate alles so können - und was eben nicht, darüber haben wir noch nicht gesprochen. Was kann es denn nicht?

Ole Wendland: Was es im Moment noch nicht kann, Anfang Februar: Es kann keine Funktionsaufrufe, was es ein bisschen schlechter macht, wenn es drum geht, es irgendwo einzubauen und man gerne hätte, dass es aus seiner eigenen Datenbank sich Daten zieht. Es kann auch keine Bilderkennung, also es kann aus PDFs Text extrahieren, aber es kann keine Bildbeschreibung geben.

Man sagt, es ist etwas schwächer, was Text und Kreativität und Marketing angeht. Also sprachlich ist es nicht ganz so stark wie die anderen Modelle. Es ist ein Mathe- und Naturwissenschaftsmodell. Da hat sie das Reinforcement Learning hin getrieben. Das liegt so ein bisschen in der Natur der Sache: Für dieses Reinforcement Learning mit Policy Optimization musst du das ja irgendwie klassifizieren. Und wenn du den Menschen als Klassifizierer oder als Labeler rausnimmst, brauchst du in der Regel Probleme, wo du einen harten Maßstab anlegen kannst. Da sind Mathe und Naturwissenschaften und Physik natürlich dankbar, oder Programmierung/Informatik.

Marketing-Text könnte man jetzt durch einen A/B-Test vielleicht verifizieren, aber da werden die Möglichkeiten schon eng, das zu automatisieren. Darum ist es einfach besser, was Mathe und Technik angeht. Es sind sogar STEM Skills.

Robert Glaser: STEM Skills, genau. Aber lass uns mal kurz beim Faktor Text bleiben. Du bist ja erwiesenermaßen ein Claude-Fan, das Modell von Anthropic. Viele bei uns lieben Claude, nutzen Claude. Ich glaube, nicht unbeträchtlicher Faktor warum das so ist, ist eben die Default-Tonalität von Claude, die wirklich sehr sehr gut ist.

Robert Glaser: Deswegen nutzen viele lieber Claude als zum Beispiel ChatGPT. Das lässt sich nicht festmachen, weil es immer vom Prompt natürlich abhängt, was da rauskommt, aber so die Default-Tonalität, da hat Anthropic schon richtig investiert. Das System-Prompt von Claude kann man sich auch mal durchlesen in der Doku. Da findet man auch so ein bisschen, warum das eben so ist und was denen wichtig ist. Die verfolgen so ein bisschen unterschiedliche Richtungen bei ihren Entwicklungszielen.

Aber letztendlich kann ich ja jedes Modell in die Tonalität lenken, die ich eben gerne hätte oder die ich für mein Feature brauche. Wenn ich zum Beispiel sage, schreib mir fünf Social Media Ankündigungsentwürfe für LinkedIn zu diesem Artikel zu Spring Boot, dann kriegen wir fünf verschiedene, aber das Modell muss raten, wie sollen die sich denn unterscheiden? Da könnte ich sagen, schreib mal die für fünf verschiedene Zielgruppen oder aus fünf verschiedenen Perspektiven auf das Thema. Nutze fünf unterschiedliche Kernfragestellungen, die für die Zielgruppe relevant sind.

Entscheidend ist aber die Tonalität, gerade in so Marketing Use Cases, die muss einfach zur Marke passen. Und da gibt’s die Prompt-Technik der Few Shot Examples. Fast keine ist so wirkungsvoll wie die. Ich kann endlos versuchen zu beschreiben, wie es denn nun bitte zu klingen hat der Text. Wenn ich einfach Beispiele reingebe, ziehen die wahnsinnig viel besser als alles Geschwaller, was ich von mir gebe, wie es bitte klingen und nicht wie Marketing klingen soll, eher neutral, aber schon interessant - wenn ich einfach zwei, drei Beispiele reinwerfe, ist das viel viel besser.

Robert Glaser: Wenn ich das bei DeepSeek R1 tue, dann würde ich jetzt einfach mal wetten, funktioniert das genauso gut wie bei allen anderen Frontier Models. Man geht oft, glaube ich, auch von der Default Prompt-Technik aus, nämlich keine Prompt-Technik zu verwenden. Du, wir reden hier von dem chinesischen Modell, und als Europäer sollten wir über einen wichtigen Punkt reden: Ist dieses Modell denn in seinen Antworten beschränkt? Das heißt, wenn ich jetzt Fragen zum Tiananmen-Platz stelle oder zur geopolitischen Lage von Taiwan, was bekomme ich da für Antworten?

Ole Wendland: Ja, es ist beschränkt. Es hat schon einen sehr chinesischen Blick auf die Welt. Gut, andere Models sind auch gefärbt - das passt wahrscheinlich einfach mehr zu unserem Kulturkreis. Zensur ist definitiv ein Thema. Also als freier Journalist würde ich meine Recherche nicht über R1 machen.

Ein kleiner Lichtblick darin ist: Es ist wohl notorisch einfach zu jailbreaken. Also Sicherheitsbarrieren, die später drauf codiert wurden, sind wohl relativ leicht zu umgehen. Es gibt schon sehr viele Memes, wie man R1 dazu bringen kann, doch über den Tiananmen-Platz zu reden oder Xi Jinping mit Winnie Pooh zu vergleichen. Nahezu jeder Jailbreak ist wohl erfolgreich, was die Zensur dann wieder ein bisschen rausnimmt.

Was allerdings auch - Golem hatte gestern einen Artikel dazu - Sicherheitsforscher haben die klassischen Jailbreak-Techniken probiert und jeder einzelne war erfolgreich. Also, das ist auch noch eine Schwäche. Wenn man das intern einsetzt, wird man sich über solche Safeguards mehr Gedanken machen müssen, und wenn man es gerade Customer-facing einsetzt, wird man damit Spaß haben, dem Modell auszutreiben, über irgendwelche anderen Sachen zu plappern oder die Konkurrenz zu empfehlen.

Robert Glaser: Das muss ich natürlich bei allen anderen auch. Wenn ich einen Chatbot ins Netz stelle und der soll irgendwie Service-Anfragen beantworten, dann habe ich ja auch ein rein ökonomisches Interesse, dass die Leute nicht irgendwie sich Winnie-Pooh-Gute-Nacht-Geschichten davon schreiben lassen oder sonst was damit tun. Das bezahle ich denen dann halt.

Ist schön, wenn sie es können, muss ich aber so ein bisschen lenken und mit Guard Rails versehen, dass das eben nicht passiert. Was du gerade gesagt hast, das geht oft unter, wenn man sich die Modelle vergleicht und anguckt. Wo meiner Meinung nach viel zu wenig drüber gesprochen wird, ist die Multimodalität, die ja auch ein absolut entscheidendes Feature ist, als nur Text zu beherrschen. Wenn ich nämlich ein Modell habe, was auch Bilder analysieren kann, dann kann ich ja vollkommen anders denken, wenn ich Features baue. Also, ich könnte auch ein wildes Modell daneben stellen, muss ich dann auch wieder betreiben, dann auch wieder eine extra API.

Multimodalität ist schon interessant. Das geht ja auch weiter als Text und Bild - Audio, Video und so weiter. Alles, was ich gut in Tokens abbilden kann und in die Transformer passt, ist eben relevant. Molekülstrukturen ja auch. Das ist tatsächlich ein harter Punkt, dass es eben noch nicht multimodal ist, wobei man da fairerweise sagen muss, dass das die anderen Reasoning Modelle auch von OpenAI auch noch nicht sind. Ich glaube, die können auch nur Text. Vielleicht rütteln sie gerade stückweise noch PDFs raus oder sowas.

Ole Wendland: Auch das ist der Aktualität unterworfen, aber Stand heute können die bei Leibe nicht so viele Modi wie ein ChatGPT 4o. Das muss man einfach sagen. Ich kann auch nicht mit denen reden, ich kann denen kein Live-Video-Stream reinjagen. Alles was ChatGPT 4o kann. Wenn ich solche Use Cases ermöglichen will, muss ich das eben auch im Blick haben. Tool Use hast du kurz angesprochen, Funktionsaufrufe auch - wenn ich zum Beispiel ein System bauen will oder ein Feature, wo das Modell eben agentische Züge hat und sagt, ich rufe jetzt noch mal die API hier von dem Versicherungssystem auf, um mir Verträge ausleihen zu lassen und die in meine Antwort mit einzubeziehen, dann geht das nicht mit so einem Modell. Das muss eben ein Modell sein, was einen sogenannten Tool Use beherrscht. Das können aber, glaube ich, die Destillate, oder?

Robert Glaser: Wenn nicht, können sie es bald. Ich würde wetten, dass sie es zum Ende des Monats können. Das ist tatsächlich, glaube ich, einfach nur der Aktualität gerade geschuldet, dass sie das noch nicht können. Mir würden keine technischen Gründe dafür einfallen.

Ole Wendland: Ich meine, das ist jetzt die Entwicklung der letzten ein, zwei Wochen, die schon Trainingssache ist.

Robert Glaser: So, ich glaube, wir haben den Wal so jetzt einmal umrundet. Wir haben sicherlich viele Facetten links und rechts ausgelassen, auslassen müssen. Ich hoffe, wir konnten euch einen ganz guten Überblick geben, was denn so passiert ist. Warum Aktienkurse runtergepurzelt sind - der Aktienmarkt bildet ja zumindest kurzfristig gesehen auch nicht das ab, was sich tatsächlich verändern wird, sondern eine momentane auch sehr emotionale Wahrnehmung von Technologien und technologischer Weiterentwicklung.

Robert Glaser: Man muss, glaube ich, den Long Run immer im Blick haben, nicht nur auf heute betrachten. Was ändert sich heute, sondern es ist eben total interessant, was ändert sich durch solche Durchbrüche, die jetzt zahllos passiert sind. Es gab nicht den einen entscheidenden Durchbruch bei DeepSeek R1. Das ist eigentlich eine Summe von Engineering-Triumphen kleinerer und größerer Natur, wo alle, glaube ich, von lernen können. Das ist immer interessant im Blick zu haben, was sich auf der langen Ebene ändert. Raten können wir alle nicht, welche Modelle wir in zwei Monaten benutzen. Es ist aber, glaube ich - wie würdest du das sehen, Ole? Ein gutes Investment heute viel Erfahrung mit diesen Reasoning Modellen aufzubauen, oder?

Ole Wendland: Auf jeden Fall. Es ist immer ein gutes Investment, Wissen aufzubauen. Ich finde es total spannend. Für mich gefühlt hat die AI-Entwicklung wieder rasant zugenommen in den letzten Wochen, würde ich sagen. Ich finde es auch schön, dass wir jetzt wieder ein echtes OpenAI haben, was den Namen auch verdient oder mehr verdienen würde als die richtige Firma. Und ja, wir haben spannende Zeiten. Ich lese wieder so viele Artikel und so viele Paper wie seit langem nicht mehr. Bin wieder Feuer und Flamme.

Robert Glaser: Ja, also ich komme auch nicht nach mit dem Lesestapel. Die IT ist für mich persönlich so spannend wie gefühlt seit 20 Jahren nicht. Mal gucken, was wir morgen nach Aufnahme dieser Folge wieder vor uns haben. Wir werden versuchen diese Folge - wir zeichnen am 4. Februar Dienstag auf - am Folgetag zu veröffentlichen, nämlich am Mittwoch den 5. Februar. Dann hört ihr uns frühestens.

Uns würde es gefallen, wenn wir Feedback von euch bekommen. Schreibt uns an [email protected]. Gerne mal eine Mail, wir lesen die, ich lese die, Ole liest die. Wir antworten auch. Wie fandet ihr das? Hat euch das geholfen irgendwie einzuordnen, was jetzt im Januar passiert ist? Wisst ihr DeepSeek R1 jetzt ein bisschen besser einzuschätzen? Wünscht ihr euch mehr von solchen Themen, wünscht ihr euch weniger davon? Welchen groben Mist haben wir hier verzapft?

Robert Glaser: Wir werden Fehler gemacht haben. Das ist ein weites Feld und sind bestimmt ein paar Dreher passiert. Wie gesagt, mein Tisch ist voller Post-its, deiner wahrscheinlich auch. Ich kann gar nicht mehr Tabs öffnen in meinem Browser und Fenster arrangieren auf meinem Screen hier. Lasst es uns wissen, wenn ihr einen Fehler gefunden habt. Oder sagt uns einfach, wie ihr es fandet. Das wird uns extrem freuen, denn wir haben noch so ein paar AI-spezifische Folgen in Planung. Die werden nicht kaskadiert kommen. Wir haben auch andere interessante Folgen zu Softwarearchitektur und -entwicklung im Podcast. Aber schreibt uns doch einfach mal. Ist immer schön von den Hörerinnen und Hörern zu hören, hört man viel zu selten. Damit schließen wir, oder?

Ole Wendland: Ja.

Robert Glaser: Wahrscheinlich müssen wir in zwei Wochen wieder eine Notfallfolge machen. Notfall in dem Sinne, dass wir aus unserem Podcast-Sendeplan ausgebrochen sind und einfach mal frech zwischendurch aufnehmen und sofort am Folgetag versenden. Das passiert auch nicht immer. War hier, glaube ich, aber angebracht. Ole, war toll, dass du da warst, dass wir wieder gequatscht haben. Wir haben heute auch gar keine Zeit gehabt, mal übers Wandern zu sprechen oder über Kaffee. Vielleicht haben wir mal bald wieder eine ruhigere Folge, wo das am Anfang wieder drin ist.

Schreibt uns, viel Spaß beim Hören der anderen Folgen die noch kommen. Habt einen schönen Februar. Feiert schön Karneval, wenn ihr Rheinländerinnen und Rheinländer seid. Wir hören uns bald wieder. Macht’s gut. Tschüss.

Head of Data and AI

Robert Glaser leads Data and AI at INNOQ. With roots in software engineering and a passion for creating user-friendly web applications, he now guides companies through the AI landscape, helping them develop strategies and products for challenging technical problems. Fascinated by practical uses of generative AI in software, he hosts the podcast “AI und jetzt,” discussing AI’s potential across industries. Robert bridges tech and business, advocating user-centric digitization. Off duty, he enjoys exploring the local food scene.

Senior Consultant

Ole is a Senior Consultant and Software Architect at INNOQ in Switzerland. With his broad experience in software projects, he combines technical expertise with a deep understanding of the challenges faced by modern enterprises. His focus is on translating business requirements into sustainable, future-oriented solutions. As an all-rounder, Ole feels at home across the entire stack and continuously expands his spectrum of competencies. Along with his solid backend and frontend experience, he is deeply involved with Large Language Models (LLMs) and innovative applications of Foundation Models. Ole sees great potential in these technologies to optimize business processes and unlock new value creation opportunities for clients.