Von solchen Videos kann ich nicht genug kriegen falls es noch weitere zu anderen Rechtsbereichen geben würde würde ich die auf jedenfalls auch anschauen.😊
Super Video. Danke! Gert Scobel hat noch vor 2 Jahren ein Video zu den 'chatbots' erstellt. die meisten 'Prognosen' hat er falsch vorausgesagt und der Mensch sowieso als unersetzbar deklariert.
Großartiges Video! Kleiner Tipp: es gibt mittlerweile Lösungen wo man LLMs gegeneinander antreten lassen kann ohne immer das UI zu wechseln. Ein Anbieter ist ChatLabs
Für den Allround-Einsatz lässt sich aus dem Video-Fazit ableiten: • ChatGPT (aktuelles Modell, hier das „Pro“-Modell) ist meist am zuverlässigsten, wenn Du eine sehr breite Palette an rechtlichen oder formellen Texten abdecken willst. Es liefert strukturiert formulierte Texte und geht auf Details ein. • Gemini 2.0 hat sich speziell bei komplexen Strafsachen (hier z. B. die Einlassung bei der Verkehrsunfall-Akte) sehr gut geschlagen. Es kann die Argumentation schön zusammenfassen und eine geschickte Verteidigungsstrategie formulieren. • Anthropic/Claude (z. B. Claude 3.5) liefert oft sehr prägnante Zusammenfassungen und kann dabei die wichtigsten Punkte herausarbeiten, ist aber in manchen Fällen etwas oberflächlicher. Wann solltest Du was nehmen? • Arbeits- und Mietverträge: • ChatGPT (Pro-Modell) oder Claude sind gut, weil beide Verträge übersichtlich zusammenfassen und Dir gleich eine Art Fazit liefern: „Was ist zulässig, was ist kritisch?“ ChatGPT geht häufig nochmal auf wirtschaftliche und verhandlungstaktische Aspekte ein, Claude fasst präzise zusammen. • Strafrechtliche Fälle mit komplexen Akten: • Gemini 2.0 sticht hervor, wenn Du eine gut strukturierte Verteidigungsschrift brauchst. Es setzt überzeugend Argumente, vermittelt Reue oder bestreitet die Vorwürfe angemessen - je nach Prompt. • Kurze, englischsprachige Zusammenfassungen oder schnelle (auch non-legal) Analysen: • Claude und ChatGPT sind stark bei allgemeinen Texten, Blog-Posts, Newslettern usw. Gesamtfazit • ChatGPT ist noch immer am universellsten für die meisten Fälle. • Gemini 2.0 punktet bei vertiefter Argumentation im Strafrecht. • Claude ist ein guter Kompromiss, wenn Du schnelle, knappe Ergebnisse möchtest oder Du ohnehin gerne kurze Schemata und Übersichten benutzt.
Sehr interessant die Thematik und die Vergleiche der versciedenen KI. Gut gemeinter Tipp. Ein Executive Summary würde Deinem Video gut tun. Du verlierst sonst einige Zuhörer/Zuschauer.
Ich würde sagen, dass dieses eher eine Erleichterung für Anwälte sinnvoll ist, da denen diverse Fehler auffallen und einfach korrigieren können. Man stelle sich mal vor, dass der Laie sich auf die Ergebnisse verlässt und diese so raushauen. Könnte u. U. Ziemlich schief gehen. Aber für Anwälte Hammer Erleichterung und Hilfe….
Nein. Das hatten wir bereits zu deinem ersten, inzwischen gelöschten Kommentar angemerkt. Es wurde Sonnet 3.5 genutzt. Der interne Vermerk sollte die Verwechslung zu Gemini verhindern.
Die Erstellung einer Erwiderung im Klageverfahren klappt schon recht gut. Natürlich muss diese immer von einem Anwalt geprüft werden. Als Unterstützung oder zur Vereinfachung ist der Einsatz von LLMs jedoch eine gute Sache. Es hängt allerdings stark davon ab, wie man mit dem Modell kommuniziert und wie fachlich versiert man selbst ist.
Finde ich sehr Interessant das ihr sowas analysiert. Selbst bin ich auch schon eine Weile mit LLMs am gange. Wie sieht es denn mit offenen LLMs wie llama, mistral oder nemotron aus? Die kann man selbst betreiben und man gibt nicht seine persönlichen Daten preis. Daher kommen die für mich bei einem solchen Thema mehr in Frage. Könnt Ihr die vielleicht auch bewerten?
Super Frage! -Mistral fanden wir die Ergebnisse offen gestanden sehr enttäuschend und sprachlich dünn. -LLAMA sind wir ab 3.1 große Fans, 3.3 ist für die punkgenaue Extraktion noch ein wenig schwerfälliger als 3.1. -Nemotron finden wir bisher sehr überzeugend als guten "Allrounder" und (gefühlt) sprachlich noch etwas bunter als LLAMA. -Für cutting-edge Texterstellung finden wir die vorgestellten Modelle - noch - etwas besser, aber LLAMA (und darauf aufbauend Nemotron) hat in der Kürze der Zeit sehr beeindruckend aufgeholt. Die Vergleichbarkeit bei LLAMA/Nemotron ist durch vielzähligen Modellvarianten (405b, 340b, 70b etc. sowie Quantisierung) etwas schwieriger, aber du hast Recht, das sollte man sich noch einmal systematischer angucken ;) Danke für den Impuls!
Sehr interessanter Vergleich, danke dafür! Spannend hätte ich noch gefunden zu sehen, wie die chat gpt-Variante für 20€ im Monat zu jener für 200€ monatlich abschneidet. Bei der Anthropic-Ki war mir nicht klar, welches Modell getestet wurde.
@@tcap112 Das ist zwar technisch betrachtet korrekt. Es ist das gleiche Modell, aber mit der 200 € Variante ist o1 im Pro Mode eine leistungsstärkere Version des einfachen o1-Modell. Es wird einfach mehr Rechenleistung verwendet und das Modell länger „denken“ gelassen. Also ja gleiches Modell, aber trotzdem besser in vielen Bereichen.
Das letzte mal als ich ChatGPT für Rechtsfragen zu Körperschaften genutzt habe hat es einfach ein Gesetz erfunden. Claude hat die Antwort einfach verweigert. Bei Steuerfragen sieht es ähnlich desolat aus. Hängt auch z.B. damit zusammen dass die Literatur in der Regel nur die Teilmenge der gemeinnützigen Vereine abdeckt. Und dann ist da eben noch die Sache mit den falschen Trainingsdaten die überhaupt nicht based sind.
Sehr gut die Modelle gegenüber gestellt. Habe bez. Mietrecht mir schon 2-3x Hilfe von Chat GTP geholt. Alle beteiligten waren zufrieden. Zudem wird in vielen Podcast u anderen Beiträgen zu Ki darauf hingewiesen das wir am Anfang dieser Modelle stehen und in Zukunft nie wieder solche schlechten Modelle sehen werden. hört sich komisch an für das was sie bis jetzt leisten, Ich denke die Grundlagen sind gelegt. Modelle in allen Bereichen werden durch den User ständig verbessert . Durch Interne Kybernetische Prozesse werden die systeme in 5-10 Jahren exterm gut sein. Sie sprachen es an. Der Faktor Zeit ist wohl das was viele Menschen beeindruckt. Man spürt in sich selbst das wir gerade von zero to one gehen ( P Thiel )
Man könnte doch mal echte (abgeschlossene) Akten einmal anonymisieren und da reingeben und vergleichen, welches Modell den Ausgang der meisten Entscheidungen richtig gelöst hat.
Das ist eine gute Idee! Die Praxis hat hier (noch) ein paar Hürden, die es zu lösen gilt: - Welchen Teilausschnitt setzt man ein? Nimmt man zu viel des bereits abgelaufenen Pfades, kreiert man einen Bias zugunsten des tatsächlich erreichten Weges. Nimmt man zu wenig des Pfades, benachteiligt man das LLM in der Datengrundlage ggfs. unbeabsichtigt. - Das Ergebnis eines Falls hängt häufig von mehreren Weichenstellungen ab. Diese kann man zwar iterativ dem LLM zur Beantwortung/Entscheidung vorlegen, allerdings werden die Ergebnisse wie in einem Decision-Tree zu etwas anderen Pfaden nehmen. Was ich damit meine, wird in dem Video ansatzweise deutlich: Bei der strafrechtlichen Einlassung versucht ein Model die "Pflichtwidrigkeit" zu eliminieren. Ein anderes versucht die "Verletzung" zu eliminieren. Das dritte Model versucht die Rechtsfolge zu minimieren (Geständnis, Reue). - Zuletzt: bei anwaltlichen Mandaten hängt eine strafrechtlich abgesicherte Schweigepflicht über dem Mandat. Hiervon ist schon bereits das "ob" des Mandats umfasst. Außenstehende dürfen also nicht einmal wissen, ob überhaupt ein Mandat zu einer Person besteht. Bei der Anonymisierung der personenbezogenen Daten lässt ab einer gewissen Datenmenge (die zu Vergleichszwecken das LLM benötigt) der Kontext schon Rückschlüsse zum Mandanten. Dies lässt sich mit einem gestuften Risikoansatz (1. Anonymisierung 2. Nur Teilausschnitte 3. ggfs. an unterschiedliche LLM und 4. selbst gehostete LLM) zwar bis zu einem gewissen Grad lösen, darunter leidet aber wieder die Vergleichbarkeit zwischen der menschlichen Fallbearbeitung und - einem spezifischen - LLM. Was man machen kann (wie in der Beispiel Ermittlungsakte), ist die Mandate vollständig zu verfremden. Damit löst man den letzten Punkt. Damit kreiert man jedoch neue Herausforderungen: man kann die statistische Signifikanz im Vergleich nicht mehr über die Masse der Fälle gewährleisten, weil man händisch mehrere hundert Verfahren verfremden muss. Wenn man sich dazu entschließt, verbleiben immer noch die ersten beiden Punkte (Bias/Informationsmenge und Decision-Tree). Du siehst: wir machen uns dazu auch intensiv Gedanken und deshalb ist das Thema auch so unglaublich spannend! :)
Es ist sehr ratsam, bei der Interaktion mit LLMs klare Anweisungen zu geben, die Neutralität und kritische Betrachtung fördern, um Verzerrungen in den generierten Antworten zu minimieren. Die Modelle neigen stark dazu, ‚zu nett‘ zu agieren und sich an die Erwartungen des Nutzers anzupassen. Dazu gibt es bereits Studien, die dieses Verhalten belegen.
7:10 "also ich muss die Dateien scheinbar erst als PNG umwandeln" - Aber von OpenAI wird man nicht darauf hingewiesen. OpenAI interessiert sich nicht für den einfachen Benutzer.
Hammer!!
Vielen Dank für das schnelle "Upgrade" des letzten Videos und den umfassenden Test !
Von solchen Videos kann ich nicht genug kriegen falls es noch weitere zu anderen Rechtsbereichen geben würde würde ich die auf jedenfalls auch anschauen.😊
Sehr interessant, auch der kleine Kick gegen Solmecke, nice. Guter Typ. Gleich mal abonniert.
Super Video. Danke! Gert Scobel hat noch vor 2 Jahren ein Video zu den 'chatbots' erstellt. die meisten 'Prognosen' hat er falsch vorausgesagt und der Mensch sowieso als unersetzbar deklariert.
Großartiges Video! Kleiner Tipp: es gibt mittlerweile Lösungen wo man LLMs gegeneinander antreten lassen kann ohne immer das UI zu wechseln. Ein Anbieter ist ChatLabs
Danke für Idee Verträge von der KI prüfen zu lassen und der informativen Aufbereitung der Materie.
Für den Allround-Einsatz lässt sich aus dem Video-Fazit ableiten:
• ChatGPT (aktuelles Modell, hier das „Pro“-Modell) ist meist am zuverlässigsten, wenn Du eine sehr breite Palette an rechtlichen oder formellen Texten abdecken willst. Es liefert strukturiert formulierte Texte und geht auf Details ein.
• Gemini 2.0 hat sich speziell bei komplexen Strafsachen (hier z. B. die Einlassung bei der Verkehrsunfall-Akte) sehr gut geschlagen. Es kann die Argumentation schön zusammenfassen und eine geschickte Verteidigungsstrategie formulieren.
• Anthropic/Claude (z. B. Claude 3.5) liefert oft sehr prägnante Zusammenfassungen und kann dabei die wichtigsten Punkte herausarbeiten, ist aber in manchen Fällen etwas oberflächlicher.
Wann solltest Du was nehmen?
• Arbeits- und Mietverträge:
• ChatGPT (Pro-Modell) oder Claude sind gut, weil beide Verträge übersichtlich zusammenfassen und Dir gleich eine Art Fazit liefern: „Was ist zulässig, was ist kritisch?“ ChatGPT geht häufig nochmal auf wirtschaftliche und verhandlungstaktische Aspekte ein, Claude fasst präzise zusammen.
• Strafrechtliche Fälle mit komplexen Akten:
• Gemini 2.0 sticht hervor, wenn Du eine gut strukturierte Verteidigungsschrift brauchst. Es setzt überzeugend Argumente, vermittelt Reue oder bestreitet die Vorwürfe angemessen - je nach Prompt.
• Kurze, englischsprachige Zusammenfassungen oder schnelle (auch non-legal) Analysen:
• Claude und ChatGPT sind stark bei allgemeinen Texten, Blog-Posts, Newslettern usw.
Gesamtfazit
• ChatGPT ist noch immer am universellsten für die meisten Fälle.
• Gemini 2.0 punktet bei vertiefter Argumentation im Strafrecht.
• Claude ist ein guter Kompromiss, wenn Du schnelle, knappe Ergebnisse möchtest oder Du ohnehin gerne kurze Schemata und Übersichten benutzt.
Klageverfahren würde mich sehr interessieren! Wirklich beeindruckend was KI heute schon kann.
35:18 Ja Gerne ich hätte gerne ein Video dazu😊
Super interessantes Video. Spannend wäre noch ein Vergleich O1 und O1 pro. Danke
Super Vergleich. Sehr beeindruckend. Vielen Dank.
Interessant Endlich 😊
Toller Vergleich. Danke für das Video! Die Dokumente würden mich interessieren. Ich würde gerne mal das O1 Modell testen.
Sehr interessant die Thematik und die Vergleiche der versciedenen KI. Gut gemeinter Tipp. Ein Executive Summary würde Deinem Video gut tun. Du verlierst sonst einige Zuhörer/Zuschauer.
Ja ich würde die Dokumente gerne selber testen
17:53 sehr sympathisch! 👍
Ich würde sagen, dass dieses eher eine Erleichterung für Anwälte sinnvoll ist, da denen diverse Fehler auffallen und einfach korrigieren können. Man stelle sich mal vor, dass der Laie sich auf die Ergebnisse verlässt und diese so raushauen. Könnte u. U. Ziemlich schief gehen. Aber für Anwälte Hammer Erleichterung und Hilfe….
Wirklich gutes und interessantes Video😁
Beim Mietvertrag wurde - entgegen der Videobeschreibung - offenbar das Modell Opus von Anthropic benutzt. Steht unten im Dokument. Schade.
Nein. Das hatten wir bereits zu deinem ersten, inzwischen gelöschten Kommentar angemerkt. Es wurde Sonnet 3.5 genutzt. Der interne Vermerk sollte die Verwechslung zu Gemini verhindern.
Die Erstellung einer Erwiderung im Klageverfahren klappt schon recht gut. Natürlich muss diese immer von einem Anwalt geprüft werden. Als Unterstützung oder zur Vereinfachung ist der Einsatz von LLMs jedoch eine gute Sache. Es hängt allerdings stark davon ab, wie man mit dem Modell kommuniziert und wie fachlich versiert man selbst ist.
Finde ich sehr Interessant das ihr sowas analysiert. Selbst bin ich auch schon eine Weile mit LLMs am gange. Wie sieht es denn mit offenen LLMs wie llama, mistral oder nemotron aus? Die kann man selbst betreiben und man gibt nicht seine persönlichen Daten preis. Daher kommen die für mich bei einem solchen Thema mehr in Frage. Könnt Ihr die vielleicht auch bewerten?
Super Frage!
-Mistral fanden wir die Ergebnisse offen gestanden sehr enttäuschend und sprachlich dünn.
-LLAMA sind wir ab 3.1 große Fans, 3.3 ist für die punkgenaue Extraktion noch ein wenig schwerfälliger als 3.1.
-Nemotron finden wir bisher sehr überzeugend als guten "Allrounder" und (gefühlt) sprachlich noch etwas bunter als LLAMA.
-Für cutting-edge Texterstellung finden wir die vorgestellten Modelle - noch - etwas besser, aber LLAMA (und darauf aufbauend Nemotron) hat in der Kürze der Zeit sehr beeindruckend aufgeholt.
Die Vergleichbarkeit bei LLAMA/Nemotron ist durch vielzähligen Modellvarianten (405b, 340b, 70b etc. sowie Quantisierung) etwas schwieriger, aber du hast Recht, das sollte man sich noch einmal systematischer angucken ;) Danke für den Impuls!
Sehr interessanter Vergleich, danke dafür!
Spannend hätte ich noch gefunden zu sehen, wie die chat gpt-Variante für 20€ im Monat zu jener für 200€ monatlich abschneidet.
Bei der Anthropic-Ki war mir nicht klar, welches Modell getestet wurde.
20€ ist dasselbe Modell wie bei 200€, nur mit einem eingeschränktung. Utzungslimit
@@tcap112nein das stimmt nicht
@@previ26 doch ist beides o1
@@tcap112 Das ist zwar technisch betrachtet korrekt. Es ist das gleiche Modell, aber mit der 200 € Variante ist o1 im Pro Mode eine leistungsstärkere Version des einfachen o1-Modell. Es wird einfach mehr Rechenleistung verwendet und das Modell länger „denken“ gelassen. Also ja gleiches Modell, aber trotzdem besser in vielen Bereichen.
Das letzte mal als ich ChatGPT für Rechtsfragen zu Körperschaften genutzt habe hat es einfach ein Gesetz erfunden. Claude hat die Antwort einfach verweigert. Bei Steuerfragen sieht es ähnlich desolat aus. Hängt auch z.B. damit zusammen dass die Literatur in der Regel nur die Teilmenge der gemeinnützigen Vereine abdeckt. Und dann ist da eben noch die Sache mit den falschen Trainingsdaten die überhaupt nicht based sind.
Sehr gut die Modelle gegenüber gestellt. Habe bez. Mietrecht mir schon 2-3x Hilfe von Chat GTP geholt. Alle beteiligten waren zufrieden.
Zudem wird in vielen Podcast u anderen Beiträgen zu Ki darauf hingewiesen das wir am Anfang dieser Modelle stehen und in Zukunft nie wieder solche schlechten Modelle sehen werden. hört sich komisch an für das was sie bis jetzt leisten,
Ich denke die Grundlagen sind gelegt. Modelle in allen Bereichen werden durch den User ständig verbessert .
Durch Interne Kybernetische Prozesse werden die systeme in 5-10 Jahren exterm gut sein.
Sie sprachen es an. Der Faktor Zeit ist wohl das was viele Menschen beeindruckt.
Man spürt in sich selbst das wir gerade von zero to one gehen ( P Thiel )
Darfst Du das Logo des Landes NRW so einfach einsetzen und hier im öffentlichen Raum verwenden ? 🤔
Besser "Watson" checken, die ist wirklich darauf ausgelegt. 😉
Wie hat man jetzt die pngs Datei so in der Form übertragen? 😅
Video für Klageverfahren wünschenswert
Kannst du einen Test mit der 20$ Version von ChatGPT machen?
Man könnte doch mal echte (abgeschlossene) Akten einmal anonymisieren und da reingeben und vergleichen, welches Modell den Ausgang der meisten Entscheidungen richtig gelöst hat.
Das ist eine gute Idee! Die Praxis hat hier (noch) ein paar Hürden, die es zu lösen gilt:
- Welchen Teilausschnitt setzt man ein? Nimmt man zu viel des bereits abgelaufenen Pfades, kreiert man einen Bias zugunsten des tatsächlich erreichten Weges. Nimmt man zu wenig des Pfades, benachteiligt man das LLM in der Datengrundlage ggfs. unbeabsichtigt.
- Das Ergebnis eines Falls hängt häufig von mehreren Weichenstellungen ab. Diese kann man zwar iterativ dem LLM zur Beantwortung/Entscheidung vorlegen, allerdings werden die Ergebnisse wie in einem Decision-Tree zu etwas anderen Pfaden nehmen. Was ich damit meine, wird in dem Video ansatzweise deutlich: Bei der strafrechtlichen Einlassung versucht ein Model die "Pflichtwidrigkeit" zu eliminieren. Ein anderes versucht die "Verletzung" zu eliminieren. Das dritte Model versucht die Rechtsfolge zu minimieren (Geständnis, Reue).
- Zuletzt: bei anwaltlichen Mandaten hängt eine strafrechtlich abgesicherte Schweigepflicht über dem Mandat. Hiervon ist schon bereits das "ob" des Mandats umfasst. Außenstehende dürfen also nicht einmal wissen, ob überhaupt ein Mandat zu einer Person besteht. Bei der Anonymisierung der personenbezogenen Daten lässt ab einer gewissen Datenmenge (die zu Vergleichszwecken das LLM benötigt) der Kontext schon Rückschlüsse zum Mandanten. Dies lässt sich mit einem gestuften Risikoansatz (1. Anonymisierung 2. Nur Teilausschnitte 3. ggfs. an unterschiedliche LLM und 4. selbst gehostete LLM) zwar bis zu einem gewissen Grad lösen, darunter leidet aber wieder die Vergleichbarkeit zwischen der menschlichen Fallbearbeitung und - einem spezifischen - LLM.
Was man machen kann (wie in der Beispiel Ermittlungsakte), ist die Mandate vollständig zu verfremden. Damit löst man den letzten Punkt. Damit kreiert man jedoch neue Herausforderungen: man kann die statistische Signifikanz im Vergleich nicht mehr über die Masse der Fälle gewährleisten, weil man händisch mehrere hundert Verfahren verfremden muss. Wenn man sich dazu entschließt, verbleiben immer noch die ersten beiden Punkte (Bias/Informationsmenge und Decision-Tree).
Du siehst: wir machen uns dazu auch intensiv Gedanken und deshalb ist das Thema auch so unglaublich spannend! :)
Es ist sehr ratsam, bei der Interaktion mit LLMs klare Anweisungen zu geben, die Neutralität und kritische Betrachtung fördern, um Verzerrungen in den generierten Antworten zu minimieren. Die Modelle neigen stark dazu, ‚zu nett‘ zu agieren und sich an die Erwartungen des Nutzers anzupassen. Dazu gibt es bereits Studien, die dieses Verhalten belegen.
7:10 "also ich muss die Dateien scheinbar erst als PNG umwandeln" - Aber von OpenAI wird man nicht darauf hingewiesen. OpenAI interessiert sich nicht für den einfachen Benutzer.
Moin, leider weiß ich immer noch nicht was ihr schönes macht, aber danke für den Namen und den Firmen Namen ;D (Nur meine Meinung)
Ein gutes Buch zu diesem Thema: "KI für Anwälte und Juristinnen" beim BoD Verlag.
Passt zu. Danke.