RECHT & §203 25. April 2026 13 Min. Lesezeit

Meeting Intelligence für Kanzleien — Warum Fireflies, Otter und Fathom §203 verletzen

Q: Wie sieht der Workflow konkret aus?

Gespräch endet, Audiodatei wird in den Eingangsordner gelegt, n8n-Webhook wird ausgelöst, Whisper.cpp transkribiert, Transkript geht an Ollama, Zusammenfassung wird in PostgreSQL gespeichert und per Matrix-Benachrichtigung an den zuständigen Anwalt geschickt, der reviewt, ergänzt und freigibt.

Fireflies, Otter und Fathom verletzen §203 StGB systematisch. Was §203-konforme Meeting Intelligence braucht — und was Velo für Kanzleien baut.

Meeting Intelligence für Kanzleien: Warum Fireflies, Otter und Fathom §203 verletzen — und was Sie stattdessen brauchen

Mandantengespräche aufzeichnen, automatisch transkribieren, per KI zusammenfassen und direkt ins CRM schreiben lassen — das klingt nach einem erheblichen Zeitgewinn. Und das ist es auch. Anwälte, Notare und Steuerberater verbringen nach eigenen Angaben 30 bis 50 Prozent ihrer Arbeitszeit in Besprechungen. Wer diese Zeit nicht mehr manuell nachbereiten muss, gewinnt Stunden pro Woche zurück.

Das Problem: Die bekanntesten Tools für diesen Zweck — Fireflies.ai, Otter.ai und Fathom — scheiden für alle Berufsgeheimnisträger nach §203 StGB systematisch aus. Nicht wegen schlechter Qualität, sondern weil ihr technischer Aufbau einen strafrechtlich relevanten Datenzugriff durch US-Stellen ermöglicht. Und das lässt sich durch keinen Auftragsverarbeitungsvertrag reparieren.

Dieser Artikel erklärt, warum das so ist, welche technischen Alternativen es gibt und was Velo Automation aktuell für Kanzleien und §203-Berufe baut.

Hinweis: Dieser Artikel dient der technischen und fachlichen Orientierung. Er ersetzt keine Rechtsberatung. Für verbindliche Einschätzungen zur Zulässigkeit einzelner Tools in Ihrer Berufsausübung wenden Sie sich an Ihre Berufskammer oder einen spezialisierten Fachanwalt.

Warum Kanzleien Meeting Intelligence wollen — und warum sie nicht genau hinschauen

Die Ausgangssituation in den meisten Kanzleien sieht so aus: Ein Mandantengespräch dauert 45 bis 90 Minuten. Danach folgt die manuelle Nachbereitung — Notizen tippen, Protokoll schreiben, Aufgaben verteilen, ins Aktenführungssystem eintragen. Das kostet nochmals 20 bis 40 Minuten pro Termin. Bei vier bis sechs Terminen täglich summiert sich das auf anderthalb bis drei Stunden reine Nachbereitungsarbeit pro Anwalt und Tag.

Tools wie Fireflies.ai werben in dieser Situation gezielt: Sie nehmen an Videocalls teil, zeichnen Audio auf, transkribieren automatisch, fassen per KI zusammen und exportieren Action-Items direkt in Notion, Salesforce oder andere Systeme. Das Werbeversprechen trifft einen realen Schmerzpunkt.

Viele Anwälte testen diese Tools privat — oder haben sie schon im Kanzleieinsatz, ohne sich über die Konsequenzen im Klaren zu sein. Die Frage "Haben wir einen AV-Vertrag?" wird manchmal bejaht, als wäre damit alles geregelt. Dabei ist der AV-Vertrag bei US-Anbietern für §203-Berufe gerade der Teil, der nicht greift.

Was Meeting Intelligence technisch ist

Meeting Intelligence bezeichnet die Kombination aus vier Komponenten:

1. Audio-Aufzeichnung: Das Gespräch — ob Videokonferenz oder Präsenztermin mit Mikrofon — wird als Audiodatei aufgezeichnet.

2. Speech-to-Text (STT): Eine Spracherkennungskomponente wandelt das Audio in einen Volltext-Transkript um. Gängige Modelle: Whisper (OpenAI), Deepgram, AssemblyAI, Google Speech-to-Text.

3. LLM-Zusammenfassung: Ein Large Language Model (z.B. GPT-4o, Claude 3.5, Mistral Large) verarbeitet den Transkript und generiert eine strukturierte Zusammenfassung: Besprochene Themen, Beschlüsse, offene Fragen, Action-Items mit Verantwortlichkeiten.

4. CRM-Sync und Push: Die Ergebnisse werden automatisch in ein Aktenführungssystem, CRM oder Kommunikationskanal exportiert — per API, Webhook oder nativer Integration.

Das Ergebnis: Aus einem 60-Minuten-Gespräch wird ohne manuellen Aufwand ein strukturiertes Protokoll. Die Technik ist ausgereift. Das Problem liegt nicht in der Technik, sondern darin, wo die Daten dabei verarbeitet werden.

Warum Fireflies §203 systematisch verletzt

Fireflies.ai ist ein US-amerikanisches Unternehmen mit Infrastruktur auf Amazon Web Services (AWS), überwiegend in US-amerikanischen Rechenzentren. Audio-Aufzeichnungen und Transkripte landen auf Servern, auf die US-Behörden gemäß dem Cloud Act Zugriff anfordern können — ohne dass das Unternehmen seine Nutzer darüber informieren muss.

Die Subprocessor-Liste von Fireflies nennt explizit US-Anbieter für KI-Inferenz, darunter OpenAI und Anthropic. Das bedeutet: Nicht nur die Aufzeichnung, auch die Verarbeitung durch das LLM findet bei US-Unternehmen statt. Ein Mandantengespräch, das durch Fireflies läuft, verlässt damit potenziell den Schutzraum des deutschen Berufsgeheimnisses mehrfach.

§203 StGB schützt das Mandats-, Patienten- und Klientengeheimnis. Eine "unbefugte Offenbarung" liegt nicht erst dann vor, wenn ein Behördenmitarbeiter die Daten tatsächlich liest — sondern bereits dann, wenn sie in einer Umgebung verarbeitet werden, in der ein solcher Zugriff rechtlich möglich ist. Das ist bei Cloud-Act-unterworfenen US-Diensten der Fall.

Der AV-Vertrag mit Fireflies regelt die DSGVO-Dimension: Auftragsverarbeitung, Löschpflichten, Datensicherheit. Er ändert aber nichts an der Tatsache, dass das Unternehmen US-amerikanischen Behörden gegenüber auskunftspflichtig ist. DSGVO-Konformität und §203-Konformität sind zwei verschiedene Rechtsebenen. Wer nur auf den AV-Vertrag schaut, löst das falsche Problem.

Eine Strafrechtskanzlei mit drei Anwälten aus dem Rhein-Main-Gebiet schilderte im Gespräch, dass sie Fireflies intern drei Monate genutzt hatte, bevor ein Fachanwalt für IT-Recht auf die Cloud-Act-Problematik hinwies. Die Kanzlei deaktivierte das Tool umgehend — und stellte fest, dass bereits Hunderte Mandantengespräche in US-Systemen verarbeitet worden waren.

Warum Otter und Fathom dasselbe Problem haben

Otter.ai ist ein US-amerikanisches Unternehmen mit Sitz in Mountain View, Kalifornien. Die Infrastruktur läuft auf US-Cloud-Anbietern. Otter.ai bietet für Business-Accounts eine ISO-27001-Zertifizierung und AV-Optionen an — beides hilft bei §203 aus denselben Gründen nicht wie bei Fireflies.

Fathom ist ein weiteres US-Unternehmen, gegründet über Y-Combinator. Auch Fathom betreibt seine Infrastruktur in US-amerikanischen Clouds. Beide Anbieter haben in den letzten Jahren EU-Kunden gewonnen und auf Marketing-Seiten mit "DSGVO" geworben. Einige bieten an, Daten bevorzugt auf europäischen AWS- oder Google-Cloud-Regionen zu verarbeiten.

Diese EU-Server-Optionen lösen das §203-Problem jedoch strukturell nicht. Der entscheidende Punkt ist nicht der Standort des Servers, sondern die Rechtsordnung, der das Unternehmen unterliegt. Ein US-Unternehmen, das Daten auf einem Server in Frankfurt speichert, bleibt ein US-Unternehmen — und damit Cloud-Act-pflichtig. US-Behörden können gerichtlich Zugriff auf Daten erzwingen, die ein US-Unternehmen kontrolliert, unabhängig davon, wo der Server physisch steht.

Das ist kein theoretisches Risiko. Der Cloud Act wurde 2018 genau dafür geschaffen, US-Behörden den Datenzugriff auf Auslandsserver US-amerikanischer Unternehmen zu ermöglichen. Wer diese Rechtslage ignoriert, handelt für §203-Berufe fahrlässig.

Die Sonderregel gilt hier genauso wie beim n8n-Vergleich, der im Artikel Warum Zapier, Make und n8n für §203-Berufe keine gleichwertige Wahl sind ausführlich behandelt wird: Fireflies, Otter und Fathom sind keine schlechtere Alternative zu einer §203-konformen Lösung — sie sind keine Alternative. Sie scheiden systematisch aus.

Was die §203-tauglichen Komponenten sind

Eine §203-konforme Meeting-Intelligence-Lösung muss vollständig unter eigener Kontrolle betrieben werden — ohne Datenzufluss zu US-Diensten. Das ist technisch möglich, erfordert aber einen strukturierten Stack.

Speech-to-Text: Whisper.cpp

Whisper ist ein Open-Source-STT-Modell von OpenAI — aber als Modell verfügbar, nicht nur als API. Whisper.cpp ist eine C++-Portierung, die lokal auf einem Server oder einem leistungsstarken Mac ohne GPU läuft. Das Modell lädt sich einmalig herunter, dann verarbeitet es Audio vollständig lokal. Kein Datenversand nach außen. Die Transkriptionsqualität für Deutsch ist beim "large-v3"-Modell sehr gut, Fachvokabular aus Jura und Steuerrecht wird korrekt erkannt.

LLM-Zusammenfassung: Mistral Small 3 oder Llama 3.3 via Ollama

Für die Zusammenfassung und Action-Item-Extraktion reichen Modelle mittlerer Größe aus. Mistral Small 3 (7B Parameter) oder Llama 3.3 (70B Parameter, quantisiert) laufen via Ollama auf einem Standard-VPS mit 16–32 GB RAM, ohne GPU. Die Inferenz dauert pro Transkript 30 bis 90 Sekunden — für Protokollanwendungen völlig ausreichend. Die Daten verlassen den Server nicht.

Datenspeicherung: PostgreSQL

Transkripte, Zusammenfassungen und Metadaten landen in einer lokalen PostgreSQL-Datenbank. Zugriff nur über interne Netzwerke oder VPN. Kein SaaS-Datenbankdienst.

Workflow und Push: n8n + Matrix/Element

n8n (self-hosted) orchestriert den Ablauf: Audio eingehend → Whisper-Transkription → Ollama-Zusammenfassung → PostgreSQL-Speicherung → Benachrichtigung via Matrix/Element an den zuständigen Anwalt. Die Kommunikation läuft ausschließlich über Matrix/Element, dem Ende-zu-Ende-verschlüsselten Kommunikationsstandard, den Velo für Kanzleien einsetzt.

Dieser Stack produziert keine Daten außerhalb der eigenen Infrastruktur. Kein Cloud Act. Keine US-Subprozessoren.

Velo Meeting Intelligence §203 — Coming Q2 2026

Velo Automation baut aktuell einen vollständig verwalteten Meeting-Intelligence-Stack für §203-Berufe. Das Produkt heißt Velo Meeting Intelligence §203 und basiert auf dem oben beschriebenen technischen Unterbau: Whisper.cpp + Mistral Small 3 / Ollama + PostgreSQL + n8n + Matrix/Element.

Was Velo verwaltet: Installation, Konfiguration, Updates, Backup-Strategie, Monitoring und Sicherheitsupdates. Die Kanzlei bekommt eine lauffähige Umgebung auf einem eigenen §203-Tier-VPS (DE-Hosting, kein Cloud-Act-Zugriff) und einen Push-Kanal für Protokolle und Action-Items.

Integration mit Nextcloud Talk: Für Kanzleien, die bereits Nextcloud einsetzen, ist eine direkte Integration mit Nextcloud Talk geplant. Gespräche, die dort geführt werden, können automatisch in den Transkriptions-Workflow eingespeist werden.

Im Audit-Vorgespräch mitkartiert: Wer ein Automations-Audit bei Velo bucht, bekommt im Rahmen der Workflow-Kartierung bereits abgegrenzt, welche Meetings tatsächlich §203-kritisch sind — und welche (z.B. interne Team-Standups) mit niedrigeren Datenschutzanforderungen betrieben werden können. Das schärft den Scope für Meeting Intelligence und verhindert Over-Engineering.

Pricing:

Setup: 890 € (einmalig)
Retainer: 149 €/Monat (Wartung, Updates, Support, Monitoring)

Das Produkt ist aktuell in Entwicklung. Vormerkliste und Tier-Matrix auf /preise. Coming Q2 2026.

Wenn Sie sich jetzt vormerkern möchten oder wissen wollen, welches §203-Tier für Ihre Kanzlei passt: Auf /preise finden Sie die aktuelle Tier-Übersicht und ein Formular für die Vormerkung zum Velo Meeting Intelligence §203.

Wie Sie das in 3 Schritten umsetzen — wenn Sie nicht auf Q2 warten wollen

Wer den technischen Stack selbst aufsetzen will, kann das tun. Die Komponenten sind quelloffen und dokumentiert. Hier ist ein realistischer Einstiegspfad:

Schritt 1: Whisper.cpp lokal installieren

Whisper.cpp läuft auf macOS (M1/M2/M3 sehr performant) und Linux ohne GPU. Die Installation erfolgt via Homebrew (macOS) oder über den Quellcode auf GitHub. Das Modell "large-v3" hat etwa 3 GB, ist einmalig herunterzuladen und verarbeitet danach Audio vollständig offline.

Testbefehl: ./main -m models/ggml-large-v3.bin -l de -f mandantengespraech.wav

Die Ausgabe ist ein Volltext-Transkript in Deutsch, ohne Datenversand nach außen.

Schritt 2: Ollama mit Mistral Small 3 starten

Ollama ist ein lokales LLM-Runtime-System, das unter macOS, Linux und Windows läuft. Nach der Installation genügt ollama run mistral-small3 für ein erstes Modell. Für die Zusammenfassung eines Transkripts sendet man es per API an den lokalen Ollama-Endpunkt (Standard: http://localhost:11434).

Ein einfacher Python- oder n8n-HTTP-Request mit dem Prompt "Fasse das folgende Transkript als Gesprächsprotokoll mit Beschlüssen und Action-Items zusammen:" reicht für den Einstieg.

Schritt 3: n8n-Workflow für Audio → Text → Zusammenfassung

n8n selbst-gehostet orchestriert den Ablauf: Ein Webhook empfängt die Audiodatei, ruft Whisper.cpp über einen SSH-Execution-Node oder lokalen HTTP-Node auf, übergibt das Transkript an Ollama und schreibt das Ergebnis in eine PostgreSQL-Tabelle oder per Matrix-Push an den zuständigen Anwalt.

Realitätscheck: Der Setup dauert für technisch vertraute Personen einen halben Tag. Danach kommen Wartungsaufgaben: Modell-Updates prüfen, Backups sichern, bei Serverumzügen alles neu konfigurieren. Das ist machbar — aber nicht delegierbar. Wer sich auf das Kerngeschäft konzentrieren will, bucht das gemanagt: /preise.

Häufige Einwände und Antworten

Drei Einwände tauchen in Gesprächen mit Kanzleien regelmäßig auf:

"Unsere Mandanten haben der Aufzeichnung zugestimmt."

Die Einwilligung des Mandanten zum Aufzeichnen des Gesprächs löst das §203-Problem nicht vollständig. §203 StGB ist ein Strafgesetz, das die berufsrechtliche Schweigepflicht schützt. Die Einwilligung des Mandanten macht die Aufzeichnung zulässig — aber nicht die Verarbeitung der Daten durch US-Unternehmen. Das Mandatsverhältnis besteht zwischen Anwalt und Mandant. Der Mandant kann nicht einwilligen, dass US-Behörden Zugriff auf seine Gespräche erhalten — das liegt nicht in seiner Dispositionsbefugnis. Berufsrechtlich bleibt die Verletzung des Mandatsgeheimnisses gegenüber Dritten (hier: US-Subprozessoren) eine Berufsrechtsverletzung, auch mit Einwilligung des Mandanten in die Aufzeichnung selbst.

"Wir nennen im Transkript keine Namen — nur Initialen."

Bereits Stimmprofile, Gesprächsinhalte, Aktenzeichen-ähnliche Referenznummern, spezifische Sachverhalte oder die Kombination aus Thema und Datum reichen für eine Re-Identifizierung aus. Datenschutzrechtlich gilt: Wenn eine natürliche Person durch Hinzuziehung weiterer Informationen identifizierbar wird, handelt es sich um personenbezogene Daten — mit allen Schutzpflichten. "Wir nennen keine Namen" ist kein ausreichendes Schutzkonzept.

"Microsoft Copilot Voice ist doch EU-konform."

Microsoft betreibt im Rahmen des EU-Data-Boundary-Programms europäische Rechenzentren. Das verbessert die DSGVO-Position. Für §203 gilt aber dasselbe Argument wie bei Fireflies: Microsoft Corporation ist ein US-Unternehmen, das dem Cloud Act unterliegt. Die EU-Data-Boundary ändert das nicht. Zudem verarbeitet Copilot Voice Daten durch Microsoft-LLMs — d.h. das Gespräch verlässt die eigene Infrastruktur. Für §203-Berufe ist das strukturell dasselbe Problem wie bei Fireflies.

Häufige Fragen

Ist Whisper-Selbstbetrieb wirklich kostenlos?

Das Modell selbst ist kostenlos und quelloffen. Kosten entstehen durch Serverinfrastruktur (wenn man es nicht auf dem eigenen Mac betreibt), Setup-Zeit und laufende Wartung. Für eine Kanzlei, die einen bestehenden Linux-Server hat, sind die reinen Softwarekosten null. Die Opportunitätskosten für IT-Zeit sind reell.

Wie genau ist die Transkription auf Deutsch?

Whisper large-v3 ist für Deutsch sehr gut kalibriert. In Tests mit Kanzlei-Gesprächen (Fachvokabular Mietrecht, Arbeitsrecht, Steuerrecht) liegt die Wortfehlerrate bei unter 5 Prozent. Dialekte reduzieren die Genauigkeit leicht. Für Protokollzwecke, bei denen der Zusammenfassungs-LLM den Kontext noch einmal glättet, ist das ausreichend.

Was ist mit der Einwilligung der Mandanten zur Aufzeichnung?

Aufzeichnungen in Deutschland erfordern die Einwilligung aller Gesprächsteilnehmer nach §201 StGB. Diese Einwilligung muss vor Aufzeichnungsbeginn eingeholt werden. Es empfiehlt sich, dies zu protokollieren. Die Einwilligung zur Aufzeichnung ist Voraussetzung, aber, wie oben erklärt, nicht hinreichend für §203-Konformität bei der Verarbeitungsinfrastruktur.

Funktioniert das offline — ohne Internetverbindung?

Ja. Whisper.cpp und Ollama laufen vollständig lokal. Wenn der Server im Kanzlei-internen Netzwerk betrieben wird, ist keine Internetverbindung für die Verarbeitung nötig. Nur für initiale Modell-Downloads ist Internet erforderlich.

Was passiert, wenn ein Mandant die Aufzeichnung ablehnt?

Das Gespräch wird nicht aufgezeichnet. Meeting Intelligence ist kein Pflichtbestandteil eines Mandats — es ist ein internes Effizienzwerkzeug. Mandanten, die der Aufzeichnung nicht zustimmen, werden manuell protokolliert. Das sollte technisch einfach abschaltbar sein, z.B. durch einen physischen Schalter oder eine Session-Einstellung.

Brauche ich GPU-Hardware?

Nein. Whisper.cpp und Ollama mit Mistral Small 3 laufen auf Standard-CPUs. Ein moderner VPS mit 8 Kernen und 16 GB RAM reicht für Kanzleien mit bis zu 20 Gesprächen täglich. Für größere Volumina oder Echtzeitanforderungen empfiehlt sich ein dedizierter Server oder GPU-Instanz.

Wie sieht der Workflow konkret aus?

Gespräch endet → Audiodatei wird manuell oder automatisch (z.B. via Nextcloud Talk-Recording) in den Eingangsordner gelegt → n8n-Webhook wird ausgelöst → Whisper.cpp transkribiert → Transkript geht an Ollama → Zusammenfassung wird in PostgreSQL gespeichert und per Matrix-Benachrichtigung an den zuständigen Anwalt geschickt → Anwalt reviewt, ergänzt, freigeben.

Wann kann ich Velo Meeting Intelligence §203 buchen?

Das Produkt ist für Q2 2026 geplant. Vormerkliste und Tier-Übersicht auf /preise. Wer sich jetzt vormerkt, wird als Erstes informiert, wenn der Onboarding-Slot freigegeben wird.

Nächster Schritt

Meeting Intelligence ist für §203-Berufe keine technische Kuriosität — sie ist ein realer Hebel für Effizienz, der aber nur unter bestimmten Bedingungen legal einsetzbar ist. Die Bedingungen sind klar: kein US-Hosting, kein US-Unternehmen als Subprozessor, vollständige Kontrolle über Audioaufzeichnung und LLM-Inferenz.

Wenn Sie wissen wollen, welche Ihrer Meetings überhaupt §203-kritisch sind — und welche Workflows in Ihrer Kanzlei grundsätzlich kartiert werden sollten — ist der Automations-Audit der strukturierte Einstieg. Im Audit-Vorgespräch wird mitkartiert, wo Meeting Intelligence Sinn macht und wo andere Automatisierungen höhere Priorität haben.

Für die Vormerkung zum Velo Meeting Intelligence §203 und die Tier-Übersicht: /preise.

Weiterführend zu §203 und KI-Stacks:

Die Velo §203-Tier-Stacks (Starter / Safe / Premium) für genau diese Workflows sind in aktiver Entwicklung. DE-gehostet, ohne Cloud-Act-Zugriff, mit lokaler KI-Inferenz. Coming Q2 2026 — Tier-Übersicht und Vormerkung auf /preise.