Folge 1 · Lern-Reihe

KI-Schnitt Podcast: Wir lassen Claude und DaVinci einen Podcast schneiden — live mitgefilmt

Können wir einen Stunden-langen Podcast mit KI schneiden lassen? In Folge 1 unserer Lern-Reihe testen wir genau das — mit Rode-Setup, Whisperflow, Anthropic Claude und DaVinci Resolve. Inklusive aller Stolpersteine und einem Cliffhanger zum Schluss.

Worum es geht: Der Live-Test des KI-Schnitts

KI-Schnitt Podcast — Setup mit Claude, DaVinci Resolve und Whisperflow bei Schwarzwald Anker

KI-Schnitt für Podcast-Inhalte ist seit Mitte 2025 das Thema, das in jeder Marketing-Konferenz auftaucht — meistens als großes Versprechen, selten als konkreter Workflow. Wir wollten wissen: Funktioniert das wirklich, oder ist es noch zu früh? Also haben wir einen echten Stunden-Podcast mit zwei Sprechern aufgenommen, das ganze Setup von Mikrofon bis Schnittprogramm aufgebaut und Claude als „Cutter“ eingespannt. Vor laufender Kamera, ohne Drehbuch, mit allen Fehlern.

Der Reiz dabei: Ein Stunden-Podcast braucht in klassischer Handarbeit zwei bis vier Stunden Schnitt — Versprecher raus, Pausen kürzen, Übergänge glätten. Wenn KI das auf 30 Minuten drücken kann, ist das ein Hebel, der das ganze Personalmarketing-Geschäft verändert. Denn ähnliche Schnittarbeit fällt bei jedem Mitarbeiterinterview, jedem Recruiting-Film und jedem Erklärvideo an. Was beim KI-Schnitt Podcast funktioniert, lässt sich auf Recruiting-Inhalte übertragen.

Setup: Welche Tools wir für den KI-Schnitt brauchen

Bevor wir starten, hier der komplette Stack — alles Tools, die wir bei Schwarzwald Anker sowieso täglich nutzen:

  • Rode NT-USB Mini × 2: Solide Sprecher-Mikrofone, USB-direkt. Für KI-Schnitt entscheidend, weil saubere Tonspuren das Transkript exponentiell besser machen.
  • Whisperflow (oder OpenAI Whisper Large v3): Erzeugt aus der Audio-Spur ein Transkript mit Zeitstempeln pro Wort. Das ist die Grundlage für alles, was danach kommt.
  • Anthropic Claude (Sonnet 4): Liest das Transkript und entscheidet, welche Passagen rein müssen, welche raus. Wir geben Claude unseren Edit-Style mit (kein Stocken, keine Versprecher, max. 1 Sekunde Pause).
  • DaVinci Resolve Studio: Empfängt die Schnitt-Liste als FCPXML, sortiert die Cuts in einer Timeline. Open-Source-Variante reicht für kleine Projekte.
  • Python-Glue-Skript: Konvertiert Claudes Text-Antwort in das FCPXML-Format, das DaVinci versteht. Etwa 80 Zeilen Code, einmal geschrieben.

Wichtig: Der Tool-Stack ist bewusst Mittelstands-tauglich. Whisperflow hat einen Gratis-Tarif, DaVinci Resolve in der Standard-Version ist kostenlos, Claude kostet wenige Euro pro Monat. Für eine Personalabteilung oder eine kleinere Kommune sind das Anschaffungskosten von null bis maximal 30 Euro im Monat — bei sofortigem Zeitgewinn von mehreren Stunden pro Schnittprojekt.

Schritt 1: Audio aufnehmen und mit Whisperflow transkribieren

Wir starten mit einer einstündigen Aufnahme, zwei Sprecher, Studio-Setup. Direkt nach Aufnahme-Stopp läuft Whisperflow über die Audio-Spur — drei Minuten Wartezeit für 60 Minuten Audio. Das Ergebnis: ein Klartext-Transkript mit Wort-für-Wort-Zeitstempeln im JSON-Format.

Was beim KI-Schnitt Podcast hier entscheidend ist: Saubere Audio-Qualität wirkt sich exponentiell auf die Transkript-Genauigkeit aus. Wir haben in vorherigen Tests gemerkt, dass ein verrauschtes Handy-Mikrofon Whisperflows Fehlerquote auf 8 Prozent treibt — bei Studio-Mikros liegt sie unter 1 Prozent. Diese 7 Prozent klingen wenig, machen aber den Unterschied zwischen brauchbarem und unbrauchbarem KI-Schnitt. Wer ein professionelles Setup hat (oder sich eines für 200 Euro zusammenbaut), spart sich später Stunden an Korrekturen.

Praxis-Tipp: Wir prüfen das Transkript einmal auf Eigennamen (Personen, Firmen, Orte) und korrigieren die Schreibweise manuell, bevor Claude es liest. Eine falsch geschriebene Firma im Mitarbeiter-Zitat ist schlimmer als ein zu viel geschnittener „Äh“.

Schritt 2: Claude liest das Transkript und schlägt Cuts vor

Hier kommt der entscheidende Schritt für KI-Schnitt Podcast. Wir geben Claude das komplette Transkript und einen klaren Brief: „Du bist Cutter für einen Wirtschafts-Podcast. Ziel ist eine 25-30-minütige Endfassung, die alle inhaltlich wichtigen Aussagen behält, aber Versprecher, Wiederholungen und Pausen über einer Sekunde entfernt. Markiere für jeden Cut den Start-Timestamp und den End-Timestamp.“

Claude antwortet mit einer strukturierten Liste: 110 Cuts, jeweils mit Begründung. Ein typischer Cut sieht so aus: „Cut 23: 00:12:45.302 bis 00:12:48.671 — Versprecher und Wiederholung bei „Mitarbeiterbindung-bindung“. Diese Liste schickt Claude zurück, wir prüfen sie stichprobenartig und geben sie an das Glue-Skript weiter.

Was uns überrascht hat: Claude trifft auch Inhalts-Entscheidungen, nicht nur kosmetische. Bei einem Exkurs über die Firmen-Historie hat Claude vorgeschlagen, drei Minuten zu kürzen, weil sie inhaltlich „vom Hauptthema ablenken“. Wir haben die Entscheidung im finalen Schnitt übernommen — sie war richtig. Das ist der Punkt, an dem KI-Schnitt für Personalmarketing-Inhalte spannend wird: Es geht nicht nur um Effizienz, sondern um eine zweite Meinung im Schnittraum, die Inhalte aus Hörer-Perspektive bewertet.

Schritt 3: FCPXML-Export nach DaVinci Resolve

Das Python-Skript nimmt Claudes Cut-Liste und baut daraus eine FCPXML-Datei. FCPXML ist ein Industrie-Standard, den Premiere Pro, Final Cut Pro und DaVinci Resolve alle lesen können — ein gemeinsamer Nenner für Schnittlisten. Die FCPXML-Datei beschreibt: Welche Audio-Spur, welche Video-Spur, in welcher Reihenfolge, welcher In- und Out-Punkt pro Clip.

In DaVinci Resolve klicken wir auf Datei → Importieren → Timeline und wählen die FCPXML-Datei. DaVinci öffnet eine fertige Timeline mit allen 110 Cuts korrekt angeordnet, Audio und Video synchron. Was bei klassischer Handarbeit zwei bis drei Stunden gedauert hätte, ist nach einer Sekunde geladen. Ab hier ist es konventionelle Schnittarbeit: Übergänge feinjustieren, Musik darunterlegen, Lautstärke angleichen — aber die langweilige Grobarbeit ist erledigt.

Wer mehr zur Tool-Wahl im KI-Schnitt-Workflow lernen will, findet das im Detail bei Folge 2 unserer Lern-Reihe — dort vergleichen wir Premiere, CapCut, Avid und DaVinci direkt gegeneinander.

Stolpersteine, die wir live erlebt haben

Stolperstein 1: Falscher Audio-Track im Export. Beim ersten Versuch hatte die FCPXML-Datei die falsche Audio-Spur referenziert — DaVinci hat eine leere Timeline geladen. Lösung: Im Glue-Skript explizit den Pfad zur Audio-Datei setzen, nicht den relativen Verweis verwenden.

Stolperstein 2: Zeitstempel-Drift bei langen Aufnahmen. Whisperflow kann bei sehr langen Audio-Files (über 90 Minuten) eine Drift von 1-2 Sekunden produzieren. Lösung: Die Aufnahme in 30-Minuten-Blöcke splitten und einzeln transkribieren lassen.

Stolperstein 3: Der Cliffhanger. Im finalen Export hat DaVinci den Ton komplett weggelassen — nur das Bild ist gerendert. Wir haben live in der Folge nicht herausgefunden, warum. Genau das ist der Übergang zu Folge 2: Wir lösen das Audio-Problem und vergleichen alle gängigen Schnittprogramme.

Was wir aus Folge 1 mitnehmen — und was in Folge 2 anders wird

Drei Erkenntnisse aus dem ersten KI-Schnitt Podcast-Test:

Erstens: Die Vorbereitung ist wichtiger als die KI. Saubere Audio-Aufnahme, korrigiertes Transkript, klarer Brief an Claude — wer diese drei Punkte hat, bekommt einen brauchbaren KI-Schnitt. Wer sie überspringt, frickelt drei Stunden, bis das Ergebnis dem von Handarbeit ähnelt.

Zweitens: KI ersetzt nicht den Cutter, sondern dessen Grobarbeit. Die kreativen Entscheidungen — welche O-Töne nehmen wir hervor, wo legen wir Musik darunter — bleiben menschlich. Das spart in Recruiting-Film-Projekten typischerweise 60 Prozent der Zeit, ohne dass die Endqualität leidet.

Drittens: Das Format ist auf Personalmarketing übertragbar. Wir nutzen denselben Workflow inzwischen für Mitarbeiter-Interviews bei Recruiting-Filmen, für Azubi-Porträts und für Workshops, die wir nachträglich als On-Demand-Material aufbereiten. Wer bei seiner Agentur oder Kommune einen wiederkehrenden Schnitt-Bedarf hat, sollte den Workflow einmal aufsetzen — die Investition zahlt sich nach drei bis fünf Projekten aus.

KI-Schnitt im Personalmarketing: Was Folge 1 für deine Praxis bedeutet

Du machst kein Podcast, sondern Recruiting-Inhalte? Genau dieser Workflow funktioniert dort eins-zu-eins. Ein typisches Mitarbeiter-Interview ist 45 bis 60 Minuten Rohmaterial, aus dem ein 3-Minuten-Recruiting-Spot wird. Mit klassischer Handarbeit kostet das zwei bis vier Stunden Schnitt. Mit dem KI-Schnitt Podcast-Workflow sind es 30 bis 45 Minuten — bei vergleichbarer Qualität.

Für Kommunen ist das besonders relevant: Eine Pressestelle in einer Stadt mit 50.000 Einwohnern hat selten Zeit für aufwändige Videoschnitt-Projekte. Wenn KI 70 Prozent der Schnitt-Arbeit übernimmt, wird Recruiting-Video plötzlich machbar — auch ohne Agentur, auch ohne eigene Postproduction-Abteilung. Im Detail zeigen wir das in unseren Inhouse-Workshops zu KI im Personalmarketing.

Wer den vollen Workflow inklusive Whisperflow-Konfiguration, Claude-Prompts und Python-Skript haben will: Genau das dokumentieren wir laufend hier in der Lern-Reihe. Folge 2 zeigt zusätzlich, welches Schnittprogramm sich für KI-Schnitt am besten eignet — Spoiler: Es ist nicht das teuerste.

Bereit, KI im Personalmarketing einzusetzen?

Wir helfen Kommunen und Mittelständlern, KI sinnvoll in den eigenen Recruiting-Prozess einzubinden — vom ersten Workshop bis zum produktiven Workflow. Sprich uns an: Ein kostenloses 45-Minuten-Beratungsgespräch ist immer drin. Wir hören zu, schauen auf eure konkrete Situation und sagen ehrlich, wo KI heute schon hilft und wo nicht.

Mehr Beispiele aus der Praxis findest du auf unserem YouTube-Kanal. Quelle für die Daten zum Fachkräftemangel im öffentlichen Dienst: BIBB — Bundesinstitut für Berufsbildung.

Schwarzwald Anker