
AI Video-Transkription
KI-gestützte Untertitelung und Barrierefreiheit für E-Commerce-Videoinhalte
PROJEKT
AI Video-Transkription
TECHNOLOGIEN
Herausforderung
In meiner Rolle als Entwickler bei einem großen Online-Händler stand ich vor der Herausforderung, die Barrierefreiheit unserer Produktvideos durch Transkription und Untertitelung zu verbessern.
Der Umfang des Projekts war erheblich: Tausende von Produktvideos mussten identifiziert, heruntergeladen und mit präzisen Untertiteln versehen werden. Eine manuelle Bearbeitung wäre viel zu zeit- und kostenintensiv gewesen. Zudem waren die Videodateien nicht zentral organisiert, sondern mussten erst lokalisiert werden.
Zusätzliche Herausforderungen umfassten:
- Das Fehlen einer zentralen Videoübersicht oder klaren Struktur der Videospeicherorte
- Cloudflare-Schutzmaßnahmen, die automatisierte Downloads erschwerten
- Die Notwendigkeit wortgenauer Untertitel für optimale Barrierefreiheit
- Benötigte Anpassungen für Markennamen und pharmazeutische Fachbegriffe
Lösung
Ich entwickelte eine durchgängige Pipeline, die das Problem in mehreren Schritten löste:
1. Crawler für Videoidentifikation
Durch Analyse der Websitestruktur stellte ich fest, dass Produktvideos nach dem Muster [PZN].mp4 benannt waren. Ich entwickelte einen Python-Crawler, der systematisch alle pharmazeutischen Zentralnummern überprüfte und Videos unter der URL-Struktur some-domain.de/videos/[PZN].mp4 identifizierte. Von 6.600 getesteten PZNs fand der Crawler 1.045 Videos.
2. Sequentielles Download-Management
Um Cloudflare-Schutzmaßnahmen zu umgehen, implementierte ich ein sequentielles Download-Script mit verzögerten Anfragen, rotierenden User-Agents und Session-Management. Dies ermöglichte das zuverlässige Herunterladen aller Videos ohne IP-Sperren zu riskieren.
3. Audio-Extraktion und KI-Transkription
Mit FFmpeg extrahierte ich die Audiospuren aus den Videos. Für die Transkription nutzte ich einen spezialisierten Fork von OpenAI's Whisper (whisper-timestamped), der wortgenaue Zeitstempel liefert – eine Funktion, die sonst nur in der kostenpflichtigen OpenAI API verfügbar ist.
4. Generierung von Untertiteldateien
Die wortgenauen Transkriptionen wandelte ich in SRT- und VTT-Formate um. Dabei implementierte ich einen intelligenten Algorithmus zur Segmentierung der Untertitel, der sicherstellte, dass sie optimal auf den Bildschirm passen und synchron mit dem Gesprochenen erscheinen.
5. Automatische Thumbnail-Generierung
Mit OpenCV analysierte ich die Videos, um qualitativ hochwertige Frames als Thumbnails zu extrahieren. Der Algorithmus berücksichtigte Faktoren wie Farbvielfalt und Detailreichtum, um sicherzustellen, dass die Thumbnails repräsentativ und ansprechend sind.
Code-Beispiele
Ergebnisse
Die entwickelte Pipeline erzielte beeindruckende Ergebnisse:
- Erfolgreiche Identifikation und Verarbeitung von 1.045 Produktvideos
- Automatische Erstellung präziser Untertitel mit einer geschätzten Fehlerquote von unter 5% bei normalem Text
- Signifikante Verbesserung der Barrierefreiheit für hörgeschädigte Kunden
- Enorme Zeit- und Kostenersparnis im Vergleich zu einer manuellen Transkription
- Wiederverwendbare Pipeline, die für neue Produktvideos eingesetzt werden kann
Besonders hervorzuheben ist die Qualität der automatisch generierten Untertitel und die Präzision der Wort-Timings, die ein synchrones Leseerlebnis ermöglichen. Die einzige Einschränkung lag bei der Erkennung spezieller Markennamen und Fachbegriffe, die in zukünftigen Versionen durch angepasste Wörterbücher verbessert werden könnte.
Visuelle Eindrücke

Der Workflow zeigt den Prozess der Transkription von Videos.