CASE STUDY

AI Video-Transkription

KI-gestützte Untertitelung und Barrierefreiheit für E-Commerce-Videoinhalte

PROJEKT

TECHNOLOGIEN

PythonOpenAI WhisperCloudflareOpenCVFFmpegWeb CrawlingAISubtitlesBFSG

Herausforderung

In meiner Rolle als Entwickler bei einem großen Online-Händler stand ich vor der Herausforderung, die Barrierefreiheit unserer Produktvideos durch Transkription und Untertitelung zu verbessern.

Der Umfang des Projekts war erheblich: Tausende von Produktvideos mussten identifiziert, heruntergeladen und mit präzisen Untertiteln versehen werden. Eine manuelle Bearbeitung wäre viel zu zeit- und kostenintensiv gewesen. Zudem waren die Videodateien nicht zentral organisiert, sondern mussten erst lokalisiert werden.

Zusätzliche Herausforderungen umfassten:

Das Fehlen einer zentralen Videoübersicht oder klaren Struktur der Videospeicherorte
Cloudflare-Schutzmaßnahmen, die automatisierte Downloads erschwerten
Die Notwendigkeit wortgenauer Untertitel für optimale Barrierefreiheit
Benötigte Anpassungen für Markennamen und pharmazeutische Fachbegriffe

Lösung

Ich entwickelte eine durchgängige Pipeline, die das Problem in mehreren Schritten löste:

1. Crawler für Videoidentifikation

Durch Analyse der Websitestruktur stellte ich fest, dass Produktvideos nach dem Muster [PZN].mp4 benannt waren. Ich entwickelte einen Python-Crawler, der systematisch alle pharmazeutischen Zentralnummern überprüfte und Videos unter der URL-Struktur some-domain.de/videos/[PZN].mp4 identifizierte. Von 6.600 getesteten PZNs fand der Crawler 1.045 Videos.

2. Sequentielles Download-Management

Um Cloudflare-Schutzmaßnahmen zu umgehen, implementierte ich ein sequentielles Download-Script mit verzögerten Anfragen, rotierenden User-Agents und Session-Management. Dies ermöglichte das zuverlässige Herunterladen aller Videos ohne IP-Sperren zu riskieren.

3. Audio-Extraktion und KI-Transkription

Mit FFmpeg extrahierte ich die Audiospuren aus den Videos. Für die Transkription nutzte ich einen spezialisierten Fork von OpenAI's Whisper (whisper-timestamped), der wortgenaue Zeitstempel liefert – eine Funktion, die sonst nur in der kostenpflichtigen OpenAI API verfügbar ist.

4. Generierung von Untertiteldateien

Die wortgenauen Transkriptionen wandelte ich in SRT- und VTT-Formate um. Dabei implementierte ich einen intelligenten Algorithmus zur Segmentierung der Untertitel, der sicherstellte, dass sie optimal auf den Bildschirm passen und synchron mit dem Gesprochenen erscheinen.

5. Automatische Thumbnail-Generierung

Mit OpenCV analysierte ich die Videos, um qualitativ hochwertige Frames als Thumbnails zu extrahieren. Der Algorithmus berücksichtigte Faktoren wie Farbvielfalt und Detailreichtum, um sicherzustellen, dass die Thumbnails repräsentativ und ansprechend sind.

Code-Beispiele

Ergebnisse

Die entwickelte Pipeline erzielte beeindruckende Ergebnisse:

Erfolgreiche Identifikation und Verarbeitung von 1.045 Produktvideos
Automatische Erstellung präziser Untertitel mit einer geschätzten Fehlerquote von unter 5% bei normalem Text
Signifikante Verbesserung der Barrierefreiheit für hörgeschädigte Kunden
Enorme Zeit- und Kostenersparnis im Vergleich zu einer manuellen Transkription
Wiederverwendbare Pipeline, die für neue Produktvideos eingesetzt werden kann

Besonders hervorzuheben ist die Qualität der automatisch generierten Untertitel und die Präzision der Wort-Timings, die ein synchrones Leseerlebnis ermöglichen. Die einzige Einschränkung lag bei der Erkennung spezieller Markennamen und Fachbegriffe, die in zukünftigen Versionen durch angepasste Wörterbücher verbessert werden könnte.

Visuelle Eindrücke

Der Workflow zeigt den Prozess der Transkription von Videos.

E-Commerce-Prod...