Untertitel-Generator

Generieren Sie SRT- und VTT-Untertiteldateien automatisch aus Audio oder Video. Laden Sie Ihre Datei hoch und VexaScribe erstellt präzise getimte Untertitel mit KI-Transkription in 99 Sprachen.

Keine Kreditkarte erforderlichSRT- & VTT-Export99 Sprachen

Supported formats:

MP3WAVM4AMP4MOVMKVAVIWebM

VexaScribe generiert Untertiteldateien (SRT und VTT) automatisch aus Audio oder Video per KI-Transkription. Datei hochladen und Untertitel in wenigen Minuten herunterladen. Pläne ab 2 $/Monat mit 30 Minuten kostenloser Testversion.

Was sind SRT- und VTT-Untertiteldateien?

Untertitel sind Textüberlagerungen, die gesprochenen Dialog synchron zur Videowiedergabe anzeigen. Sie machen Inhalte für gehörlose und schwerhörige Zuschauer zugänglich, steigern das Engagement in sozialen Medien (wo die meisten Videos stumm abgespielt werden) und helfen Zuschauern in lauten Umgebungen, dem Inhalt zu folgen.

SRT (SubRip) ist das am weitesten verbreitete Untertitelformat. Es funktioniert mit YouTube, Vimeo, TikTok, LinkedIn, Premiere Pro, DaVinci Resolve, Final Cut Pro und praktisch jeder Videoplattform und jedem Editor.

VTT (WebVTT) ist das web-native Format für HTML5-Videoplayer. Es unterstützt zusätzliche Stil­optionen wie Schriftfarbe und Positionierung. YouTube und die meisten modernen Plattformen akzeptieren beide Formate.

Beispiel SRT-Ausgabe

1
00:00:00,000 --> 00:00:03,500
Willkommen zurück zur Show. Heute sprechen
wir über Produktivitäts-Tipps.

2
00:00:04,200 --> 00:00:08,100
Danke für die Einladung. Ich arbeite seit
fünf Jahren remote.

3
00:00:08,800 --> 00:00:12,400
Das ist eine tolle Erfahrung. Was ist Ihr
wichtigster Tipp?

4
00:00:13,000 --> 00:00:17,600
Definitiv Time-Blocking. Planen Sie tiefe
Arbeitsphasen und schützen Sie diese Stunden.

Jedes Untertitel-Segment enthält präzise Start-/Endzeitstempel, synchron zum Originalaudio.

Warum die meisten kostenlosen Untertitel-Generatoren scheitern

Günstige und kostenlose Untertitel-Tools werfen ganze Sprecherabschnitte in einzelne Cues — manchmal über 600 Zeichen und mehr als 30 Sekunden lang. Untertitel-Player begrenzen die Cue-Dauer auf etwa 30 Sekunden, sodass solche Dateien in Premiere Pro, Final Cut oder DaVinci Resolve nicht importiert werden können oder als unlesbare Textwände auf dem Bildschirm erscheinen.

VexaScribe verarbeitet jeden SRT- und VTT-Export mit einem wortbasierten Cue-Splitting-Algorithmus, der echte Wort-für-Wort-Zeitstempel der Transkriptions-Engine nutzt — keine interpolierten Schätzungen. Das Ergebnis entspricht der Qualität bezahlter Tools wie Descript und Sonix (15–25 $/Monat) zu unserem Preisniveau.

Ausgabe-Spezifikationen

  • ~80 Zeichen pro Cue (Descript / Sonix / Vimeo Standard)
  • ~5 Sek. pro Cue, 10 Sek. harte Obergrenze
  • Teilt zuerst an Satzgrenzen, dann an Kommas, dann an Wortgrenzen
  • Wort-genaues Timing — Cues synchron mit echter Sprache
  • Sprecher-Labels bei jedem Split erhalten
  • Dramatische Pausen bleiben auf dem Bildschirm (keine Sub-Sekunden-Blitze)

Importiert sauber in

  • YouTube (erkennt SRT / VTT automatisch, rendert pro Cue)
  • Adobe Premiere Pro, Final Cut Pro, DaVinci Resolve
  • VLC, MX Player, gängige Untertitel-Viewer
  • Vimeo, Facebook, Instagram, LinkedIn
  • Keine manuelle Nachbearbeitung erforderlich

Wo Sie Ihre Untertitel einsetzen

YouTube

SRT/VTT in YouTube Studio unter Untertitel hochladen. Verbessert SEO und Wiedergabezeit.

TikTok

Untertitel hinzufügen, um Zuschauer ohne Ton zu erreichen — 80 % der TikTok-Videos werden stumm angesehen.

LinkedIn

Native Videos mit Untertiteln erzielen 2× mehr Engagement. SRT beim Posten hochladen.

Premiere Pro / DaVinci

SRT-Dateien direkt in Ihre Timeline importieren für professionelle Bearbeitung.

Online-Kurse

Untertitel zu Vorlesungsvideos hinzufügen für Barrierefreiheit und bessere Lernergebnisse.

Instagram Reels

Untertitel in Reels einbrennen für maximale Reichweite bei allen Zielgruppen.

Preise für Untertitelerstellung

1-Stunden-Video=~$0.30
30-Min-Video=~$0.15
10-Min-Video=~$0.05
View pricing plans

So erstellen Sie Untertitel

Audio oder Video hochladen

Datei per Drag & Drop oder Klick zum Auswählen hochladen. Wir akzeptieren MP3, WAV, M4A, MP4, MOV und über 20 weitere Formate. Dateien bis 5 GB.

KI erstellt Untertitel

Unsere KI transkribiert das Audio, erkennt Sprecher und erstellt präzise getimte Untertitel-Segmente. Die meisten Dateien werden in wenigen Minuten verarbeitet.

SRT oder VTT herunterladen

Untertitel im Editor prüfen, bei Bedarf korrigieren und als SRT oder VTT exportieren. Direkt zu YouTube, TikTok oder Ihrem Video-Editor hochladen.

Warum VexaScribe für Untertitel?

KI-basierte Untertitelerstellung mit professionellem Timing und hoher Genauigkeit

Präzises Timing

Jedes Untertitel-Segment ist mit Wortgenauigkeit zum gesprochenen Wort getimt. Keine manuelle Synchronisation erforderlich.

99 Sprachen

Untertitel generieren in Englisch, Spanisch, Französisch, Deutsch, Chinesisch, Japanisch, Arabisch und 92 weiteren Sprachen.

Minuten, keine Stunden

Ein 1-Stunden-Video erhält Untertitel in etwa 5-10 Minuten. Manuelle Untertitelung würde 4-6 Stunden dauern.

Sprechererkennung

Bei mehreren Sprechern enthalten die Untertitel Sprecher-Labels. Ideal für Interviews, Podcasts und Panel-Diskussionen.

SRT- & VTT-Export

Als SRT (universell) oder VTT (web-nativ) herunterladen. Beide funktionieren mit YouTube, sozialen Medien und professionellen Video-Editoren.

Vor Export bearbeiten

Untertitel im integrierten Editor prüfen und korrigieren. Wörter korrigieren, Timing anpassen und Qualität vor dem Download sicherstellen.

Manuelle Untertitelung vs. KI-Untertitel

Manuelle Untertitelung

  • Dauert 4-6 Stunden pro Stunde Video
  • Manuelle Zeitstempel-Synchronisation ist mühsam
  • Teuer wenn ausgelagert (1-3 $/Min)
  • Eine Sprache pro Durchgang

VexaScribe KI-Untertitel

  • 1 Stunde Video untertitelt in 5-10 Min
  • Zeitstempel automatisch generiert
  • Ab 0,30 $ pro Stunde Video
  • 99 Sprachen unterstützt

Untertitel-Generator FAQ

Wie erstelle ich Untertitel aus Audio?

Laden Sie Ihre Audio- oder Videodatei per Drag-and-Drop oder über den Dateibrowser in VexaScribe hoch. Unsere KI-Transkriptions-Engine verarbeitet die Datei, erkennt gesprochene Wörter mit präzisen Zeitstempeln und erstellt eine Untertiteldatei. Nach Abschluss können Sie als SRT- oder VTT-Format exportieren — beide sind kompatibel mit YouTube, TikTok, LinkedIn und den meisten Videobearbeitungsprogrammen. Der gesamte Vorgang dauert bei den meisten Dateien nur wenige Minuten.

Welche Untertitelformate unterstützt VexaScribe?

VexaScribe exportiert Untertitel in den Formaten SRT (SubRip) und VTT (WebVTT). SRT ist das am weitesten verbreitete Format und funktioniert mit YouTube, Premiere Pro, DaVinci Resolve, Final Cut Pro und den meisten Social-Media-Plattformen. VTT ist das web-native Format für HTML5-Videoplayer und wird ebenfalls von YouTube und anderen Plattformen akzeptiert.

Wie genau sind KI-generierte Untertitel?

Die Genauigkeit hängt von der Audioqualität, Hintergrundgeräuschen und der Deutlichkeit des Sprechers ab. Bei klaren Aufnahmen mit minimalen Hintergrundgeräuschen liefert VexaScribe in der Regel eine hohe Genauigkeit, die für den professionellen Einsatz geeignet ist. Sie können Untertitel im integrierten Editor überprüfen und bearbeiten, bevor Sie sie exportieren. Bei Inhalten mit starken Akzenten oder Fachbegriffen empfiehlt sich eine kurze Überprüfung.

Kann ich Untertitel in verschiedenen Sprachen erstellen?

Ja, VexaScribe erstellt Untertitel in 99 Sprachen, darunter Englisch, Spanisch, Französisch, Deutsch, Portugiesisch, Italienisch, Chinesisch, Japanisch, Koreanisch, Arabisch, Hindi und viele weitere. Die Sprache wird automatisch aus dem Audio erkannt, oder Sie können sie manuell angeben, um die besten Ergebnisse zu erzielen.

Was ist der Unterschied zwischen SRT- und VTT-Untertiteldateien?

SRT (SubRip) ist das am häufigsten verwendete Untertitelformat — einfach, universell und von praktisch jeder Videoplattform und jedem Editor akzeptiert. VTT (WebVTT) ist das neuere web-native Format, das zusätzliche Gestaltungsmöglichkeiten wie Schriftfarbe und Positionierung unterstützt. Für die meisten Anwendungsfälle ist SRT die sicherere Wahl. Wählen Sie VTT, wenn Sie Web-Wiedergabe oder benutzerdefinierte Gestaltung benötigen.

Kann ich Untertitel vor dem Download bearbeiten?

Ja. Nach der Transkription können Sie das vollständige Transkript im integrierten Editor von VexaScribe überprüfen und bearbeiten. Korrigieren Sie Wörter, passen Sie das Timing an, benennen Sie Sprecher um und exportieren Sie dann die korrigierte Version als SRT oder VTT. So erhalten Sie Untertitel in professioneller Qualität ohne manuelles Timing.

Welche Video- und Audioformate kann ich hochladen?

VexaScribe akzeptiert alle gängigen Audioformate (MP3, WAV, M4A, FLAC, OGG, AAC) und Videoformate (MP4, MOV, AVI, MKV, WebM). Bei Videodateien wird die Audiospur automatisch extrahiert. Dateien bis zu 5 GB werden unterstützt.

Was kostet die Untertitelerstellung?

Die Untertitelerstellung nutzt die gleiche Preisgestaltung wie die Transkription. Die kostenlose Testversion umfasst 30 Minuten. Bezahlpläne beginnen bei 2 $/Monat für 200 Minuten (Starter), 5 $/Monat für 1.000 Minuten (Basic), 10 $/Monat für 2.500 Minuten (Pro) und 20 $/Monat für 6.000 Minuten (Studio). Ein 1-stündiges Video kostet im Basic-Plan etwa 0,30 $ für die Untertitelung.

Wie werden die Untertitel-Cues dimensioniert? Sind sie auf dem Bildschirm lesbar?

VexaScribe verarbeitet jeden Untertitel-Export mit einem wortbasierten Cue-Splitting-Algorithmus. Cues sind auf ca. 80 Zeichen und 5 Sekunden begrenzt (10 Sekunden harte Obergrenze) — entsprechend dem lesbaren Web-Untertitelbereich, der von Descript, Sonix und Vimeo verwendet wird. Splits bevorzugen Satzgrenzen, dann Kommas, dann Wortgrenzen. Sprecher-Labels bleiben bei jedem Split erhalten. Dateien importieren sauber in YouTube, Premiere Pro, Final Cut Pro, DaVinci Resolve und VLC ohne manuelle Nachbearbeitung.

Bleiben die Untertitel synchron mit der tatsächlichen Sprache?

Ja. VexaScribe verwendet echte Wort-für-Wort-Zeitstempel der Transkriptions-Engine — die Cue-Start- und Endzeiten liegen auf tatsächlichen Wortgrenzen, nicht auf interpolierten Schätzungen über einen langen Segment. Dramatische Pausen in der Sprache (motivierende Reden, Hörbücher) bleiben erhalten: der Cue bleibt auf dem Bildschirm über die Stille hinweg, statt einen Sub-Sekunden-Blitz gefolgt von einem leeren Bildschirm zu erzeugen.

Hinweis: VexaScribe erstellt Untertitel mit KI-Spracherkennung. Die Genauigkeit kann je nach Audioqualität, Akzent und Hintergrundgeräuschen variieren. Wir empfehlen, Untertitel vor der Veröffentlichung zu überprüfen.