Qué es la transcripción de audio: definición, tipos y ejemplos

Una guía completa sobre la transcripción de audio a texto en 2026: qué es, los tipos principales (verbatim, limpia, fonética), los formatos comunes (SRT, DOCX, TXT, VTT), quién la usa y para qué, la diferencia con traducción y subtitulación, y cómo elegir entre IA y humano.

Guía honesta y completaSin jerga innecesaria30 minutos gratis

Formatos compatibles:

MP3WAVM4AMP4MOV

Antes de empezar: desambiguación

Este artículo trata sobre la transcripción de audio a texto (lingüística). Si buscas información sobre la transcripción genética (el proceso biológico de ADN a ARN), consulta el artículo de Wikipedia o Khan Academy. Si buscas la definición formal en el diccionario, consulta la entrada de la RAE.

Definición rápida

La transcripción de audio es el proceso de convertir contenido hablado (una grabación de audio o vídeo) en texto escrito. Se usa para crear actas de reuniones, subtítulos de vídeos, transcripciones de podcasts, expedientes judiciales, archivos accesibles para personas sordas, y mucho más. En 2026 se puede hacer de tres formas: automáticamente con IA (rápido y barato), profesionalmente por transcripción humana (preciso pero caro), o con un flujo híbrido (IA + revisión humana).

Definición ampliada

Etimológicamente, «transcribir» viene del latín transcribere, que significa «escribir copiando». El uso moderno en el contexto de audio se refiere específicamente a poner por escrito el contenido hablado de una grabación. No es traducción (cambiar de un idioma a otro) ni subtitulación (transcripción + sincronización con vídeo + restricciones de longitud) — aunque ambas se basan en una transcripción inicial.

Una transcripción puede mantener el idioma original (transcripción simple) o combinarse con traducción (transcripción + traducción para crear, por ejemplo, subtítulos en español de un vídeo en inglés). El resultado final es un documento de texto que puede tener distintos formatos según el uso: texto plano (TXT), Word (DOCX), PDF, o subtítulos sincronizados (SRT/VTT).

Los 4 tipos principales de transcripción

Tipo	Qué conserva	Cuándo se usa
Verbatim (literal)	Todo: muletillas («eh», «mmm»), pausas, falsos comienzos, interrupciones, risas	Procesos legales, entrevistas literales, análisis cualitativo
Limpia (editada)	Solo el contenido sustantivo, sin muletillas ni repeticiones	Actas de reuniones, podcasts publicados, artículos basados en entrevistas
Fonética	Sonidos exactos en alfabeto fonético internacional (IPA)	Lingüística académica, estudios de pronunciación, casos forenses
Resumida	Solo las ideas principales, no las palabras exactas	Notas ejecutivas, resúmenes para email

Los 5 formatos de archivo más comunes

TXT (texto plano) — máxima compatibilidad, sin formato. Para Notion, Obsidian, copy-paste a cualquier sitio.

DOCX (Word) — texto formateado con párrafos, hablantes, marcas de tiempo. Para informes, briefs, citas en documentos.

PDF — texto archivado en formato no editable. Para archivar, enviar oficialmente.

SRT (SubRip) — texto sincronizado al milisegundo con un vídeo. Formato estándar de subtítulos. Para YouTube, Vimeo, Instagram.

VTT (WebVTT) — versión web de SRT con soporte para estilos. Para reproductores HTML5 y plataformas modernas.

Ejemplo real con hablantes y marcas de tiempo

Así se ve una transcripción real exportada desde una herramienta de IA, con marcas de tiempo y etiquetado de hablantes:

[00:00:03] Periodista: Gracias por aceptar esta entrevista. Vamos a empezar por el principio.
[00:00:10] Entrevistada: Encantada. Cuéntame qué quieres saber.
[00:00:13] Periodista: ¿Cuándo empezaste a investigar este tema?
[00:00:17] Entrevistada: En 2019, pero la idea original viene de 2015...

IA vs transcripción humana: ¿cuál elegir?

IA (automática): $0.003-$0.01 por minuto. Tiempo de procesamiento de 5-15 minutos por hora de audio. Precisión 92-97% en audio claro, baja con acentos marcados, ruido o terminología técnica. Ideal para volumen alto, contenido interno, drafts.

Humana profesional: $1-$2 por minuto en servicios como Rev Legal o GoTranscript. 12-48 horas de espera. Precisión 99%+. Ideal para contenido publicable, procesos legales, casos donde la precisión es crítica. Flujo híbrido común: IA primero, humano revisa solo las partes críticas.

Quién usa transcripción y para qué

✓Periodistas y reporteros — citas de entrevistas, archivar fuentes.
✓Investigadores académicos — análisis cualitativo, focus groups, entrevistas.
✓Podcasters y youtubers — subtítulos, posts de blog para SEO, mostrar notas.
✓Equipos de reuniones — actas, acuerdos, seguimiento de acciones.
✓Educadores y estudiantes — apuntes de clases grabadas, repaso.
✓Abogados y paralegales — declaraciones, audiencias, expedientes.
✓Personas sordas o con discapacidad auditiva — accesibilidad.
✓Creadores de contenido — transcripciones de YouTube para reutilizar en posts.

Confusiones comunes

¿Transcripción es lo mismo que subtitulación?

No. Subtitulación = transcripción + sincronización con vídeo + formato corto + restricciones de longitud (máximo 2 líneas, ~42 caracteres por línea).

¿Transcripción es lo mismo que traducción?

No. Traducción = cambiar de idioma. Transcripción mantiene el idioma original.

¿Transcripción es lo mismo que dictado por voz?

Parecido pero no. Dictado = hablas y el ordenador escribe en directo. Transcripción = grabación previa que se convierte en texto después.

¿La IA «lee» el audio o «escucha»?

Es un modelo de reconocimiento de voz (ASR — Automatic Speech Recognition) que analiza la onda sonora y predice las palabras más probables según el contexto.

Preguntas frecuentes sobre transcripción de audio

¿Cuánto cuesta transcribir una hora de audio en 2026?

Con IA, entre $0.18 y $0.60 por hora ($0.003-$0.01 por minuto) según el plan elegido. Con transcripción humana profesional, entre $60 y $120 por hora ($1-$2 por minuto). VexaScribe ofrece 30 minutos gratis sin tarjeta de crédito, y planes desde $2/mes por 200 minutos.

¿La IA puede transcribir con varios hablantes?

Sí — esta función se llama 'diarización' o 'detección de hablantes'. Las herramientas modernas (VexaScribe, HappyScribe, Sonix) identifican y etiquetan automáticamente cada voz distinta. VexaScribe maneja hasta 50 hablantes por archivo, con mejor precisión entre 2 y 6 hablantes.

¿En qué idiomas funciona la transcripción automática?

Las herramientas modernas soportan entre 50 y 99 idiomas, con detección automática. VexaScribe transcribe en 99 idiomas. La calidad es mejor en idiomas con muchos datos de entrenamiento (inglés, español, francés, alemán, portugués, japonés, mandarín) y menor en idiomas minoritarios. Acentos muy marcados pueden bajar la precisión 5-10%.

¿Es legal transcribir un audio sin permiso del que habla?

Depende del país y del contexto. En España y la UE, grabar conversaciones privadas sin consentimiento es ilegal (sí es legal grabar tus propias llamadas para uso personal). La transcripción de una grabación legalmente obtenida es legal. Para uso público, periodístico o judicial, consulta leyes locales y normas profesionales antes de transcribir o publicar.

¿Cómo elijo entre transcripción IA y transcripción humana?

Usa IA cuando: necesitas rapidez, volumen alto, el contenido es interno o draft, el coste importa. Usa humana cuando: el documento será publicado/citado oficialmente, contiene terminología muy especializada, requiere precisión legal (procesos judiciales, expedientes médicos), o el audio es de muy mala calidad. Flujo híbrido común: IA primero, humano para revisar/certificar.

¿Por qué la transcripción automática se equivoca con acentos marcados?

Los modelos de IA aprenden de millones de horas de audio, pero los datos están sesgados hacia acentos 'estándar' (español de Madrid, inglés americano neutro, etc.). Acentos regionales muy marcados (andaluz cerrado, argentino rioplatense con voseo intenso, gallego con interferencia del gallego) tienen menos datos en el entrenamiento, así que la precisión baja. Los modelos mejoran cada año conforme se añaden más datos diversos.

Cómo empezar a transcribir

Si necesitas transcribir audio o vídeo, lo más rápido en 2026 es subir el archivo a una herramienta web con IA. VexaScribe ofrece 30 minutos gratis sin tarjeta de crédito — suficiente para probarlo con tu primer audio. Para transcripción profesional certificada (procesos legales, casos médicos), considera servicios humanos como Rev Legal o un transcriptor profesional certificado.

Ver planes y precios

Transcribir Audio a Texto

Página hub para empezar el flujo de transcripción.

Vídeo a Texto

Transcribir archivos de vídeo (MP4, MOV) a texto.

Generador de Subtítulos SRT

Crear subtítulos sincronizados para YouTube y vídeo web.

Transcripción de Entrevistas

Para entrevistas con varios hablantes y detección automática.