AI 자막 생성기 — 영상 자막 자동 만들기 (2026)

YouTube Shorts·TikTok·Instagram Reels에서 자막은 더 이상 선택이 아닙니다. 시청자의 80% 이상이 음소거 상태에서 영상을 보기 때문입니다. VexaScribe는 한국어 정확도 88~93%의 AI 자막 생성기로, 영상이나 음성 파일을 업로드하면 SRT·VTT·TXT 형식으로 자막을 자동 생성합니다. CapCut·Premiere Pro·Final Cut·DaVinci Resolve·Vrew 모두에 그대로 가져올 수 있어 편집 워크플로를 끊지 않습니다.

30분 무료 (신용카드 불필요)SRT·VTT·TXT 내보내기99개 언어 자막 번역

지원 형식

SRTVTTTXTMP4MP3M4A

짧게 답하면

AI로 영상 자막을 만드는 가장 빠른 방법은 영상 파일 업로드 → AI 전사 → SRT/VTT 내보내기 → 편집기로 가져오기 입니다. VexaScribe는 한국어 정확도 88~93%, 30분 무료, 이후 월 $2~$20에 200~6,000분을 처리합니다. 생성된 SRT 파일은 CapCut·Premiere Pro·Final Cut·DaVinci Resolve·Vrew 모두 그대로 가져옵니다. YouTube Shorts·TikTok·Reels 같은 짧은 영상은 1분 이내, 10분짜리 영상은 약 2~4분이면 자막이 준비됩니다.

정직한 한 마디: 단순한 한국어 Shorts·Reels라면 CapCut 자동 자막으로 충분한 경우가 많습니다. 길이가 길거나 화자가 여러 명이거나 한영 혼용이 잦은 영상이라면 VexaScribe로 자막을 만든 뒤 편집기에 가져오는 방식이 결과적으로 더 빠릅니다(수정 시간을 줄여주니까요).

자막 vs 전사본(Subtitle vs Transcript) — 무엇이 다른가

한국 크리에이터들이 가장 자주 혼동하는 부분입니다. 둘 다 음성을 텍스트로 옮긴 결과지만 용도와 형식이 완전히 다릅니다.

구분자막 (Subtitle)전사본 (Transcript)
목적영상 위에 표시되는 시청용 자막읽기·검색·아카이브용 전체 텍스트
형식SRT, VTT (시간코드 포함)TXT, DOCX, PDF (시간코드 선택)
한 줄 길이15~25자 (가독성 우선)제한 없음 (단락 단위)
사용 환경CapCut, Premiere Pro, YouTubeNotion, Word, Google Docs
필요한 시점영상 업로드 직전회의록·강의 노트·블로그 작성

결론: YouTube Shorts·TikTok·Reels에 영상을 올릴 때 필요한 것은 자막(SRT/VTT)입니다. 영상 내용을 블로그·노션·뉴스레터에 옮기고 싶다면 전사본(TXT)이 맞습니다. VexaScribe는 한 번의 전사로 두 가지 모두 내보낼 수 있어 어느 워크플로든 한 번에 처리됩니다.

자막 생성 도구 5가지 — 한눈에 비교

2026년 6월 기준 주요 자막 생성 도구의 공개 정보를 정리한 표입니다. VexaScribe를 기준으로 두고 한국 크리에이터가 자주 사용하는 4가지 대안과 비교했습니다.

도구한국어 정확도SRT/VTT 내보내기화자 분리자막 번역강점
VexaScribe88~93%✅ SRT + VTT + TXT✅ 자동 (이름 지정 가능)✅ 99개 언어정확도 + 화자 분리 + 다국어
Vrew85~92%✅ SRT제한적✅ 100+ 언어영상 편집기 통합 + 한국어 강함
CapCut 자동 자막75~85%간접 (편집기 내부만)제한적모바일·PC 영상 편집 일체형
YouTube Studio 자동 자막60~75%✅ SRT/VTT자동 번역 (정확도 낮음)완전 무료, 본인 영상에만 가능
무료 변환 사이트사이트마다 다름사이트마다 다름대부분 ❌무료 (광고·용량 제한 있음)

한국어 정확도는 공개된 ASR 벤치마크 및 Open ASR Leaderboard 기준이며, 영상의 음질·억양·전문 용어에 따라 실제 수치는 달라질 수 있습니다. CapCut과 YouTube Studio 자동 자막은 한국어 단일·정형 발화에서는 더 높은 정확도를 보일 수 있습니다.

지원 자막 형식 — 어느 편집기가 어느 형식을 받나

영상 편집기마다 선호하는 자막 형식이 다릅니다. SRT가 가장 보편적이지만 일부 도구는 VTT를 더 잘 다룹니다. 본인이 쓰는 도구에 맞춰 내보내기 형식을 선택하세요.

SRT (SubRip)

가장 오래되고 호환성이 넓은 자막 형식. 영상 편집 워크플로의 사실상 표준입니다.

  • ✅ CapCut (PC/모바일)
  • ✅ Adobe Premiere Pro
  • ✅ Final Cut Pro
  • ✅ DaVinci Resolve
  • ✅ Vrew
  • ✅ VLC, KMPlayer
  • ✅ YouTube Studio

VTT (WebVTT)

HTML5 비디오용 신형 포맷. 글자 색·위치·스타일 지정이 가능합니다.

  • ✅ YouTube Studio
  • ✅ Vimeo
  • ✅ HTML5 <video> 태그
  • ✅ Brightcove, JW Player
  • ✅ DaVinci Resolve
  • ⚠️ CapCut: 가져오기 가능하나 일부 스타일 무시
  • ⚠️ Premiere Pro: SRT가 더 안정적

TXT (plain text)

시간코드 없는 전사본 형식. 자막용은 아니지만 블로그·노션·문서화에 유용합니다.

  • ✅ Notion, Google Docs
  • ✅ Microsoft Word
  • ✅ 블로그(Wordpress·Tistory)
  • ✅ 메모 앱 전반
  • ❌ 영상 자막용 아님

권장: 영상 편집기로 작업할 거면 SRT를 기본으로 내보내세요. YouTube에 다국어 자막을 올릴 거면 VTT도 함께 받아두면 좋습니다. VexaScribe는 한 번의 전사로 세 형식 모두 한 번에 내보낼 수 있습니다.

한국어 자막 정확도 — 솔직한 이야기

\"AI 자막 100% 정확\"이라고 광고하는 도구가 있다면 의심하세요. 어떤 ASR 모델도 100%는 못 합니다. 한국어는 조사·어미 변형이 많고 사투리·외래어가 자주 섞이는 언어라 영어보다 약 5~10%포인트 정확도가 낮은 것이 일반적입니다.

VexaScribe 한국어 정확도 — 시나리오별 실제 수치

  • 스튜디오 녹음 한국어 단독 (강의·팟캐스트): 약 92~95% — 거의 그대로 사용 가능, 고유명사만 가벼운 검수.
  • 조용한 실내 1:1 인터뷰: 약 88~93% — 화자 분리 자동 적용, 전문 용어는 수정 필요.
  • 한영 혼용 IT 강의·외국계 회사 회의: 약 85~92% — Whisper의 코드 스위칭이 강점, 약어(API·UX 등)는 일부 오인식.
  • 야외 브이로그·라이브 영상: 약 75~85% — 배경 음악·소음으로 정확도 하락, 자막 수정에 30~50% 시간 추가.
  • 사투리 콘텐츠(부산·전라·제주): 약 75~85% — 표준어 학습 비중이 높아 사투리 어휘는 부정확할 수 있음.

정확도를 높이는 5가지 팁

  1. 음성만 분리해서 업로드 — 영상 파일에서 MP3·M4A로 음성을 추출하면 처리 속도와 정확도가 모두 향상됩니다.
  2. 배경 음악 줄이기 — 편집 단계에서 BGM 볼륨을 음성 대비 -20dB 이하로 낮추면 정확도가 5~10%포인트 개선됩니다.
  3. 언어 자동 감지 대신 한국어 명시 — 한영 혼용이 아닌 한국어 단독 영상이면 \"한국어\"로 명시하세요.
  4. 고유명사 미리 입력 — 회사명·인명·서비스명은 \"용어집(glossary)\"에 미리 추가하면 일관되게 인식됩니다.
  5. 출력 검수는 필수 — 어떤 AI든 100%는 못 합니다. 5분짜리 영상은 3분 검수, 10분짜리는 7분 검수가 일반적입니다.

비교 기준: VexaScribe는 OpenAI Whisper Large v3 모델을 사용하며, 한국어 정확도는 Open ASR Leaderboard 한국어 평가 데이터 기준입니다. 실제 결과는 음질·억양·도메인에 따라 ±5%포인트 변동할 수 있습니다.

자막 번역 — 한국어 → 영어/일본어/중국어 워크플로

한국 크리에이터가 글로벌 시청자를 노릴 때 가장 큰 진입 장벽이 다국어 자막입니다. 영어·일본어·중국어 자막을 함께 제공하면 K-pop·K-drama·K-food·게임 콘텐츠 채널의 해외 구독자 유입이 크게 늘어납니다.

3가지 다국어 자막 워크플로

① VexaScribe 자동 번역 (가장 빠름)

한국어 자막을 먼저 생성한 뒤 VexaScribe의 자동 번역으로 영어·일본어·중국어 SRT를 받습니다. 10분짜리 영상 → 한국어 자막 → 3개 언어 번역까지 약 10~15분. 비용 효율이 가장 높습니다.

② VexaScribe + DeepL/Papago 사람 검수

AI 번역 결과를 DeepL이나 Papago로 한 번 더 비교하거나, 영어가 능숙한 친구·동료에게 검수를 부탁하는 방법. 관용 표현·코미디·문화 차이가 큰 콘텐츠에 필수입니다.

③ 전문 자막 번역가 의뢰

Crowdin·Subly·Rev Translation 등 외주 서비스 또는 프리랜서 자막가에게 SRT 파일을 보냅니다. 비용은 분당 $5~$15 수준. K-drama·드라마형 콘텐츠·법률·의료 영상은 사람 번역이 안전합니다.

팁: YouTube Studio는 영상 한 개에 무제한으로 자막 트랙을 추가할 수 있습니다. SRT 파일 5개(한국어·영어·일본어·중국어·스페인어)를 모두 업로드하면 시청자가 자국어 자막을 선택해서 시청할 수 있습니다. 해외 시청자 유입은 평균 +20~40% 증가하는 것으로 알려져 있습니다.

단계별 가이드 — VexaScribe로 자막 만들기 (3단계)

영상 업로드부터 SRT 다운로드까지 평균 3~10분 안에 끝납니다. 1시간짜리 강의는 약 5~10분, 1분짜리 Shorts는 약 30초~1분입니다.

  1. 1단계 — 영상·음성 파일 업로드. VexaScribe 대시보드에 MP4 영상을 그대로 드래그 앤 드롭하거나, 미리 추출한 MP3·M4A·WAV 음성 파일을 올립니다. 음성만 분리하면 업로드 속도와 정확도가 모두 향상됩니다. 최대 5 GB 파일까지 지원합니다.
  2. 2단계 — 언어 지정 + 옵션 선택. 언어를 \"한국어\"로 명시하면 정확도가 가장 높습니다. 인터뷰·팟캐스트 영상이면 \"화자 분리\" 옵션을 켜세요. 다국어 자막이 필요하면 \"번역 언어\"를 함께 선택합니다(영어·일본어·중국어 등).
  3. 3단계 — SRT/VTT 내보내기 → 편집기로 가져오기. 처리 완료 후 SRT 또는 VTT 버튼을 눌러 파일을 다운로드합니다. CapCut·Premiere Pro·Final Cut·DaVinci Resolve·Vrew의 \"자막 가져오기\" 메뉴에서 SRT를 불러오면 타임코드가 자동으로 맞춰집니다. 글자 스타일·색·위치는 편집기에서 자유롭게 변경할 수 있습니다.

검수 팁: 자동 자막 결과는 100%가 아니므로 빠르게 한 번 훑어보고 고유명사·약어를 수정하는 것이 좋습니다. VexaScribe 대시보드 안의 자막 편집기에서 바로 수정한 뒤 SRT를 다시 내보낼 수 있어 외부 도구로 옮길 필요가 없습니다.

크리에이터 워크플로 예시

플랫폼별로 영상 길이·자막 스타일·업로드 워크플로가 다릅니다. 한국 크리에이터가 가장 자주 마주하는 4가지 시나리오를 정리했습니다.

YouTube Shorts (60초 이내)

세로형 짧은 영상. 시청자 80%가 음소거 시청이라 큰 글자 자막이 필수입니다.

  1. VexaScribe에 영상 업로드 → 한국어 지정
  2. SRT 내보내기 (약 30초~1분)
  3. CapCut 모바일에서 SRT 가져오기
  4. 큰 폰트·노란색·중앙 정렬로 스타일 적용
  5. YouTube Studio 자막 메뉴에 SRT 업로드(검색 노출용)

TikTok (60초~3분)

글로벌 노출을 노린다면 영어 자막을 함께 넣는 것이 유리합니다.

  1. VexaScribe로 한국어 자막 생성
  2. 영어로 자동 번역 (자막 번역 옵션)
  3. 두 SRT 파일을 CapCut에 별도 트랙으로 가져오기
  4. 한국어 위, 영어 아래로 위치 조정
  5. TikTok 업로드 (TikTok 자체 자막 끄기)

Instagram Reels (90초 이내)

Reels는 자막 스타일이 시각적 정체성의 일부입니다. 일관된 폰트·색 유지가 중요합니다.

  1. VexaScribe로 자막 생성 + 자동 번역(필요 시)
  2. CapCut 또는 Premiere Pro에 SRT 가져오기
  3. 본인 채널 폰트 프리셋 적용
  4. 안전 영역(상하 15%) 안에 자막 배치
  5. Instagram에 9:16 비율로 업로드

IGTV·긴 YouTube 영상 (10분 이상)

강의·인터뷰·브이로그 등 긴 영상. 화자 분리와 정확도가 핵심입니다.

  1. VexaScribe에 영상 업로드 → 화자 분리 옵션 ON
  2. 화자 이름 지정(호스트/게스트/실명)
  3. SRT + TXT 두 형식 내보내기
  4. SRT는 Premiere Pro 또는 DaVinci Resolve로 가져오기
  5. TXT는 Notion에 영상 요약·블로그 글로 재활용

모든 시나리오에서 공통: 자동 자막 결과는 한 번 검수한 뒤 업로드하세요. 검수에 5~10분 더 쓰면 시청 완료율과 채널 신뢰도가 모두 올라갑니다.

Frequently Asked Questions

AI로 자막을 만드는 가장 빠른 방법은?

현재 가장 빠른 워크플로는 (1) 영상 파일(또는 음성만 추출한 MP3·M4A)을 VexaScribe에 드래그 앤 드롭으로 업로드, (2) 언어를 "한국어"로 지정(또는 자동 감지에 맡기기), (3) 처리 완료 후 SRT 또는 VTT로 내보내기입니다. 1분짜리 YouTube Shorts는 약 30초~1분, 10분짜리 영상은 약 2~4분이면 자막 생성이 끝납니다. CapCut·Premiere Pro·Vrew 등 편집기에 SRT 파일을 그대로 가져오면 타임코드가 자동으로 맞춰지므로 수동 타이핑 대비 시간을 90% 이상 절약할 수 있습니다.

SRT와 VTT의 차이는?

둘 다 "시간코드 + 자막 텍스트" 쌍을 담는 파일 형식이지만 호환 환경이 다릅니다. SRT(SubRip)는 가장 오래되고 보편적인 형식으로 CapCut·Premiere Pro·Final Cut·DaVinci Resolve·VLC·Vrew 등 거의 모든 영상 편집기와 플레이어가 지원합니다. 영상 편집 워크플로에서는 SRT가 사실상 표준입니다. VTT(WebVTT)는 HTML5 비디오·웹 플레이어를 위해 설계된 신형 포맷으로 글자 색·위치·스타일을 지정할 수 있고 YouTube·Vimeo 같은 웹 플랫폼이 선호합니다. 영상 편집기에서 작업할 거면 SRT, 웹사이트에 직접 자막을 얹을 거면 VTT를 선택하세요. VexaScribe는 두 형식 모두 한 번에 내보낼 수 있습니다.

CapCut과 VexaScribe 자막의 차이는?

CapCut 자동 자막은 영상 편집 중에 한 번의 클릭으로 자막을 입힐 수 있어 편리하지만, 한국어 정확도가 약 75~85% 수준이고 화자 분리·다국어 코드 스위칭은 지원하지 않습니다. VexaScribe는 OpenAI Whisper Large v3 기반으로 한국어 정확도가 약 88~93%이며, 화자 분리·고유명사 처리·한영 코드 스위칭에 더 강합니다. 다만 영상 편집기가 아니므로 자막 생성 후 SRT를 CapCut(또는 Premiere Pro·Vrew)으로 가져와서 편집해야 합니다. 짧고 단순한 Shorts·Reels는 CapCut으로 충분한 경우가 많고, 인터뷰·강의·다국어 영상은 VexaScribe로 자막을 만든 뒤 편집기로 가져오는 방식이 더 정확합니다.

한국어 자막을 영어로 번역할 수 있나요?

예, 가능합니다. VexaScribe는 한국어 음성을 한국어 자막으로 전사한 뒤 자체 번역 기능으로 영어·일본어·중국어·스페인어 등 99개 언어로 변환할 수 있습니다. 결과물도 SRT·VTT 형식으로 내보낼 수 있어 한 번에 다국어 자막 트랙을 만들 수 있습니다. 글로벌 YouTube 운영을 노리는 한국 크리에이터에게 유용한 워크플로입니다. 다만 자동 번역은 직역에 가까우므로 마케팅·코미디·관용 표현이 많은 영상은 사람 검수를 권장합니다.

YouTube에 자동 자막 업로드 방법은?

VexaScribe에서 SRT 또는 VTT로 내보낸 파일을 YouTube Studio에 직접 업로드할 수 있습니다. 단계는 (1) YouTube Studio → 콘텐츠 → 해당 영상 클릭, (2) 좌측 "자막" 메뉴 → 언어 추가(한국어), (3) "파일 업로드" → "자막이 있는 파일" 선택 → SRT 파일 업로드, (4) 미리보기로 타임코드 확인 후 "게시" 클릭입니다. YouTube 자동 자막을 끄고 본인이 만든 정확한 자막을 표시할 수 있어 시청자 경험과 검색 노출(SEO) 모두에 유리합니다. 다국어 자막을 함께 업로드하면 해외 시청자 유입도 늘어납니다.

TikTok·Reels 짧은 영상에 자막을 빠르게 넣으려면?

60초 이하의 짧은 영상이면 두 가지 빠른 워크플로가 있습니다. (1) CapCut 모바일의 "자동 자막" 기능으로 앱 안에서 바로 자막을 입히는 방법 — 가장 빠르지만 정확도가 75~85% 수준이라 고유명사·전문 용어가 많으면 수정이 필요합니다. (2) VexaScribe로 음성을 먼저 전사 → SRT 내보내기 → CapCut에 SRT 가져오기 → 글자 스타일만 편집기에서 적용. 두 번째 방법이 한 단계 더 거치지만 정확도가 훨씬 높아 결국 수정 시간을 줄여줍니다. TikTok·Reels는 음성 없이 자막만 보고 시청하는 비율이 높아 자막 정확도가 곧 시청 완료율로 이어집니다.

Vrew와 VexaScribe 자막 정확도 비교는?

Vrew는 Voyager X가 만든 영상 편집기 + 자동 자막 통합 도구로 한국어 자막 정확도가 약 85~92% 수준입니다. 한국어 콘텐츠 최적화 측면에서 매우 강력합니다. VexaScribe는 Whisper Large v3 기반으로 한국어 정확도 약 88~93%이며 99개 언어 자동 감지·다국어 코드 스위칭에 강점이 있습니다. 단일 한국어 영상에 컷 편집까지 한 도구에서 끝내고 싶다면 Vrew가 효율적입니다. 다국어 영상(한영 혼용 IT 강의, 외국인 인터뷰 등)이나 영상 편집은 기존 도구(Premiere Pro·DaVinci Resolve)로 하고 자막만 분리해서 만들고 싶다면 VexaScribe가 적합합니다.

자막에 화자 이름도 넣을 수 있나요?

예, 가능합니다. VexaScribe는 업로드한 음성을 분석해 화자별로 구간을 자동 분리(speaker diarization)하고 "화자 1", "화자 2" 같은 기본 라벨을 붙입니다. 그 후 대시보드에서 각 화자의 이름을 "호스트", "게스트", 또는 실제 이름으로 직접 지정할 수 있습니다. 그 결과를 SRT로 내보내면 각 자막 라인 앞에 화자 이름이 포함됩니다. 인터뷰·팟캐스트·다인 토론 영상에 특히 유용하며, CapCut·Vrew 같은 도구의 자동 자막은 이런 화자 분리 기능을 거의 지원하지 않습니다.

자막 길이(한 줄당 글자 수)를 조절할 수 있나요?

VexaScribe의 SRT/VTT 내보내기는 기본적으로 자연스러운 호흡 단위로 자막 라인을 끊으며 한 줄당 평균 15~25자(한국어 기준) 수준으로 출력합니다. 이는 모바일 영상에서 가독성이 가장 좋은 길이입니다. 더 짧게(쇼츠용 10~15자) 또는 더 길게(영화 자막 스타일) 조정하고 싶다면 CapCut·Premiere Pro·Vrew의 자막 편집 기능에서 라인 분할·병합으로 조정할 수 있습니다. 일부 사용자는 SRT 파일을 텍스트 에디터에서 직접 열어 줄바꿈을 수동으로 조정하기도 합니다 — SRT는 단순한 텍스트 형식이라 편집이 쉽습니다.

지금 무료로 자막 만들기

30분 무료 체험으로 본인 영상의 한국어 자막 정확도를 직접 확인해보세요. SRT·VTT·TXT 모두 내보낼 수 있고 신용카드 등록은 필요하지 않습니다.

무료로 시작 →