VoiceScript

파일 업로드

🎵

탭하거나 드래그하여 선택
음성·영상 복수 선택 가능

mp3 · wav · m4a · ogg · flac · mp4 · webm

STT 엔진

후처리 모델

OpenRouter 교정 모델

처리 중...0%

변환 결과

언어 —

길이 —

세그먼트 —

📝

파일 업로드 후
변환을 시작하면
결과가 표시됩니다

이미지 업로드

🖼

탭하거나 드래그하여 선택
복수 선택 가능

jpg · png · bmp · tiff · webp · gif

OCR 엔진

Vision 모델

▶ 커스텀 프롬프트

인식 모드

일반 텍스트와 글자를 인식합니다

처리 중...0%

인식 결과

줄 —

모드 —

엔진 —

표 —

🔍

이미지 업로드 후
인식을 시작하면
결과가 표시됩니다

📊

표 구조 분석 모드를
선택하면 표를
추출할 수 있습니다

📋 변환 이력

불러오는 중...

⚙️ 설정

📊 시스템 리소스

RAM 사용량

—

로딩 중

CPU 사용률

—

로딩 중

Swap

—

CPU 스레드

—

worker 재시작 후 반영

🖥️ CPU 스레드

Whisper STT에 사용할 CPU 스레드 수0 = 자동 (전체 코어 사용)

0 (자동)

⏱️ 변환 타임아웃

STT 변환 타임아웃 (초)

0 = 무제한 · 대용량 파일은 크게 설정

Ollama 응답 타임아웃 (초)

11b 이상 모델은 300+ 권장

자막 LLM 타임아웃 (초)

번역·교정 시 응답 대기 시간

🎙 STT Ollama 후처리 기본 모델

Whisper 변환 후 교정에 사용할 모델STT 페이지에서 미선택 시 이 모델이 사용됩니다

🔍 OCR Ollama 기본 모델

OCR Vision 엔진 선택 시 사용할 모델OCR 페이지에서 미선택 시 이 모델이 사용됩니다

🌐 OpenRouter 외부 AI 연동

API 키

API URL

🔑 STT 엔진 API 키

Groq API 키 groq.com에서 무료 발급 OpenAI API 키 기본 STT 엔진

🎬 자막 생성

1

2

3

오디오 추출 음성 인식·교정 번역 (선택)

📁 영상 / 오디오 파일

🎬

탭하거나 드래그하여 선택
mp4 · mkv · h.264/h.265 · mp3 · wav 등 · 최대 10개

⚙️ 자막 설정

음성 언어 (원어)

자막 포맷

STT 엔진

🧠 Step 2 — LLM 교정 (선택)

LLM 교정 사용

🌐 Step 3 — 번역 (선택)

비워두면 원어 자막만 생성됩니다

번역 대상 언어

⏳

Step 1 — 오디오 추출

ffmpeg 오디오 추출 대기

⏳

Step 2 — 음성 인식 · LLM 교정

Whisper 인식 대기

⏳

Step 3 — 번역

번역 대기

✓ 자막 생성 완료

감지 언어

—

재생 시간

—

자막 수

—

번역

—

📁 PDF 파일 업로드

📄

탭하거나 드래그하여 선택
PDF 파일 · 최대 10개

opendataloader-pdf (Java) 기반 · 높은 인식률

🎯 출력 포맷

🎯 변환 목적 선택

📁 HTML 입력

🌐

탭하거나 드래그하여 선택
HTML 파일 · .html / .htm

AI 생성 HTML 보고서 (Claude / ChatGPT / Gemini 등)

Ollama 모델 선택

※ 설정 → Ollama 모델 목록에서 확인 가능

✅ 보고서 그대로 보존 — WeasyPrint가 CSS·이미지·SVG·색상을 렌더링한 뒤 이미지로 임베드
📄 출력: PPTX (하이브리드, 텍스트 선택 가능) 또는 DOCX (이미지 전용)

🗂 출력 포맷

👤 사용자 관리

사용자 목록

사용자명	역할	STT	OCR	자막	관리

신규 사용자 추가

아이디

비밀번호

기능 권한

STT 음성변환 OCR 이미지인식 🎬 자막생성

🔑 비밀번호 직접 변경

대상 사용자

새 비밀번호