Source from bundle

Record Transcribe Revoice

Capture a talking-head clip with camera and microphone, transcribe it with ElevenLabs word-level timestamps, detect immediate doubled words or stutters, render

Костянтин@Latand

Files

Skill

0.9K

Size

35.6 KB

Entrypoint

SKILL.md

Format

folder

Open file

scripts/build_destutter_preview.py

Syntax-highlighted preview of this file as included in the skill package.

Rendered Source

code133 linesFree

scripts/build_destutter_preview.py

1#!/usr/bin/env python3
2import argparse
3import json
4import subprocess
5from pathlib import Path
6 
7 
8def normalize_token(text: str) -> str:
9    return text.strip().strip(".,!?;:'\"").lower()
10 
11 
12def build_duplicate_intervals(words: list[dict], threshold: float) -> list[dict]:
13    spoken_words = [item for item in words if item.get("type") == "word"]
14    intervals = []
15 
16    for index in range(len(spoken_words) - 1):
17        first = spoken_words[index]
18        second = spoken_words[index + 1]
19        if normalize_token(first["text"]) != normalize_token(second["text"]):
20            continue
21        if second["start"] - first["end"] > threshold:
22            continue
23 
24        next_start = spoken_words[index + 2]["start"] if index + 2 < len(spoken_words) else second["end"]
25        intervals.append(
26            {
27                "token": normalize_token(first["text"]),
28                "remove_from": first["end"],
29                "remove_to": next_start,
30                "first_start": first["start"],
31                "second_start": second["start"]
32            }
33        )
34 
35    merged = []
36    for interval in intervals:
37        if not merged or interval["remove_from"] > merged[-1]["remove_to"]:
38            merged.append(interval.copy())
39        else:
40            merged[-1]["remove_to"] = max(merged[-1]["remove_to"], interval["remove_to"])
41    return merged
42 
43 
44def main() -> None:
45    parser = argparse.ArgumentParser()
46    parser.add_argument("--media", required=True)
47    parser.add_argument("--transcript", required=True)
48    parser.add_argument("--output", required=True)
49    parser.add_argument("--duplicate-gap-threshold", type=float, default=0.75)
50    args = parser.parse_args()
51 
52    media_path = Path(args.media).expanduser().resolve()
53    transcript_path = Path(args.transcript).expanduser().resolve()
54    output_path = Path(args.output).expanduser().resolve()
55    output_path.parent.mkdir(parents=True, exist_ok=True)
56 
57    payload = json.loads(transcript_path.read_text())
58    intervals = build_duplicate_intervals(payload.get("words", []), args.duplicate_gap_threshold)
59    duplicates_path = output_path.with_suffix(".duplicates.json")
60    duplicates_path.write_text(json.dumps(intervals, ensure_ascii=False, indent=2))
61 
62    last_word_end = 0.0
63    for item in payload.get("words", []):
64        if item.get("type") == "word":
65            last_word_end = max(last_word_end, item["end"])
66    total_end = round(last_word_end + 0.5, 3)
67 
68    keep_segments = []
69    cursor = 0.0
70    for interval in intervals:
71        if interval["remove_from"] > cursor:
72            keep_segments.append((round(cursor, 3), round(interval["remove_from"], 3)))
73        cursor = interval["remove_to"]
74    if cursor < total_end:
75        keep_segments.append((round(cursor, 3), total_end))
76 
77    if not keep_segments:
78        raise SystemExit("No keep segments produced")
79 
80    filter_parts = []
81    concat_inputs = []
82    for index, (start, end) in enumerate(keep_segments):
83        filter_parts.append(f"[0:v]trim=start={start}:end={end},setpts=PTS-STARTPTS[v{index}]")
84        filter_parts.append(f"[0:a]atrim=start={start}:end={end},asetpts=PTS-STARTPTS[a{index}]")
85        concat_inputs.append(f"[v{index}][a{index}]")
86    filter_parts.append(f"{''.join(concat_inputs)}concat=n={len(keep_segments)}:v=1:a=1[v][a]")
87 
88    subprocess.run(
89        [
90            "ffmpeg",
91            "-hide_banner",
92            "-loglevel",
93            "error",
94            "-i",
95            str(media_path),
96            "-filter_complex",
97            ";".join(filter_parts),
98            "-map",
99            "[v]",
100            "-map",
101            "[a]",
102            "-c:v",
103            "libx264",
104            "-preset",
105            "veryfast",
106            "-crf",
107            "20",
108            "-c:a",
109            "aac",
110            "-b:a",
111            "160k",
112            str(output_path),
113            "-y"
114        ],
115        check=True
116    )
117 
118    print(
119        json.dumps(
120            {
121                "ok": True,
122                "output": str(output_path),
123                "duplicates": str(duplicates_path),
124                "removed_intervals": intervals
125            },
126            ensure_ascii=False
127        )
128    )
129 
130 
131if __name__ == "__main__":
132    main()
133

Preparing the source view

Record Transcribe Revoice

scripts/build_destutter_preview.py