Source from bundle

Record Transcribe Revoice

Capture a talking-head clip with camera and microphone, transcribe it with ElevenLabs word-level timestamps, detect immediate doubled words or stutters, render

Костянтин@Latand

Files

Skill

0.9K

Size

35.6 KB

Entrypoint

SKILL.md

Format

folder

Open file

scripts/speech_to_speech_elevenlabs.py

Syntax-highlighted preview of this file as included in the skill package.

Rendered Source

code127 linesFree

scripts/speech_to_speech_elevenlabs.py

1#!/usr/bin/env python3
2import argparse
3import json
4import os
5from pathlib import Path
6from urllib import request
7from urllib.error import HTTPError
8 
9 
10def load_api_key(explicit: str | None, env_file: str | None) -> str:
11    if explicit:
12        return explicit
13 
14    for name in ("ELEVENLABS_API_KEY", "XI_API_KEY"):
15        value = os.getenv(name)
16        if value:
17            return value
18 
19    if env_file:
20        path = Path(env_file)
21        if path.exists():
22            for line in path.read_text().splitlines():
23                if line.startswith("ELEVENLABS_API_KEY=") or line.startswith("XI_API_KEY="):
24                    return line.split("=", 1)[1].strip()
25 
26    raise SystemExit("Missing ELEVENLABS_API_KEY / XI_API_KEY")
27 
28 
29def resolve_voice_id(api_key: str, voice_name: str) -> str:
30    req = request.Request("https://api.elevenlabs.io/v1/voices", headers={"xi-api-key": api_key, "Accept": "application/json"})
31    with request.urlopen(req, timeout=120) as response:
32        payload = json.loads(response.read().decode("utf-8"))
33 
34    exact = None
35    fallback = None
36    for voice in payload.get("voices", []):
37        name = voice.get("name") or ""
38        if name.lower() == voice_name.lower():
39            exact = voice.get("voice_id")
40            break
41        if voice_name.lower() in name.lower():
42            fallback = voice.get("voice_id")
43    if exact:
44        return exact
45    if fallback:
46        return fallback
47    raise SystemExit(f"Could not resolve voice name: {voice_name}")
48 
49 
50def main() -> None:
51    parser = argparse.ArgumentParser()
52    parser.add_argument("--input-audio", required=True)
53    parser.add_argument("--output", required=True)
54    parser.add_argument("--voice-id")
55    parser.add_argument("--voice-name")
56    parser.add_argument("--api-key")
57    parser.add_argument("--env-file")
58    parser.add_argument("--model-id", default="eleven_multilingual_sts_v2")
59    parser.add_argument("--file-format", default="pcm_s16le_16")
60    parser.add_argument("--stability", type=float, default=0.5)
61    parser.add_argument("--similarity-boost", type=float, default=0.75)
62    parser.add_argument("--style", type=float, default=0.0)
63    parser.add_argument("--speed", type=float, default=1.0)
64    parser.add_argument("--seed", default="42")
65    args = parser.parse_args()
66 
67    api_key = load_api_key(args.api_key, args.env_file)
68    voice_id = args.voice_id or resolve_voice_id(api_key, args.voice_name or "")
69    input_audio = Path(args.input_audio).expanduser().resolve()
70    output_path = Path(args.output).expanduser().resolve()
71    output_path.parent.mkdir(parents=True, exist_ok=True)
72 
73    voice_settings = json.dumps(
74        {
75            "stability": args.stability,
76            "similarity_boost": args.similarity_boost,
77            "style": args.style,
78            "use_speaker_boost": True,
79            "speed": args.speed
80        }
81    )
82 
83    fields = {
84        "model_id": args.model_id,
85        "voice_settings": voice_settings,
86        "file_format": args.file_format,
87        "seed": str(args.seed),
88        "remove_background_noise": "false"
89    }
90 
91    boundary = "----RecordTranscribeRevoiceSTSBoundary"
92    body = bytearray()
93    for name, value in fields.items():
94        body.extend(f"--{boundary}\r\n".encode())
95        body.extend(f'Content-Disposition: form-data; name="{name}"\r\n\r\n{value}\r\n'.encode())
96    body.extend(f"--{boundary}\r\n".encode())
97    body.extend(b'Content-Disposition: form-data; name="audio"; filename="input.wav"\r\n')
98    body.extend(b"Content-Type: audio/wav\r\n\r\n")
99    body.extend(input_audio.read_bytes())
100    body.extend(b"\r\n")
101    body.extend(f"--{boundary}--\r\n".encode())
102 
103    req = request.Request(
104        f"https://api.elevenlabs.io/v1/speech-to-speech/{voice_id}",
105        data=bytes(body),
106        method="POST",
107        headers={
108            "xi-api-key": api_key,
109            "Content-Type": f"multipart/form-data; boundary={boundary}",
110            "Accept": "audio/mpeg"
111        }
112    )
113 
114    try:
115        with request.urlopen(req, timeout=1800) as response:
116            audio = response.read()
117    except HTTPError as exc:
118        detail = exc.read().decode("utf-8", errors="replace")
119        raise SystemExit(f"ElevenLabs speech-to-speech failed: HTTP {exc.code}\n{detail}")
120 
121    output_path.write_bytes(audio)
122    print(json.dumps({"ok": True, "output": str(output_path), "voice_id": voice_id, "bytes": len(audio)}))
123 
124 
125if __name__ == "__main__":
126    main()
127

Marketplace

Source from bundle

Record Transcribe Revoice

Capture a talking-head clip with camera and microphone, transcribe it with ElevenLabs word-level timestamps, detect immediate doubled words or stutters, render

Костянтин@Latand

Files

Skill

0.9K

Size

35.6 KB

Entrypoint

SKILL.md

Format

folder

Open file

scripts/speech_to_speech_elevenlabs.py

Syntax-highlighted preview of this file as included in the skill package.

Rendered Source

code127 linesFree

scripts/speech_to_speech_elevenlabs.py

1#!/usr/bin/env python3
2import argparse
3import json
4import os
5from pathlib import Path
6from urllib import request
7from urllib.error import HTTPError
8 
9 
10def load_api_key(explicit: str | None, env_file: str | None) -> str:
11    if explicit:
12        return explicit
13 
14    for name in ("ELEVENLABS_API_KEY", "XI_API_KEY"):
15        value = os.getenv(name)
16        if value:
17            return value
18 
19    if env_file:
20        path = Path(env_file)
21        if path.exists():
22            for line in path.read_text().splitlines():
23                if line.startswith("ELEVENLABS_API_KEY=") or line.startswith("XI_API_KEY="):
24                    return line.split("=", 1)[1].strip()
25 
26    raise SystemExit("Missing ELEVENLABS_API_KEY / XI_API_KEY")
27 
28 
29def resolve_voice_id(api_key: str, voice_name: str) -> str:
30    req = request.Request("https://api.elevenlabs.io/v1/voices", headers={"xi-api-key": api_key, "Accept": "application/json"})
31    with request.urlopen(req, timeout=120) as response:
32        payload = json.loads(response.read().decode("utf-8"))
33 
34    exact = None
35    fallback = None
36    for voice in payload.get("voices", []):
37        name = voice.get("name") or ""
38        if name.lower() == voice_name.lower():
39            exact = voice.get("voice_id")
40            break
41        if voice_name.lower() in name.lower():
42            fallback = voice.get("voice_id")
43    if exact:
44        return exact
45    if fallback:
46        return fallback
47    raise SystemExit(f"Could not resolve voice name: {voice_name}")
48 
49 
50def main() -> None:
51    parser = argparse.ArgumentParser()
52    parser.add_argument("--input-audio", required=True)
53    parser.add_argument("--output", required=True)
54    parser.add_argument("--voice-id")
55    parser.add_argument("--voice-name")
56    parser.add_argument("--api-key")
57    parser.add_argument("--env-file")
58    parser.add_argument("--model-id", default="eleven_multilingual_sts_v2")
59    parser.add_argument("--file-format", default="pcm_s16le_16")
60    parser.add_argument("--stability", type=float, default=0.5)
61    parser.add_argument("--similarity-boost", type=float, default=0.75)
62    parser.add_argument("--style", type=float, default=0.0)
63    parser.add_argument("--speed", type=float, default=1.0)
64    parser.add_argument("--seed", default="42")
65    args = parser.parse_args()
66 
67    api_key = load_api_key(args.api_key, args.env_file)
68    voice_id = args.voice_id or resolve_voice_id(api_key, args.voice_name or "")
69    input_audio = Path(args.input_audio).expanduser().resolve()
70    output_path = Path(args.output).expanduser().resolve()
71    output_path.parent.mkdir(parents=True, exist_ok=True)
72 
73    voice_settings = json.dumps(
74        {
75            "stability": args.stability,
76            "similarity_boost": args.similarity_boost,
77            "style": args.style,
78            "use_speaker_boost": True,
79            "speed": args.speed
80        }
81    )
82 
83    fields = {
84        "model_id": args.model_id,
85        "voice_settings": voice_settings,
86        "file_format": args.file_format,
87        "seed": str(args.seed),
88        "remove_background_noise": "false"
89    }
90 
91    boundary = "----RecordTranscribeRevoiceSTSBoundary"
92    body = bytearray()
93    for name, value in fields.items():
94        body.extend(f"--{boundary}\r\n".encode())
95        body.extend(f'Content-Disposition: form-data; name="{name}"\r\n\r\n{value}\r\n'.encode())
96    body.extend(f"--{boundary}\r\n".encode())
97    body.extend(b'Content-Disposition: form-data; name="audio"; filename="input.wav"\r\n')
98    body.extend(b"Content-Type: audio/wav\r\n\r\n")
99    body.extend(input_audio.read_bytes())
100    body.extend(b"\r\n")
101    body.extend(f"--{boundary}--\r\n".encode())
102 
103    req = request.Request(
104        f"https://api.elevenlabs.io/v1/speech-to-speech/{voice_id}",
105        data=bytes(body),
106        method="POST",
107        headers={
108            "xi-api-key": api_key,
109            "Content-Type": f"multipart/form-data; boundary={boundary}",
110            "Accept": "audio/mpeg"
111        }
112    )
113 
114    try:
115        with request.urlopen(req, timeout=1800) as response:
116            audio = response.read()
117    except HTTPError as exc:
118        detail = exc.read().decode("utf-8", errors="replace")
119        raise SystemExit(f"ElevenLabs speech-to-speech failed: HTTP {exc.code}\n{detail}")
120 
121    output_path.write_bytes(audio)
122    print(json.dumps({"ok": True, "output": str(output_path), "voice_id": voice_id, "bytes": len(audio)}))
123 
124 
125if __name__ == "__main__":
126    main()
127

Record Transcribe Revoice

scripts/speech_to_speech_elevenlabs.py

Preparing the source view

Record Transcribe Revoice

scripts/speech_to_speech_elevenlabs.py