Source from repo
Microsoft Foundry Skill

Build and deploy AI applications on Azure AI Foundry using Microsoft's model catalog and AI services
microsoftGitHub microsoftOfficialSource repo Original GitHub link Publisher page
Files
155
Skill
n/a
Size
976.3 KB
Entrypoint
SKILL.md
Format
git-repo
Open file
finetuning/scripts/convert_dataset.py

Syntax-highlighted preview of this file as included in the skill package.
Rendered Source
code261 linesFree
finetuning/scripts/convert_dataset.py
1# /// script
2# dependencies = [
3#   "openai>=1.0",
4# ]
5# ///
6"""
7convert_dataset.py — Convert between SFT, DPO, and RFT dataset formats.
8 
9Usage:
10  # Parquet/CSV to SFT JSONL
11  python convert_dataset.py --input data.parquet --output train.jsonl --format sft \
12      --user-column prompt --assistant-column response --system-prompt "You are helpful."
13 
14  # SFT JSONL to DPO (generates rejected via base model)
15  python convert_dataset.py --input train.jsonl --output dpo.jsonl --format dpo \
16      --base-model gpt-4.1-mini --endpoint $ENDPOINT --api-key $KEY
17 
18  # SFT JSONL to RFT JSONL (passthrough — same format, different intent)
19  python convert_dataset.py --input train.jsonl --output rft.jsonl --format rft
20 
21  # DPO JSONL to SFT (extract chosen responses)
22  python convert_dataset.py --input dpo.jsonl --output sft.jsonl --format sft-from-dpo
23"""
24 
25import json
26import os
27import sys
28 
29try:
30    sys.stdout.reconfigure(encoding="utf-8")
31    sys.stderr.reconfigure(encoding="utf-8")
32except (AttributeError, OSError):
33    pass  # Stream not reconfigurable (older Python or non-tty); default encoding is fine
34import time
35sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
36from common import HelpOnErrorParser, get_clients
37 
38 
39def parquet_to_sft(input_path, output_path, user_col, assistant_col, system_prompt=None):
40    """Convert a parquet or CSV file to SFT JSONL."""
41    try:
42        import pandas as pd
43    except ImportError:
44        print("Error: pandas required. Install with: pip install pandas pyarrow")
45        sys.exit(1)
46 
47    if input_path.endswith(".parquet"):
48        df = pd.read_parquet(input_path)
49    elif input_path.endswith(".csv"):
50        df = pd.read_csv(input_path)
51    elif input_path.endswith(".json"):
52        df = pd.read_json(input_path)
53    else:
54        print(f"Unsupported format: {input_path}. Use .parquet, .csv, or .json")
55        sys.exit(1)
56 
57    if user_col not in df.columns or assistant_col not in df.columns:
58        print(f"Error: Columns '{user_col}' and/or '{assistant_col}' not found.")
59        print(f"Available columns: {list(df.columns)}")
60        sys.exit(1)
61 
62    count = 0
63    with open(output_path, "w", encoding="utf-8") as f:
64        for _, row in df.iterrows():
65            user_content = str(row[user_col]).strip()
66            asst_content = str(row[assistant_col]).strip()
67            if not user_content or not asst_content:
68                continue
69 
70            messages = []
71            if system_prompt:
72                messages.append({"role": "system", "content": system_prompt})
73            messages.append({"role": "user", "content": user_content})
74            messages.append({"role": "assistant", "content": asst_content})
75 
76            f.write(json.dumps({"messages": messages}, ensure_ascii=False) + "\n")
77            count += 1
78 
79    print(f"Converted {count} examples to SFT JSONL → {output_path}")
80 
81 
82def sft_to_dpo(input_path, output_path, client, base_model):
83    """Convert SFT to DPO by generating non-preferred responses from a base model.
84 
85    DPO format uses: input (system+user messages), preferred_output, non_preferred_output.
86    """
87    with open(input_path, encoding="utf-8") as inf:
88        examples = []
89        for ln, raw in enumerate(inf, 1):
90            if not raw.strip():
91                continue
92            try:
93                examples.append(json.loads(raw))
94            except json.JSONDecodeError as e:
95                print(f"  ⚠️ Skipping malformed JSON on line {ln}: {e}")
96    count = 0
97 
98    with open(output_path, "w", encoding="utf-8") as f:
99        for i, ex in enumerate(examples):
100            msgs = ex["messages"]
101            system_msgs = [m for m in msgs if m["role"] == "system"]
102            user_msg = next((m for m in msgs if m["role"] == "user"), None)
103            asst_msg = next((m for m in msgs if m["role"] == "assistant"), None)
104            if not user_msg or not asst_msg:
105                continue
106 
107            # Generate a non-preferred response from the base model
108            try:
109                gen_msgs = system_msgs + [user_msg]
110                resp = client.chat.completions.create(
111                    model=base_model,
112                    messages=gen_msgs,
113                    temperature=1.0,  # High temp for diversity
114                    max_completion_tokens=2048,
115                )
116                rejected_content = resp.choices[0].message.content
117            except Exception as e:
118                print(f"  Skipping example {i}: {e}")
119                continue
120 
121            if not rejected_content:
122                # None or empty — content filter, finish=length with no text, etc.
123                # Skip rather than emit a DPO entry with null content (trainer rejects).
124                print(f"  Skipping example {i}: base model returned no content")
125                continue
126 
127            # Build DPO entry with correct format
128            input_messages = system_msgs + [user_msg]
129            dpo_entry = {
130                "input": {"messages": input_messages},
131                "preferred_output": [asst_msg],
132                "non_preferred_output": [{"role": "assistant", "content": rejected_content}],
133            }
134            f.write(json.dumps(dpo_entry, ensure_ascii=False) + "\n")
135            count += 1
136 
137            if (i + 1) % 50 == 0:
138                print(f"  Processed {i+1}/{len(examples)}")
139                time.sleep(1)
140 
141    print(f"Converted {count} examples to DPO JSONL → {output_path}")
142 
143 
144def sft_to_rft(input_path, output_path):
145    """Convert SFT to RFT format.
146 
147    Strips assistant messages (RFT last message must be user) and adds a
148    placeholder grader field. The user must populate grader reference fields
149    (e.g., expected_answer) before training.
150    """
151    count = 0
152    skipped = 0
153    with open(output_path, "w", encoding="utf-8") as out:
154        with open(input_path, encoding="utf-8") as inf:
155            for ln, line in enumerate(inf, 1):
156                if not line.strip():
157                    continue
158                try:
159                    ex = json.loads(line)
160                except json.JSONDecodeError as e:
161                    print(f"  ⚠️ Skipping malformed JSON on line {ln}: {e}")
162                    skipped += 1
163                    continue
164                msgs = ex.get("messages", [])
165                # Keep only system + user messages; RFT last message must be user
166                rft_msgs = [m for m in msgs if m["role"] in ("system", "user")]
167                if not rft_msgs or rft_msgs[-1]["role"] != "user":
168                    skipped += 1
169                    continue
170                # Extract assistant content as a reference answer placeholder
171                asst_msgs = [m for m in msgs if m["role"] == "assistant"]
172                expected = asst_msgs[-1]["content"] if asst_msgs else ""
173                rft_entry = {"messages": rft_msgs, "expected_answer": expected}
174                out.write(json.dumps(rft_entry, ensure_ascii=False) + "\n")
175                count += 1
176    print(f"Converted {count} examples to RFT JSONL → {output_path}")
177    if skipped:
178        print(f"  Skipped {skipped} examples (no user message)")
179    print("Note: Review 'expected_answer' fields and update your grader to use item.expected_answer.")
180 
181 
182def dpo_to_sft(input_path, output_path, system_prompt=None):
183    """Extract chosen responses from DPO format to SFT format."""
184    count = 0
185    with open(output_path, "w", encoding="utf-8") as f:
186        with open(input_path, encoding="utf-8") as inf:
187            for ln, line in enumerate(inf, 1):
188                if not line.strip():
189                    continue
190                try:
191                    ex = json.loads(line)
192                except json.JSONDecodeError as e:
193                    print(f"  ⚠️ Skipping malformed JSON on line {ln}: {e}")
194                    continue
195                input_messages = ex["input"]["messages"]
196                chosen_messages = ex["preferred_output"]
197 
198                messages = []
199                if system_prompt:
200                    messages.append({"role": "system", "content": system_prompt})
201                    messages.extend(m for m in input_messages if m["role"] != "system")
202                else:
203                    messages.extend(input_messages)
204                messages.extend(chosen_messages)
205                f.write(json.dumps({"messages": messages}, ensure_ascii=False) + "\n")
206                count += 1
207    print(f"Extracted {count} chosen examples to SFT JSONL → {output_path}")
208 
209 
210def main():
211    parser = HelpOnErrorParser(description="Convert between fine-tuning dataset formats")
212    parser.add_argument("--input", required=True, help="Input file path")
213    parser.add_argument("--output", required=True, help="Output file path")
214    parser.add_argument("--format", required=True,
215                        choices=["sft", "dpo", "rft", "sft-from-dpo"],
216                        help="Target format")
217 
218    # SFT from raw data
219    parser.add_argument("--user-column", default="prompt", help="Column name for user input")
220    parser.add_argument("--assistant-column", default="response", help="Column name for assistant output")
221    parser.add_argument("--system-prompt", default=None, help="System prompt to prepend")
222 
223    # DPO generation (needs API connection)
224    parser.add_argument("--base-url", default=os.environ.get("OPENAI_BASE_URL"),
225                        help="Project /v1/ URL (preferred)")
226    parser.add_argument("--endpoint", default=os.environ.get("AZURE_OPENAI_ENDPOINT"),
227                        help="Azure OpenAI endpoint (fallback)")
228    parser.add_argument("--project-endpoint", default=os.environ.get("AZURE_AI_PROJECT_ENDPOINT"),
229                        help="Azure AI project endpoint (Foundry SDK)")
230    parser.add_argument("--api-key", default=os.environ.get("AZURE_OPENAI_API_KEY"))
231    parser.add_argument("--base-model", default="gpt-4.1-mini", help="Base model for generating rejections")
232 
233    args = parser.parse_args()
234 
235    if args.format == "sft":
236        if args.input.endswith(".jsonl"):
237            print("Input is already JSONL — assuming SFT format. Nothing to convert.")
238            if args.input != args.output:
239                import shutil
240                shutil.copy2(args.input, args.output)
241        else:
242            parquet_to_sft(args.input, args.output, args.user_column,
243                           args.assistant_column, args.system_prompt)
244 
245    elif args.format == "dpo":
246        client, method = get_clients(
247            base_url=args.base_url, azure_endpoint=args.endpoint,
248            project_endpoint=args.project_endpoint, api_key=args.api_key
249        )
250        sft_to_dpo(args.input, args.output, client, args.base_model)
251 
252    elif args.format == "rft":
253        sft_to_rft(args.input, args.output)
254 
255    elif args.format == "sft-from-dpo":
256        dpo_to_sft(args.input, args.output, args.system_prompt)
257 
258 
259if __name__ == "__main__":
260    main()
261
Preparing the source view

Microsoft Foundry Skill

finetuning/scripts/convert_dataset.py