Update to use Qwen2_5OmniForConditionalGeneration and correct inference format

54eb31b3 · Stefy Lanza (nextime / spora ) · 417e1b19 · 54eb31b3 · 54eb31b3
Commit 54eb31b3 authored Dec 11, 2025 by Stefy Lanza (nextime / spora )
Hide whitespace changes
Inline Side-by-side

Showing with 15 additions and 9 deletions

requirements.txt requirements.txt +2 -1

transcript.py transcript.py +13 -8

No files found.
--- a/requirements.txt
+++ b/requirements.txt
@@ -3,4 +3,5 @@ transformers
 librosa
 resemblyzer
 webrtcvad
 scikit-learn
\ No newline at end of file
+soundfile
\ No newline at end of file
--- a/transcript.py
+++ b/transcript.py
 import argparse
 import torch
-from transformers import AutoProcessor, AutoModel
+from transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor
+from qwen_omni_utils import process_mm_info
 from resemblyzer import VoiceEncoder
 from sklearn.cluster import AgglomerativeClustering
 import webrtcvad
@@ -74,8 +75,8 @@ def main():
        return
    # Load Qwen2.5-Omni-7B model
-    processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B", trust_remote_code=True)
+    model = Qwen2_5OmniForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto", device_map="auto")
-    model = AutoModel.from_pretrained("Qwen/Qwen2.5-Omni-7B", trust_remote_code=True)
+    processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
    # Load audio
    audio, sr = librosa.load(audio_file, sr=16000)
@@ -101,12 +102,16 @@ def main():
                {"type": "text", "text": "Transcribe this audio segment exactly as spoken."}
            ]}
        ]
-        inputs = processor(conversation=conversation, return_tensors="pt")
-        # Generate transcription
+        # Preparation for inference
-        with torch.no_grad():
+        text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
-            generated_ids = model.generate(**inputs, max_new_tokens=200, do_sample=False)
+        audios, images, videos = process_mm_info(conversation, use_audio_in_video=False)
-        text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
+        inputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors="pt", padding=True, use_audio_in_video=False)
+        inputs = inputs.to(model.device).to(model.dtype)
+        # Inference: Generation of the output text
+        text_ids, _ = model.generate(**inputs, use_audio_in_video=False)
+        text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
        # Format timestamps
        start_min, start_sec = divmod(start, 60)