🎤 Soniox STT — Real-time Transcriber (VAD)

Connection

Hoặc stream từ file
Chưa chọn file
Ready. Click Start Recording hoặc chọn file audio để stream.
dBFS --
speech_prob --
Mức âm thanh --
Kiểm tra môi trường
Nhấn "Check môi trường" và nói thử sau 2-3 giây để hệ thống so sánh tiếng nói với noise nền.
Clock / RTT (dev — ping_ms ↔ pong_ms)
Bảng tham khảo 1: Mức âm lượng dBFS
Dải dBFS Đánh giá
0 đến -3 dBFSMax to, dễ vỡ âm thanh (clip)
-3 đến -10 dBFSTo
-10 đến -30 dBFSChuẩn âm thanh OK
-30 đến -40 dBFSNhỏ
< -40 dBFSYên lặng
Bảng tham khảo 2: Speech vs Background (Intelligibility)
Speech - Noise (dB) Mức nghe hiểu
0 đến 10 dBUnacceptable đến Poor
10 đến 20 dBPoor đến Fair
20 đến 30 dBFair đến Good
30 đến 50 dBGood đến Excellent

Hey Javis — Wake word

Bước 1: Nhập user_id và ghi 5 mẫu giọng (pyannote embedding) → AI upload embeddings.npy lên BE. Bước 2: Wake word: WS tắtHey Jarvis (openWakeWord, ngưỡng 0.1): load model → AI lấy embedding từ BE theo user_id → so sánh khi detect; WS bật → Soniox + cụm tiếng Nhật/romanized (xem wake_word_phrases.json). Popup chỉ khi đúng giọng enroll của session hiện tại (không trùng trong 3s/session).

Hey Jarvis: VAD chung. Cần user_id + 5 mẫu enroll (BE). Bấm nghe → AI prepare embedding từ BE.
Dùng cùng Session ID với phần Connection. Nhấn "Ghi mẫu" và nói "hey javis" (~2.5s).

Speaker samples — embeddings.npy

Upload embeddings.npy theo user_id lên BE để lưu và lấy ra so sánh. UI này gọi qua proxy của server hiện tại (không lộ X-API-Key trong browser).


    

Transcripts

Partial
Waiting for partial results...

Event Log