Soniox STT — Test Client (VAD Version)

Connection

Language

Speakers (optional)

Session ID

WebSocket URL

Hoặc stream từ file

Chưa chọn file

Ready. Click Start Recording hoặc chọn file audio để stream.

dBFS --

speech_prob --

Mức âm thanh --

Kiểm tra môi trường

Nhấn "Check môi trường" và nói thử sau 2-3 giây để hệ thống so sánh tiếng nói với noise nền.

Clock / RTT (dev — ping_ms ↔ pong_ms)

Auto mỗi 3s (sau khi server ready)

Bảng tham khảo 1: Mức âm lượng dBFS

Dải dBFS	Đánh giá
0 đến -3 dBFS	Max to, dễ vỡ âm thanh (clip)
-3 đến -10 dBFS	To
-10 đến -30 dBFS	Chuẩn âm thanh OK
-30 đến -40 dBFS	Nhỏ
< -40 dBFS	Yên lặng

Bảng tham khảo 2: Speech vs Background (Intelligibility)

Speech - Noise (dB)	Mức nghe hiểu
0 đến 10 dB	Unacceptable đến Poor
10 đến 20 dB	Poor đến Fair
20 đến 30 dB	Fair đến Good
30 đến 50 dB	Good đến Excellent

Hey Javis — Wake word

Bước 1: Nhập user_id và ghi 5 mẫu giọng (pyannote embedding) → AI upload embeddings.npy lên BE. Bước 2: Wake word: WS tắt → Hey Jarvis (openWakeWord, ngưỡng 0.1): load model → AI lấy embedding từ BE theo user_id → so sánh khi detect; WS bật → Soniox + cụm tiếng Nhật/romanized (xem wake_word_phrases.json). Popup chỉ khi đúng giọng enroll của session hiện tại (không trùng trong 3s/session).

user_id (wake verify)

Hey Jarvis: VAD chung. Cần user_id + 5 mẫu enroll (BE). Bấm nghe → AI prepare embedding từ BE.

Dùng cùng Session ID với phần Connection. Nhấn "Ghi mẫu" và nói "hey javis" (~2.5s).

Speaker samples — embeddings.npy

Upload embeddings.npy theo user_id lên BE để lưu và lấy ra so sánh. UI này gọi qua proxy của server hiện tại (không lộ X-API-Key trong browser).

user_id

Transcripts

Partial

Waiting for partial results...

🎤 Soniox STT — Real-time Transcriber (VAD)

Connection

Hey Javis — Wake word

Speaker samples — embeddings.npy

Transcripts

Event Log