fusion_hat.stt Modul

Sprach-zu-Text-Modul

Sprache in Text umwandeln.

Beispiel

STT importieren und eine Instanz erstellen

>>> from fusion_hat.stt import STT
>>> stt = STT(language="en-us")

Auf Spracheingabe hören

>>> result = stt.listen(stream=False)
>>> print(result)
Hello

Stream verwenden, um Teilergebnisse zu erhalten

>>> for result in stt.listen(stream=True):
>>>     if result["done"]:
>>>         print(f"\r\x1b[Kfinal: {result['final']}")
>>>     else:
>>>         print(f"\r\x1b[Kpartial: {result['partial']}", end="", flush=True)

Auf Aktivierungswörter warten

>>> WAKE_WORDS = ["hey robot", "hello robot"]
>>> stt = STT(language="en-us")
>>> stt.set_wake_words(WAKE_WORDS)
>>> print(f'Wake me with: {WAKE_WORDS}')
Wake me with: ['hey robot', 'hello robot']
>>> result = stt.wait_until_heard()
>>> print("Wake word detected")
Wake word detected

Aktivierungswort in einem Thread

>>> while True:
>>>     stt.start_listening_wake_words()
>>>     while not stt.is_waked():
>>>         print("Waiting for wake word...")
>>>         time.sleep(3)
>>>     print("Wake word detected")

fusion_hat.stt.STT: alias of Vosk

class fusion_hat.stt.Vosk(language=None, samplerate=None, device=None, log=None)[Quellcode]

Basisklassen: object

Vosk-STT-Klasse

DEFAULT_LANGUAGE = 'en-us'

is_ready()[Quellcode]

Prüfen, ob Vosk-STT bereit ist

Rückgabe:: True, wenn bereit, andernfalls False
Rückgabetyp:: bool

init()[Quellcode]: Vosk-STT initialisieren

_load_model_list()[Quellcode]: Load model list from local cache or built-in defaults (offline, no network).

update_model_list()[Quellcode]

Fetch latest model list from network and save to cache.

Call this manually when you want to check for new models online. Falls back to local cache if network is unavailable.

wait_until_heard(wake_words=None, print_callback=<function Vosk.<lambda>>)[Quellcode]

Warten, bis ein Aktivierungswort gehört wird

Parameter:

wake_words (list, optional) – Aktivierungswörter, Standard ist None
print_callback (function, optional) – Print-Callback, Standard ist None

Rückgabe:

Gehörtes Aktivierungswort

Rückgabetyp:

str

heard_wake_word(print_callback=<function Vosk.<lambda>>)[Quellcode]

Prüfen, ob ein Aktivierungswort gehört wurde

Parameter:: print_callback (function, optional) – Print-Callback, Standard ist None
Rückgabe:: True, wenn ein Aktivierungswort gehört wurde, andernfalls False
Rückgabetyp:: bool

wait_for_wake_word()[Quellcode]: Auf Aktivierungswort warten

start_listening_wake_words()[Quellcode]: Das Hören auf Aktivierungswörter starten

is_waked()[Quellcode]

Prüfen, ob der Aktivierungswort-Thread läuft

Rückgabe:: True, wenn er läuft, andernfalls False
Rückgabetyp:: bool

stt(filename, stream=False)[Quellcode]

STT auf eine Audiodatei anwenden

Parameter:

filename (str) – Pfad zur Audiodatei
stream (bool, optional) – Stream-Modus, Standard ist False

Rückgabe:

STT-Ergebnis

Rückgabetyp:

str

get_stream_result(wf, recognizer)[Quellcode]

Streaming-Ergebnisse vom Erkenner abrufen

Parameter:

wf (wave.Wave_read) – Wave-Dateiobjekt
recognizer (KaldiRecognizer) – Vosk-Erkenner

Liefert:

str – STT-Ergebnis

listen(stream=False, device=None, samplerate=None)[Quellcode]

Über das Mikrofon hören und Ergebnisse zurückgeben

Parameter:

stream (bool, optional) – Stream-Modus, Standard ist False
device (int, optional) – Geräteindex, Standard ist None
samplerate (int, optional) – Abtastrate, Standard ist None

Rückgabe:

STT-Ergebnis

Rückgabetyp:

str

_listen_streaming(q, device=None, samplerate=None, callback=None)[Quellcode]

Über das Mikrofon hören und Streaming-Ergebnisse zurückgeben

Parameter:

q (queue.Queue) – Warteschlange zum Speichern von Audiodaten
device (int, optional) – Geräteindex, Standard ist None
samplerate (int, optional) – Abtastrate, Standard ist None
callback (function, optional) – Callback-Funktion, Standard ist None

Liefert:

dict – STT-Ergebnis

_listen_non_streaming(q, device=None, samplerate=None, callback=None)[Quellcode]

Über das Mikrofon hören und das Endergebnis zurückgeben

Parameter:

q (queue.Queue) – Warteschlange zum Speichern von Audiodaten
device (int, optional) – Geräteindex, Standard ist None
samplerate (int, optional) – Abtastrate, Standard ist None
callback (function, optional) – Callback-Funktion, Standard ist None

Rückgabe:

STT-Ergebnis

Rückgabetyp:

str

set_wake_words(wake_words: list)[Quellcode]

Aktivierungswörter festlegen

Parameter:: wake_words (list) – Liste der Aktivierungswörter

language() → str[Quellcode]

Aktuelle Sprache abrufen

Rückgabe:: Aktuelle Sprache
Rückgabetyp:: str

set_language(language: str, init=True)[Quellcode]

Sprache festlegen

Parameter:

language (str) – Festzulegende Sprache
init (bool, optional) – Erkenner initialisieren, Standard ist True

get_model_name(lang: str) → str[Quellcode]

Modellnamen für die Sprache abrufen

Parameter:: lang (str) – Sprache
Rückgabe:: Modellname
Rückgabetyp:: str

get_model_path(lang: str) → Path[Quellcode]

Modellpfad für die Sprache abrufen

Parameter:: lang (str) – Sprache
Rückgabe:: Modellpfad
Rückgabetyp:: Path

is_model_downloaded(lang: str) → bool[Quellcode]

Prüfen, ob das Modell heruntergeladen ist

Parameter:: lang (str) – Sprache
Rückgabe:: True, wenn das Modell heruntergeladen ist, andernfalls False
Rückgabetyp:: bool

cancel_download()[Quellcode]: Öffentliche Methode zum Abbrechen eines laufenden Downloads

download_model(lang: str, progress_callback=None, max_retries: int = 5)[Quellcode]

Modell für die Sprache herunterladen

Parameter:

lang (str) – Sprache
progress_callback (function, optional) – Fortschritts-Callback-Funktion, Standard ist None
max_retries (int, optional) – Maximale Wiederholungen, Standard ist 5

download_progress_hook(tqdm_bar=None, progress_callback=None)[Quellcode]

Hook-Funktion für den Download-Fortschritt

Parameter:

tqdm_bar (tqdm, optional) – tqdm-Fortschrittsbalken, Standard ist None
progress_callback (function, optional) – Fortschritts-Callback-Funktion, Standard ist None

stop_listening()[Quellcode]: Das Hören auf Aktivierungswörter stoppen

close()[Quellcode]: STT schließen