fusion_hat.voice_assistant Modul

class fusion_hat.voice_assistant.VoiceAssistant(*args, **kwargs)[Quellcode]

Basisklassen: object

Sprachassistenten-Klasse

Parameter:
  • llm (sunfounder_voice_assistant.llm.LLM) – Sprachmodell

  • name (str, optional) – Robotername, Standard ist NAME

  • with_image (bool, optional) – Bilder aktivieren, ein multimodales Sprachmodell muss eingerichtet werden, Standard ist WITH_IMAGE

  • tts_model (str, optional) – Text-to-Speech-Modell, Standard ist TTS_MODEL

  • stt_language (str, optional) – Speech-to-Text-Sprache, Standard ist STT_LANGUAGE

  • keyboard_enable (bool, optional) – Tastatureingabe aktivieren, Standard ist KEYBOARD_ENABLE

  • wake_enable (bool, optional) – Aktivierungswort aktivieren, Standard ist WAKE_ENABLE

  • wake_word (list, optional) – Aktivierungswort, Standard ist WAKE_WORD

  • answer_on_wake (str, optional) – Auf Aktivierungswort antworten, Standard ist ANSWER_ON_WAKE

  • welcome (str, optional) – Begrüßungsnachricht, Standard ist WELCOME

  • instructions (str, optional) – Anweisungen festlegen, Standard ist INSTRUCTIONS

  • disable_think (bool, optional) – Den Denkprozess deaktivieren, Standard ist False

before_listen() None[Quellcode]

Vor dem Zuhören

after_listen(stt_result: str) None[Quellcode]

Nach dem Zuhören

Parameter:

stt_result (str) – Speech-to-Text-Ergebnis

before_think(text: str) None[Quellcode]

Vor dem Denken

Parameter:

text (str) – Text zum Denken

after_think(text: str) None[Quellcode]

Nach dem Denken

Parameter:

text (str) – Text zum Denken

on_start() None[Quellcode]

Beim Start

on_wake() None[Quellcode]

Bei Aktivierung

on_heard(text: str) None[Quellcode]

Bei Gehört

Parameter:

text (str) – Gehörter Text

parse_response(text: str) str[Quellcode]

Antwort analysieren

Parameter:

text (str) – Zu analysierender Text

Rückgabe:

Analysierter Text

Rückgabetyp:

str

add_trigger(trigger_function: Callable[[], tuple[bool, bool, str]]) None[Quellcode]

Trigger-Funktion hinzufügen

Parameter:

trigger_function (Callable[[], tuple[bool, bool, str]]) – Trigger-Funktion

before_say(text: str) None[Quellcode]

Vor dem Sprechen

Parameter:

text (str) – Zu sprechender Text

after_say(text: str) None[Quellcode]

Nach dem Sprechen

Parameter:

text (str) – Zu sprechender Text

on_stop() None[Quellcode]

Beim Stoppen

on_finish_a_round() None[Quellcode]

Beim Abschluss einer Runde

capture_image(path: str) None[Quellcode]

Bild aufnehmen

Parameter:

path (str) – Pfad zum Speichern des Bildes

trigger_wake_word() tuple[bool, bool, str][Quellcode]

Aktivierungswort auslösen

Rückgabe:

Ausgelöst, Bild deaktivieren, Nachricht

Rückgabetyp:

tuple[bool, bool, str]

trigger_keyboard_input() tuple[bool, bool, str][Quellcode]

Tastatureingabe auslösen

Rückgabe:

Ausgelöst, Bild deaktivieren, Nachricht

Rückgabetyp:

tuple[bool, bool, str]

init_camera() None[Quellcode]

Kamera initialisieren

close_camera() None[Quellcode]

Kamera schließen

listen() str[Quellcode]

Zuhören

Rückgabe:

Speech-to-Text-Ergebnis

Rückgabetyp:

str

think(text: str, disable_image: bool = False) str[Quellcode]

Denken

Parameter:
  • text (str) – Text zum Denken

  • disable_image (bool, optional) – Bild deaktivieren, Standard ist False

Rückgabe:

LLM-Antwort

Rückgabetyp:

str

main() None[Quellcode]

Hauptschleife

run() None[Quellcode]

Ausführen