Bemerkung

Hallo, willkommen in der SunFounder Raspberry Pi & Arduino & ESP32 Enthusiasten-Community auf Facebook! Tauchen Sie mit anderen Enthusiasten tiefer in Raspberry Pi, Arduino und ESP32 ein.

Warum beitreten?

  • Expertenunterstützung: Lösen Sie Probleme nach dem Kauf und technische Herausforderungen mit Hilfe unserer Community und unseres Teams.

  • Lernen & Teilen: Tauschen Sie Tipps und Tutorials aus, um Ihre Fähigkeiten zu verbessern.

  • Exklusive Vorschauen: Erhalten Sie frühzeitigen Zugang zu neuen Produktankündigungen und Sneak Peeks.

  • Sonderrabatte: Genießen Sie exklusive Rabatte auf unsere neuesten Produkte.

  • Festliche Aktionen und Gewinnspiele: Nehmen Sie an Gewinnspielen und Feiertagsaktionen teil.

👉 Bereit, mit uns zu entdecken und zu gestalten? Klicken Sie auf [here] und treten Sie noch heute bei!

3.4 Fusion HAT Mikrofon

Einführung

Das Fusion HAT+ verfügt über ein integriertes Mikrofon und eignet sich daher ideal für Audioeingabe-Anwendungen wie Spracherkennung, Geräuscherkennung oder das Aufzeichnen von Audio-Logs in AI- oder IoT-Projekten.

Diese Anleitung zeigt Ihnen, wie Sie überprüfen können, ob das Mikrofon vom System erkannt wird, und wie Sie einen einfachen Aufnahmetest durchführen.

../_images/fusionhat_mic.png

Was Sie benötigen

Nachfolgend sind die für dieses Tutorial erforderlichen Komponenten aufgeführt:

Komponente

Kauflink

Fusion HAT+

-

Raspberry Pi (oder ein kompatibles Modell)

-

Programm ausführen

cd ~/ai-lab-kit/llm
sudo python3 stt_vosk_stream.py

Wenn Sie diesen Code zum ersten Mal mit einer neuen Sprache ausführen, wird Vosk:

  • das Sprachmodell automatisch herunterladen (standardmäßig die kleine Version),

  • die Liste der unterstützten Sprachen ausgeben,

  • beginnen, über das Mikrofon auf Audioeingaben zu hören.

Im Terminal sehen Sie dann etwa Folgendes:

vosk-model-small-en-us-0.15.zip: 100%|███████████████████| 39.3M/39.3M [00:05<00:00, 7.85MB/s]
['ar', 'ar-tn', 'ca', 'cn', 'cs', 'de', 'en-gb', 'en-in', 'en-us', 'eo', 'es', 'fa', 'fr', 'gu', 'hi', 'it', 'ja', 'ko', 'kz', 'nl', 'pl', 'pt', 'ru', 'sv', 'te', 'tg', 'tr', 'ua', 'uz', 'vn']
Say something

Das bedeutet:

  • Die Modelldatei (vosk-model-small-en-us-0.15) wurde heruntergeladen.

  • Die Liste der unterstützten Sprachen wurde ausgegeben.

  • Das System hört jetzt zu — sprechen Sie etwas in das Mikrofon des Fusion HAT+, und der erkannte Text erscheint im Terminal.

Tipps:

  • Halten Sie das Mikrofon für eine bessere Erkennungsgenauigkeit in einem Abstand von 15–30 cm.

  • Wählen Sie ein Modell, das zu Ihrer Sprache und Ihrem Akzent passt.

  • Verwenden Sie möglichst eine ruhige Umgebung, um die Erkennung zu verbessern.

Code

from fusion_hat.stt import Vosk as STT

stt = STT(language="en-us")

while True:
   print("Say something")
   for result in stt.listen(stream=True):
      if result["done"]:
            print(f"final:   {result['final']}")
      else:
            print(f"partial: {result['partial']}", end="\r", flush=True)

Code-Erklärung:

  • stt.listen(stream=True) — Startet die Streaming-Spracherkennung und liefert während des Sprechens fortlaufend Zwischenergebnisse.

  • result["partial"] — Zeigt den in Echtzeit erkannten Text an (wird kontinuierlich aktualisiert).

  • result["final"] — Zeigt den endgültig erkannten Satz an, sobald Sie aufhören zu sprechen.

  • Die Schleife läuft dauerhaft weiter und ermöglicht so eine freihändige Echtzeit-Transkription.

Tipp: Dieser Streaming-Modus eignet sich ideal für Sprachassistenten, Sprachbefehle oder Live-Transkription.

Troubleshooting

  • No such file or directory (beim Ausführen von `arecord`)

    Möglicherweise wurde die falsche Karten-/Gerätenummer verwendet. Führen Sie aus:

    arecord -l
    

    und ersetzen Sie 1,0 durch die Nummern, die für Ihr USB-Mikrofon angezeigt werden.

  • Vosk erkennt keine Sprache

    • Stellen Sie sicher, dass der Sprachcode zum Modell passt (z. B. en-us für Englisch, zh-cn für Chinesisch).

    • Halten Sie das Mikrofon etwa 15–30 cm entfernt und vermeiden Sie Hintergrundgeräusche.

    • Sprechen Sie deutlich und nicht zu schnell.

  • Hohe Latenz / langsame Erkennung

    • Das automatisch heruntergeladene Modell ist standardmäßig ein kleines Modell (schneller, aber weniger genau).

    • Wenn die Erkennung trotzdem langsam ist, schließen Sie andere Programme, um CPU-Ressourcen freizugeben.