Starea recunoașterii vocale Linux

Recunoașterea vorbirii în Linux urmărește platformele Windows și Mac, deoarece atât Microsoft, cât și Apple au investit timp și cheltuieli considerabile în adăugarea de software de comandă vocală sau asistent vocal în sistemele lor de operare de bază.

Deși situația nu este sumbră pentru Linux, așa cum este cu multe tehnologii de ultimă oră, universul liber și open-source rămâne un pas în urmă, în special cu instrumentele de comandă vocală.


Recunoaștere vorbire nativă Linux

Nicio distribuție Linux nu se concentrează pe recunoașterea vorbirii. Cu toate acestea, aplicațiile care acceptă capacitatea de recunoaștere a vorbirii se bazează pe o mână de biblioteci open-source, inclusiv Sphinx, Kaldi, Julius și Mozilla Deepspeech.

Spațiu negativ / machetă. Fotografii 

Aceste biblioteci se bazează pe un corpus de vorbire pentru a oferi variații de sunete pentru a antrena AI și, prin urmare, să traducă corect vorbirea în text. Cu toate acestea, proiectele open-source sunt mai puțin sofisticate (deoarece se bucură de contribuții mai mici la formarea AI), ceea ce înseamnă că majoritatea aplicațiilor text-to-speech pentru Linux nu reușesc frecvent conversia. De obicei, ei o fac atât de bine încât nu este clar care ar fi putut fi discursul original.


Opțiuni pentru Linux Speech to Text

Utilizați una dintre cele cinci căi de soluții.

  • Mizați-vă pe aplicațiile native Linux disponibile în depozitele de distribuție - dacă apar.
  • Amazon a făcut Alexa disponibil pentru Linux, inclusiv pentru Raspberry Pi. Va trebui să efectuați o mulțime de modificări personalizate pentru ca acest aranjament să funcționeze, dar acesta va funcționa.
  • Accesați API-ul Google Speech din browserul dvs. prin DictationIO. Acest serviciu funcționează numai pentru dictare; nu îl puteți folosi pentru comanda vocală. Este alimentat de AI de la Google, astfel încât calitatea este bună.

  • Utilizați un serviciu precum Alexa sau Asistentul Google ca utilitar de comandă vocală pentru Linux prin serviciul Triggercmd. Triggercmd rulează pe computer; folosiți-l pentru a invoca Alexa sau Asistentul Google și solicitați acelor instrumente să execute scripturi specifice Bash pe baza comenzii dvs. Spuneți ceva de genul „OK Google, cereți comanda de declanșare pentru a deschide calculatorul”. Asistentul Google servește ca intermediar cu Triggercmd pentru a rula scriptul Bash specificat prin sintagma „deschide calculatorul”.
  • Utilizați Wine sau o mașină virtuală cu software pentru Windows, cum ar fi Dragon NaturallySpeaking. Cu modificările potrivite, puteți utiliza motorul Dragon pentru transcriere, deși această soluție nu funcționează pentru aplicațiile de comandă vocală.