Stav rozpoznávania hlasu v systéme Linux

by Gary Newell

úvod

Strávim veľa času skúmaním článkov a pomerne často myslím na predmet predmetu pri prechode na železničnú stanicu alebo keď ide von a vo všeobecnosti.

Jeden večer pri chôdzi 1,5 míle na stanicu z mojej práce som si myslel, že "by nebolo dobré, keby som mohol zaznamenať to, čo som chcel povedať, a potom ju nechám prepísať automaticky do textového súboru, ktorý by som mohol upravovať a formátovať neskôr" ,

Strávil som veľa dlhých hodín pri pohľade na rôzne možnosti, ktoré sú k dispozícii na rozpoznávanie hlasu a diktovanie vrátane nahrávania priamo cez mikrofón pomocou diktátového softvéru v systéme Linux, nahrávanie súboru do formátu MP3 alebo WAV a jeho prevod cez príkazový riadok, ako aj pomocou prehliadača Chrome a aplikácie pre systém Android.

Tento článok zdôrazňuje moje zistenia po dňoch ťažkej práce.

Možnosti systému Linux

Pokúšame sa nájsť softvér na diktovanie a rozpoznávanie hlasu v systéme Linux nie je tak jednoduché, ako by to mohlo byť, a dostupné možnosti nie sú také chytré.

Táto stránka wikipedie obsahuje zoznam možných možností, vrátane CMF Sphinx, Julius a Simon.

Používam SparkyLinux, ktorý je v súčasnosti založený na testovaní Debianu a môžem vám povedať, že jediný balík rozpoznávania hlasu dostupný v úložiskách je Sphinx.

Natívne programy Linuxu, ktoré som sa nakoniec pokúšal, boli PocketSphinx, ktorý som použil na konverziu súborov WAV na text a Freespeech-VR, čo je aplikácia typu python, ktorá umožňuje záznam priamo z mikrofónu.

Tiež som skúsil niekoľko aplikácií Chrome vrátane aplikácie VoiceNote II a Dictanote.

Nakoniec som skúsil Aplikácie pre Android Aplikácie "Diktovanie a e-mail" a "Talk a Talk Dictation".

Freespeech-VR

Freespeech-VR nie je k dispozícii v štandardných úložiskách. Stiahol som si súbory odtiaľto.

Po prevzatí a extrahovaní obsahu zip súboru som otvoril terminál a prechádzal do priečinka, do ktorého boli súbory extrahované.

Zadal som nasledujúci príkaz na otvorenie freespeech-vr.

sudo python freespeech-vr

Mám pár slúchadiel s pomerne slušným mikrofónom a pomerne jasným južným anglickým prízvukom.

V okne freespeech-vr sa objavil nasledujúci text:

Vitajte na jednotkových psov výsledku Dnes sa uistite, ako spravovať testy Musí vyskúšať Kedy text Používa systematickú cestu Reč I Kto každý každý bol Len v Dúfam, že zostane A do prostriedku Jeden kurčatá zlatý ako systém Ea, keď to moje meno budúci hovor volá telefón Tento súbor Čoskoro prípady telefón do Hands-Space sfinga Choď To nie je telefóny budú zdieľané Vyškolené a a nástroje Použite hovorenie Keď ste skončili Povedzte Použitý súbor Posledný príbeh A A pomocou toho, kedy je to veľmi ako úspech Tento Linux bol ako vy Vyhýbate sa je

Chcel by som len teraz povedať, že toto nie je webová stránka Unit of Dogs a v žiadnom prípade som nezmienil nič, čo by malo súvisieť so zlatými kurčatami. Skutočne som sa snažil popísať proces používania softvéru rozpoznávania hlasu.

Snažil som sa softvér niekoľkokrát vrátane rozdielneho rozstupu a rýchlosti, ale presnosť bola zlá.

PocketSphinx

PocketSphinx je schopný prevziať súbor WAV a previesť ho na text pomocou príkazového riadku.

PocketSphinx je k dispozícii prostredníctvom repozitárov Debianu a mal by byť k dispozícii pre väčšinu distribúcií.

Hlavným problémom, ktorý som zistil v programe PocketSphinx, je skutočnosť, že potrebujete určitý stupeň v konceptoch rozpoznávania hlasu, jazykových súborov, slovníkov a ako trénovať systém.

Po inštalácii PocketSphinx by ste mali ísť na webovú stránku CMF Sphinx a prečítať čo najviac informácií. Musíte tiež stiahnuť nasledujúci modelový súbor.

Americký anglický generický jazykový model

(Ak nie ste pôvodným anglickým rečníkom, vyberte si jazykový model, ktorý je pre vás vhodný).

Dokumentácia pre PocketSphinx a Sphinx vo všeobecnosti je ťažko pochopiteľná pre laikov, ale z toho, čo by som mohol urobiť slovník súbory sú použité na poskytnutie zoznamu možných slov a jazykových modelov majú zoznam možných výslovností.

Na testovanie PocketSphinx som použil nahrávku svojho vlastného hlasu, úryvok z Al Pacino v "The Devils Advocate" a úryvok z "Morgan Freeman". Cieľom bolo vyskúšať rôzne hlasy a pre mňa nie je nikto, kto môže rozprávať príbeh tak jasne ako Morgan Freeman a nikto neponúka líniu ako Al Pacino.

Pre prácu s PocketSphinx potrebuje súbor WAV a musí byť v určitom formáte. Ak je súbor vo formáte MP3, použite príkaz ffmpeg na jeho prevod do formátu WAV:

ffmpeg -i vstupný súbor.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Ak chcete spustiť program PocketSphinx, použite nasledovný príkaz:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-sk-us.lm 2> voice2.log

pocketsphinx_continuous berie súbor WAV a prevádza ho do textu.

V príkaze nad príkazom pocketsphinx sa používa slovníkový súbor nazvaný "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" s jazykovým modelom "cmusphinx-5.0-en-us.lm". Súbor, ktorý sa prevádza na text, sa nazýva hlas2.wav (čo je záznam, ktorý som vytvoril svojím hlasom). Nakoniec 2> umiestni všetky podrobný výstup, ktorý nemusí nutne potrebovať do súboru s názvom voice2.log. Skutočné výsledky testu sa zobrazia v okne terminálu.

Výsledky pomocou môjho hlasu sú nasledovné:

vitajte na ďalšiu o tom dobre tento týždeň predmet o tom, ktorý softvér rozpoznávania za minútu

Výsledky nie sú tak hrozné ako pri freespeech-vr, ale stále nie sú skutočne použiteľné. Potom som skúsil používať PocketSphinx s Al Pacinom, ale to vôbec neviedlo k výsledkom.

Nakoniec som sa pokúsil používať hlas Morgana Freemana z filmu "Bruce Všemohúceho" a tu sú výsledky:

000000000: budeme na ňom
000000001: všetko je to ťažké, yeah ten deň, že hneď teraz to je najviac sme boli nažive, som súčasťou horúcej
000000002: vo výťahu, ktorý je kľúčom z bitky baseballu, alebo viete, čo má robiť v živote
000000003: aké sú tie, ktoré sa zotavia
000000004: Nepísali to
000000005: majú na mňa hneď
000000006: musíte byť pravidlami
000000007: Očakával som vás
000000008: a tu sa dozvedel, že to bola ilustrácia, bola vražedná vianočná večera
000000009: ukáže sa jedna zo spôsobov, ako napísať o. ass som si myslel, že málo má vždy jeden
000000010: Rovnako ako spojený problém nebude dať to dobrý som odhadol ich v tej chvíli, keď sme nemali všetko, čo si myslíte, že som vo svete sa domovy a ja som videl, že
000000011: otec, ktorý ho má
000000012: Čo veľa o tom
000000013: robí to
000000014: všetko, čo ty, ktoré neklesnú veľa
000000015: priamo na jeseň
000000016: dobre držte len pre mňa
000000017: Je to nešťastné, ak si myslím taky, že budú mať to, že to všetko, čo sa oženil na a bolo nie sme sa mi páči, ako na rozdiel od cesty

Môj test sa sotva dá považovať za vedecký a vývojári programu PocketSphinx môžu tvrdiť, že softvér nepoužívam správne. Existuje aj technika nazývaná hlasový výcvik, ktorý možno použiť na vytvorenie lepších slovníkov a jazykových súborov.

Môj prvoradý názor však je, že je príliš ťažké pre bežné každodenné používanie.

VoiceNote II

Aplikácia VoiceNote II je aplikácia pre prehliadač Chrome, ktorá používa rozhranie API na rozpoznávanie služby Google Voice.

Ak používate prehliadače Chrome alebo Chromium, môžete nainštalovať VoiceNote II cez Internetový obchod .

Ikony na službe VoiceNote II sú rozložené podivne, pretože je potrebné nastaviť jazyk v spodnej časti okna a tlačidlo úprav je tiež v dolnej časti, ale tlačidlo nahrávania je v pravom hornom rohu.

Prvá vec, ktorú musíte urobiť, je vybrať jazyk a to je možné dosiahnuť kliknutím na ikonu na svete.

Ak chcete začať s nahrávaním, kliknite na ikonu mikrofónu a začnite hovoriť do mikrofónu. Najlepšie výsledky, ktoré som zistil, že pomalý hovor bol kľúčový, aby softvér mal šancu držať krok.

Výsledky neboli skvelé, ako je možné vidieť nižšie:

Dobrý deň a vítam vás. Nachádzate sa tu: Domov dnešné články o hlasu na text konverzie dunelm farrell recesie 2008 ako konverzie a to povedal dobre podporovaný najlepší spôsob, ako som našiel hlasový text addon ukázať 2014debian alebo rpm balík otvoriť to hlasový typ na reč na text otvoriť ho, ak chcete vybrať vs vybrali v edinburgh francúzsky nemecky dostanú vám čas v united kingdomstart na mori microphonewhat ste skončil písanie textu ako textový súbor k úspechu dobre, že je to veľmi štandardný anglický prízvuk z juhu Anglicka najlepšie pre to, ale idem na textvia tento torrentalong s aktuálnym dokumentom a môžete vidieť chyby, ktoré vám spôsobujú poslucháči

Dictanote

Dictanote je ďalšia aplikácia prehliadača Chrome, ktorá môže byť použitá na účely diktovania a spoznala sa ako intuitívnejšia, ale výsledky neboli o nič lepšie ako VoiceNote II.

Použil som iba demo verziu Dictanote, ktorá vám bráni v vytváraní nových dokumentov, ale umožňuje vám hovoriť nad textom, ktorý je už v editore. Bola som schopná otestovať rozpoznávanie hlasu, ale výsledky neboli o nič lepšie ako VoiceNote II a tak som sa nezaregistroval na verziu pro.

Diktovanie a pošta

"Diktát a pošta" je aplikácia pre Android, ktorá používa rozhranie API na rozpoznávanie hlasu Google.

Výsledky z "Diktátu a pošty" boli oveľa lepšie ako ktokoľvek iného programu, ktorý sa pokúsil až do tohto bodu.

ahoj vitajte v Linuxu o., dnes hovoríme o konverziu zvuku na text

Trik s "Diktátom a poštou" je hovoriť pomaly a vyslovovať, rovnako ako môžete s rovnomerným prízvukom.

Po dokončení rozhovoru môžete výsledky poslať e-mailom sami.

Rozprávať a hovoriť diktovanie

Ďalšia aplikácia pre systém Android, ktorú som skúšala, bola "Talk and Talk Dictation".

Rozhranie pre túto aplikáciu bolo najlepšie zo skupiny a rozpoznávanie hlasu fungovalo veľmi dobre. Po zaznamenaní diktátu som bol schopný zdieľať výsledky rôznymi spôsobmi aj prostredníctvom e-mailu.

Vitajte na linux about.com dnes hovoríme o konverziu reči na text

Ako môžete vidieť vyššie uvedený text, je to tak jasné, ako môžete očakávať. Hovoriť pomaly je kľúč.

zhrnutie

Native Linux má nejaký spôsob, ako ísť s ohľadom na rozpoznávanie hlasu a konkrétne diktovanie. Existujú niektoré aplikácie, ktoré používajú API služby Google Voice, ale ešte nie sú uvedené v repozitároch.

Aplikácie pre systém ChromeOS sú trochu lepšie, ale zďaleka najlepšie výsledky boli dosiahnuté pomocou môjho telefónu Android. Možno má telefón lepší mikrofón, a preto softvér na rozpoznávanie hlasu má vyššiu šancu na konverziu.

Aby sa rozpoznávanie hlasu stalo skutočne použiteľným, musí byť intuitívnejšie a menej náročné na nastavenie. Nemali by ste sa musieť obťažovať jazykovými modelmi a slovníky, aby ste boli zrozumiteľní.

Oceňujem však, že celé umelé rozpoznávanie hlasu je veľmi náročné, pretože každý má iný hlas a existuje toľko dialektov od regiónu k regiónu v jednej krajine, ktoré sa nikdy nemusia starať o stovky jazykov používaných na celom svete.

Moja analýza preto spočíva v tom, že softvér rozpoznávania hlasu stále prebieha.