Speech Recognition HOWTO
Indietro		Avanti

5. Software per il Riconoscimento del Parlato

5.1. Software Free

La maggior parte dei programmi free elencati qui è scaricabile dall'indirizzo: http://sunsite.uio.no/pub/Linux/sound/apps/speech/

5.1.1. XVoice

XVoice è un sistema di dettato di tipo a parlato continuo che può essere usato con una serie di applicativi per XWindow. Permette all'utente di definire delle macro personalizzate. È un ottimo programma con un chiaro futuro. Una volta impostato, riconosce il parlato con una accuratezza adeguata.

XVoice richiede di scaricare e installare il programma di IBM ViaVoice per Linux (si veda la Sezione sui programmi commerciali). Prima di usare XVoice è necessario configurare correttamente ViaVoice. Inoltre, è richiesta la libreria Lesstif/Motif (libXm). È bene notare che, dal momento che questo programma interagisce con XWindow, si deve lasciare accessibile X sulla propria macchina. Conseguentemente, si deve prestare attenzione se il computer su cui lo si usa è connesso a internet o è usato da più utenti.

Questo software è principalmente destinato agli utenti. È disponibile in formato RPM.

HomePage: http://www.compapp.dcu.ie/~tdoris/Xvoice/ http://www.zachary.com/creemer/xvoice.html

Progetto: http://xvoice.sourceforge.net

Community: http://www.onelist.com/community/xvoice

5.1.2. CVoiceControl/kVoiceControl

CVoiceControl sta per Console Voice Control ed era originariamente stato progettato come KVoiceControl (KDE Voice Control). È un sistema di base di riconoscimento del parlato che permette ad un utente di eseguire applicazioni usando comandi vocali. CVoiceControl ha sostituito KVoiceControl.

Il programma include una utility di configurazione per il microfono, un vocabolario "model editor" per l'aggiunta di nuovi comandi e enunciati, e il sistema di riconoscimento del parlato vero e proprio.

CVoiceControl è un ottimo punto di partenza per utenti esperti che vogliono iniziare ad esplorare i sistemi ASR. Non è il sistema più facile da usare, ma una volta che è stato correttamente addestrato può essere molto utile. Non dimenticate di leggere la documentazione prima di configurarlo.

Questo software è principalmente per utenti.

Homepage: http://www.kiecza.de/daniel/linux/index.html

Documenti: http://www.kiecza.de/daniel/linux/cvoicecontrol/index.html

5.1.3. Open Mind Speech

Iniziato alla fine del 1999, Open Mind Speech ha cambiato nome diverse volte: era VoiceControl, poi SpeechInput, e dopo FreeSpeech. Fa ora parte di "Open Mind Initiative". È un progetto open source. Al momento, non è completamente operativo ed è destinato principalmente a sviluppatori.

Questo software è principalmente per sviluppatori.

Homepage: http://freespeech.sourceforge.net

5.1.4. GVoice

GVoice è una libreria di ASR che usa ViaVoice di IBM per controllare applicazioni Gtk/GNOME. Include librerie per l'inizializzazione, il motore di riconoscimento, manipolazione di vocabolario e controllo del pannello. Tuttavia, lo sviluppo di GVoice non procede da oltre un anno.

Questo software è principalmente per sviluppatori.

Homepage: http://www.cse.ogi.edu/~omega/gnome/gvoice/

5.1.5. ISIP

L'Institute for Signal and Information Processing presso la Mississippi State University ha reso disponibile il proprio motore riconoscimento del parlato. Il toolkit include un front-end, un decoder e un modulo per l'addestramento. È un sistema funzionale.

Questo software è principalmente per sviluppatori.

Il toolkit (e altre informazioni su ISIP) è disponibile all'indirizzo: http://www.isip.msstate.edu/projects/speech/

5.1.6. CMU Sphinx

Sphinx è un progetto creato in origine a CMU. È stato recentemente rilasciato come software open source. È un programma piuttosto vasto che include un gran numero di strumenti e informazioni. È ancora in sviluppo, ma comprende moduli di addestramento, riconoscimento, modelli acustici e linguistici. La documentazione è scarsa.

Questo software è principalmente per sviluppatori.

Homepage: http://www.speech.cs.cmu.edu/sphinx/Sphinx.html

Source: http://download.sourceforge.net/cmusphinx/sphinx2-0.1a.tar.gz

5.1.7. Ears

Anche se Ears non è ancora del tutto sviluppato, è un buon punto di partenza per programmatori che vogliono esplorare i sistemi ASR.

Questo software è principalmente per sviluppatori.

Sito FTP: ftp://svr-ftp.eng.cam.ac.uk/comp.speech/recognition/

5.1.8. NICO ANN Toolkit

Il toolkit NICO Artificial Neural Network è una flessibile rete neuronale con feedback ottimizzata per applicazioni di riconoscimento del parlato.

Questo software è principalmente per sviluppatori.

Homepage: http://www.speech.kth.se/NICO/index.html

5.1.9. Software di Myers basato su Hidden Markov Model

Questo software scritto da Richard Myers implementa algoritmi HMM ed e scritto in C++. Fornisce un esempio e uno strumento di apprendimento dei modelli HMM descritti nel libro di L. Rabiner "Fundamentals of Speech Recognition".

Questo software è principalmente per sviluppatori.

Informazioni sono disponibili all'indirizzo: http://www.itl.atr.co.jp/comp.speech/Section6/Recognition/myers.hmm.html

5.1.10. Jialong è Speech Recognition Research Tool

Anche se non è stato originariamente scritto per Linux, questo strumento può essere compilato su Linux. Contiene tre diversi tipi di riconoscitori: DTW, HMM Dinamico, e un HMM a Densità Continua. È un programma per ricercatori e sviluppatori e non è un sistema ASR completamente funzionale. Tuttavia, contiene alcuni strumenti davvero utili.

Questo software è principalmente per sviluppatori.

Maggiori informazioni sono disponibili all'indirizzo: http://www.itl.atr.co.jp/comp.speech/Section6/Recognition/jialong.html

5.1.11. Altri Sistemi Free Software?

Se siete a conoscenza di programmi free software che non sono inclusi in questa lista, mandatemi un'email all'indirizzo scook@gear21.com. Se volete, potete anche dirmi come ottenere una copia del programma e qualsiasi impressione vi abbia fatto. Grazie!

5.2. Software Commerciale

5.2.1. IBM ViaVoice

IBM ha mantenuto le sue promesse di supportare Linux con la loro serie di prodotti ViaVoice per Linux. Nonostante questo, il futuro dei suoi SDK è ancora piuttosto incerta: la licenza per gli sviluppatori non è stata ancora rilasciata - maggiori informazioni in futuro.

La versione commerciale (a pagamento) di IBM ViaVoice Dictation per Linux (disponibile all'indirizzo http://www-4.ibm.com/software/speech/linux/dictation.html) funziona molto bene, ma ha esigenze di sistema più consistenti rispetto ad altri sistemi ASR meno evoluti (64MB di RAM e un processore Pentium a 233MHz). Per il prezzo di 59.95 dollari si ottiene anche un microfono Andrea NC-8 microphone. Permette anche di essere usato da più di un utente, ma non l'ho mai provato in questo modo. Se qualcuno ne avesse esperienza, me lo faccia sapere. Viene fornita documentazione (in formato PDF), un modulo per l'addestramento, il sistema per il dettato e una serie di script per l'installazione. Supporto per varie distribuzioni di Linux basate sul kernel 2.2 è disponibile nell'ultima versione.

L'SDK ASR è disponibile gratuitamente e include SMAPI, grammar API, documentazione e un certo numero di programmi di esempio. Il ViaVoice Run Time Kit fornisce un motore ASR, dati per le funzioni di dettato, altre utility. Lo stesso vale per il ViaVoice Command & Control Run Time Kit. L'SDK e i Kit richiedono almeno 128MB di RAM e un kernel 2.2 o più avanzato.

L'SDK e i Kit sono disponibili all'indirizzo: http://www-4.ibm.com/software/speech/dev/sdk_linux.html

5.2.2. Vocalis Speechware

Maggiori informazioni su Vocalis and Vocalis Speechware è disponibile all'indirizzo: http://www.vocalisspeechware.com e http://www.vocalis.com.

5.2.3. Babel Technologies

Babel Technologies fornisce un SDK per Linux chiamato Babear. È un sistema indipendente dall'utente basato su HMM e reti neurali. Dispongono inoltre di un certo numero di prodotti per effettuare text-to-speech, riconoscimento vocale degli utenti analisi dei fonemi. Maggiori informazioni sono disponibile all'indirizzo: http://www.babeltech.com.

5.2.4. SpeechWorks

Non ho trovato nulla sul loro sito web che menzionava esplicitamente Linux, ma il loro "OpenSpeech Recognizer" usa VoiceXML, che è un open standard. Maggiori informazioni sono disponibili all'indirizzo: http://www.speechworks.com.

5.2.5. Nuance

Nuance offre un prodotto per il riconoscimento del parlato, attualmente arrivato alla versione 8.0 per una varietà di piattaforme *nix. Può gestire vocabolari molto grandi e adotta un'architettura distribuita per migliorare la scalabilità e tolleranza ai guasti del sistema. Maggiori informazioni sono disponibili all'indirizzo: http://www.nuance.com.

5.2.6. Abbot/AbbotDemo

Abbot è un sistema di ASR indipendente dall'utente e in grado di gestire un vocabolario molto esteso. È stato originariamente sviluppato dal Connectionist Speech Group all'Università di Cambridge. È stato poi trasferito (commercializzato) a SoftSound. Maggiori informazioni sono disponibili all'indirizzo: http://www.softsound.com.

AbbotDemo è una demo di Abbot. È dotato di un vocabolario di circa 5000 parole e usa un algoritmo connessionista/HMM a parlato continuo. È un programma di prova di cui non è disponibile il codice sorgente.

5.2.7. Entropic

Le buone persone di Entropic sono state comprate da Micro$oft... I loro prodotti e il loro servizio di supporto sono scomparsi. Il supporto per HTK e ESPS/waves+ non è più disponibile e il loro futuro è nelle mani di M$. Il loro vecchio sito web è accessibile all'indirizzo http://www.entropic.com e fornisce ulteriori informazioni.

K.K. Chin mi ha avvisato che gli sviluppatori originali di HTK (il Speech Vision and Robotic Group a Cambridge) forniscono ancora supporto per HTK. Esiste anche una versione "free" disponibile all'indirizzo: http://htk.eng.cam.ac.uk. Nota che Microsoft possiede ancora il copyright per il codice di HTK...

5.2.8. Altri Prodotti Commerciali

Ci sono voci di altri sistemi ASR commerciali presto disponibili (incluso L&H). Ho parlato con un paio di rappresentanti di L&H a Comdex 2000 (Las Vegas) ma non mi hanno fornito nessuna informazione su eventuali versioni per Linux o nemmeno se programmano di rilasciare alcun prodotto per Linux. Se avete ulteriori informazioni, fatemelo sapere scrivendo a scook@gear21.com.

Indietro	Partenza	Avanti
Hardware		Capire il Riconoscimento del Parlato