Computer Speech


És un llibre de text que té moltes parts realment tècniques fora de l'abast d'un lingüista, però s'hi troben materials interessants i temes que no sempre toquen altres manuals; hi ha, també, una bibliografia ben organitzada, un glossari, il·lustracions útils i capítols curiosos com ara els agraïments -13 pàgines que són, en realitat, una autobiogafia científica de l'autor-, la introducció, molt centrada en aplicacions concretes -per exemple, fa referència a la creació de la veu de Farinelli per a la pel·lícula-, o la història de les tecnologies de la parla. 

SCHROEDER, M. R. (2004) Computer Speech: Recognition, Compression, Synthesis. Second Edition. Berlin: Springer-Verlag (Springer Series in Information Sciences, 35). 

1.- Introduction; 2.- A brief history of speech; 3.- Speech recognition and speaker identification; 4.- Speech dialogue systems and natural language processing; 5.- Speech compression; 6.- Speech synthesis; 7.- Speech production; 8.- The speech signal; 9.- Hearing; 10.- Binaural hearing - Listening with both ears; 11.- Basic signal concepts; A.- Acoustic theory and modeling of vocal tract; B.- Direct relations between cepstrum and predictor coefficients; References; General reading; Selected journals; A sampling of societies and major meetings; Glossary of speech and computer terms.


Schroeder.png


Posted at 10:54    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

SmartKom: Foundations of Multimodal Dialogue Systems


El llibre recull els resultats del projecte alemany SmartKom (1999-2003), centrat en tots els aspectes del desenvolupament de sistemes de diàleg multimodals. 

WAHLSTER, W. (Ed.) (2006) SmartKom: Foundations of Multimodal Dialogue Systems. New York: Springer (Cognitive Technologies).


I.- Introduction; II.- Multimodal Input Analysis; III.- Multimodal Dialogue Processing; IV.- Multimodal Output Generation; V.- Scenarios and Applications; VII.- Data Collection and Evaluation.


Whalster.png


Posted at 22:05    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Evaluation of Text and Speech Systems


Un recull de 9 capítols sobre avaluació de sistemes en diversos dominis de les tecnologies lingüístiques, basat en les contribucions a la ELSNET Summer School on Language and Speech Communication sobre "Evaluation and Assessment of Text and Speech Systems" que va tenir lloc al NISLab a Odense el juliol de 2002.

DYBKJAER, L. - HEMSEN, H. - MINKER, W. (Eds.) (2007) Evaluation of Text and Speech Systems. Dordrecht: Springer (Text, Speech and Language Technology, 37).

Entre les contribucions rellevants per a les tecnologies de la parla cal esmentar:

CAMPBELL, N. (2007) "Evaluation of speech synthesis", in DYBKJAER, L. - HEMSEN, H. - MINKER, W. (Eds.) Evaluation of Text and Speech Systems. Dordrecht: Springer (Text, Speech and Language Technology, 37). pp. 29-64.

FURUI, S. (2007) "Speech and speaker recognition evaluation", in DYBKJAER, L. - HEMSEN, H. - MINKER, W. (Eds.) Evaluation of Text and Speech Systems. Dordrecht: Springer (Text, Speech and Language Technology, 37). pp. 1-28.

BERNSEN, N. O. - DYBKJAER, L. - MINKER, W. (2007) “Spoken dialogue systems evaluation", in DYBKJAER, L. - HEMSEN, H. - MINKER, W. (Eds.) Evaluation of Text and Speech Systems. Dordrecht: Springer (Text, Speech and Language Technology, 37). pp. 187-220.

GRANSTRÖM, B. - HOUSE, D. (2007) “Modelling and evaluating verbal and non-verbal communication in talking animated interface agents", in DYBKJAER, L. - HEMSEN, H. - MINKER, W. (Eds.) Evaluation of Text and Speech Systems. Dordrecht: Springer (Text, Speech and Language Technology, 37). pp. 65-98.

Evaluation of text and speech systems


Posted at 11:24    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Tecnologies de la parla


Si us interessa una presentació general de les tecnologies de la parla, aquí trobareu els materials preparats per a una xerrada (24 de març de 2007) en el marc del cicle "Aplicaciones de la fonética" organitzat per la professora Soledad Varela al Departament de Filologia Espanyola de la Universidad Autónoma de Madrid


Posted at 13:49    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

"Marcación por voz"


Publicat el 24 d'abril de 2007 a l'edició de Madrid del Diario Metro.

Marcacion_por_voz.png


Posted at 21:49    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Rentadores amb veu


Vist avui a una tenda d'electrodomèstics del meu barri.

061121_174228.jpg

Posted at 23:29    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Percepción y accesibilidad


Telefónica ha obert fa molt poc una plataforma de debat amb el tema general "Creamos el futuro" en la que s'està discutint sobre qüëstions que, d'una manera o altra, tenen a veure amb les tecnologies de la parla.

Un dels àmbits temàtics són les tecnologies del coneixement, entre les que s'inclou una secció sobre "Percepción y accesibilidad". El debat, obert a tothom, es realitza en forma de blog i pot ser ben enriquidor si s'hi incorporen perspectives multidisciplinars.


Posted at 13:45    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

SLaTE: The ISCA Special Interest Group on Speech and Language Technology in Education


S'ha creat recentment un nou SIG (Special Interest Group ) associat a ISCA (International Speech Communication Association ) dedicat a la integració de les tecnologies de la parla i del llenguatge en l'educació.

SLate
http://www.sigslate.org


Posted at 23:03    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

DIME - Diálogos Inteligentes Multimodales en Español


A les pàgines del projecte DIME (Diálogos Inteligentes Multimodales en Español), dirigit per Luis A. Pineda, es pot trobar tota la informació rellevant sobre els corpus desenvolupats (DIME i DIMEx100), sobre l'esquema d'etiquetat d'actes de parla (DIME-DAMSL) i sobre el desenvolupament d'un reconeixedor. Es recullen també les publicacions i les presentacions del projecte.

DIME, Diálogos Inteligentes Multimodales en Español
IIMAS - Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas, UNAM - Universidad Nacional Autónoma de México
http://leibniz.iimas.unam.mx/~luis/DIME/

Blog_DIME.jpg

Posted at 23:40    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Reconnaissance automatique de la parole


Un nou manual sobre reconeixement de la parla:

HATON, J. P.- CERISARA, C.- FOHR, D.- LAPRIE, Y.- SMAÏLI, K. (2006) Reconnaissance automatique de la parole. Du signal à son interprétation. Paris: Dunod (UniverSciences).

1.- Introduction à la reconnaissance automatique de la parole; 2.- La communication parlée; 3.- Analyse du signal vocal; 4.- Modèles acoustiques pour la reconnaissance automatique de la parole; 5.- Techniques avancées; 6.- La modélisation statistique du langage: application à la reconnaissance de la parole; 7.- La compréhension automatique de la parole; 8.- Robustesse de la reconnaissance de la parole; 9.- Mise en oeuvre d'un système; 10.- Un cadre articulatoire pour la reconnaissance automatique de la parole; 11.- Applications de la reconnaissance automatique de la parole.

Blog_Haton.jpg

Posted at 17:44    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Multilingual Speech Processing


Un nou manual sobre tecnologies de la parla des d'una perspectiva multilingüe:

SCHULTZ, T.- KIRCHHOFF, K. (Eds.) (2006) Multilingual Speech Processing. San Diego - London: Academic Press.

1.- Introduction; 2.- Language Characteristics; 3.- Linguistic Data Resources; 4.- Multilingual Acoustic Modeling; 5.- Multilingual Dictionaries; 6.- Multilingual Language Modeling; 7.- Multilingual Speech Synthesis; 8.- Automatic Language Identification; 9.- Other Challenges; 10.- Speech-to-Speech Translation; 11.- Multilingual Spoken Dialog Systems; Bibliography.


Blog_Schultz.jpg

Posted at 17:38    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Reconeixement d'emocions


Un estat de la qüestió recent sobre el reconeixement automàtic de les emocions:

VERVERIDIS, D.- KOTROPOULOS, C. (2006) "Emotional speech recognition: Resources, features, and methods", Speech Communication 48, 9: 1162-1181.

"In this paper we overview emotional speech recognition having in mind three goals. The first goal is to provide an up-to-date record of the available emotional speech data collections. The number of emotional states, the language, the number of speakers, and the kind of speech are briefly addressed. The second goal is to present the most frequent acoustic features used for emotional speech recognition and to assess how the emotion affects them. Typical features are the pitch, the formants, the vocal tract cross-section areas, the mel-frequency cepstral coefficients, the Teager energy operator-based features, the intensity of the speech signal, and the speech rate. The third goal is to review appropriate techniques in order to classify speech into emotional states. We examine separately classification techniques that exploit timing information from which that ignore it. Classification techniques based on hidden Markov models, artificial neural networks, linear discriminant analysis, k-nearest neighbors, support vector machines are reviewed."

Posted at 11:40    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Advances in Natural Multimodal Dialogue Systems


Un recull d'estudis centrats en la multimodalitat en els sistemes de diàleg:

KUPPEVELT, J.C.J. van - DYBKJAER, L.- BERNSEN, N.O. (Eds.) (2005) Advances in Natural Multimodal Dialogue Systems. Dordrecht: Springer (Text, Speech and Language Technology, 30).

I.- Making dialogues more natural: Empirical works and applied theory; II.- Annotation and analysis of multimodal data: speech and gesture; III.- Animated talking heads and evaluation; IV.- Architectures and technologies for advanced and adaptive multimodal dialogue systems.

Posted at 12:09    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Spoken, Multilingual, Multimodal Dialogue Systems


Un bon manual sobre sistemes de diàleg, ben organitzat i amb tota la informació que cal:

LÓPEZ-CÓZAR DELGADO, R. - ARAKI, M. (2005) Spoken, Multilingual and Multimodal Dialogue Systems: Development and Assessment. Chichester: John Wiley & Sons.

1.- Introduction to Dialogue Dystems; 2.- Technologies Employed to Set Up Dialogue Systems; 3.- Multimodal Dialogue Systems; 4.- Multilingual Dialogue Systems; 5.- Dialogue Annotation, Modelling and Management; 6.- Development Tools; 7.- Assessment; Appendix A: Basic Tutorial on VoiceXML; Appendix B: Multimodal Databases; Appendix C: Coding Schemes for Multimodal Resources; Appendix D: URLs of Interest; Appendix E: List of Abbreviations.

MultimodalDialogue.png

Posted at 12:16    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Speech, Music and Hearing - Quarterly Progress and Status Report


Els articles publicats a Speech, Music and Hearing - Quarterly Progress and Status Report entre 1990 i 1996 es poden trobar en línia (escanejats i convertits a PDF) a:
http://www.speech.kth.se/qpsr/qpsr1960-1996.html

Els treballs posteriors a 1996 són disponibles a:
http://www.speech.kth.se/qpsr/tmh/

Posted at 23:05    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Practical Spoken Dialog Systems


Col.lecció de 10 treballs centrats en els aspectes pràctics del disseny d'un sistema de diàleg:

DAHL, D. (Ed.) (2004) Practical Spoken Dialog Systems. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 26).

1.- Initial stages; 2.- Design; 3.- Deployment; 4.- New ideas.

Posted at 19:35    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

The integration of phonetic knowledge in speech technology


Un recull de 10 treballs sobre la relació entre coneixement fonètic i tecnologies de la parla:

BARRY, W. J. - van DOMMELEN, W. A. (Eds.) (2005) The Integration of Phonetic Knowledge in Speech Technology. Dordrecht: Springer (Text, Speech and Language Technology, 25).

Posted at 19:23    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Sistemes de diàleg


Una presentació general dels sistemes de diàleg:

McTEAR, M. F. (2002) "Spoken dialogue technology: enabling the conversational interface", ACM Computing Surveys 34, 1 (March 2002): 90 - 169.

"The article describes in detail the methods that have been adopted in some well-known dialogue systems, explores different system architectures, considers issues of specification, design, and evaluation, reviews some currently available dialogue development toolkits, and outlines prospects for future development" (del resum de l'autor).

Posted at 14:15    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Conversió de text en parla


Un llibre recent sobre conversió de text en parla:

NARAYANAN, S.- ALWAN, A. (Eds.) (2005) Text To Speech Synthesis: New Paradigms and Advances. Indianapolis: Prentice Hall PTR (IMSC Press Multimedia Series).

TTS.png

Posted at 12:37    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to:        

Introducing Speech and Language Processing


Publicat el mes de març d'aquest any:

COLEMAN, J. (2005) Introducing Speech and Language Processing. Cambridge: Cambridge University Press (Cambridge Introduction to Language and Linguistics).

1.- Introduction; 2.- Sounds and numbers; 3.- Digital filters and resonators; 4.- Frequency analysis and linear predictive coding; 5.- Finite state machines; 6.- Introduction to speech recognition techniques; 7.- Probabilistic finite-state models; 8.- Parsing; 9.- Using probabilistic grammars.

ISLP.png

Posted at 14:25    
Author: Joaquim Llisterri
Technorati Tags:
Technorati Cosmos: Technorati Cosmos
Technorati Watchlist: Technorati Watchlist
Add this entry to: