Μαθήματα Επεξεργασίας

Σημάτων

Ε.Μ.Π. | ΗΜΜΥ
Προπτυχιακά | Μεταπτυχιακά | Διπλωματικές
Εγγραφή | Αποστολή | Συμπεριφορά | Συντομογραφίες | Παράδειγμα
Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων
Vision | Speech
2003 | 2002 | 2001 | 2000 | 1999 | pre-1999
Undergraduate | Postgraduate | Diploma Projects | Mailing Lists
subglobal7 link | subglobal7 link | subglobal7 link | subglobal7 link | subglobal7 link | subglobal7 link | subglobal7 link

Επεξεργασία Φωνής και Φυσικής Γλώσσας

Πληροφορίες
Επεξεργασία Φωνής και Φυσικής Γλώσσας

7o Εξάμηνο

Διδάσκων: Αν. Καθ. Αλέξανδρος Ποταμιάνος (http://cvsp.cs.ntua.gr/potam/)
Χρόνος/Τόπος:
Τετάρτη 09:00 - 12:30, Αίθουσα 007
Έναρξη: Τετάρτη 7-10-2015
Βοηθοί:
 
Πρόσφατες/Σημαντικές Ανακοινώσεις
9-11-2015: Αναρτήθηκε το virtual machine για τη διεξαγωγή του 1ου εργαστηρίου στη σελίδα Εκπαιδευτικό Υλικό.
9-11-2015: Αναρτήθηκε το ημερολόγιο του μαθήματος.
21-10-2015: Εισαγωγικό εκπαιδευτικό υλικό ανέβηκε στη σελίδα Εκπαιδευτικό Υλικό.
Στόχοι
Ανάλυση και μοντελοποίηση φωνής. Μοντέλα παραγωγής φωνής. Τεχνικές εξαγωγής χαρακτηριστικών για εφαρμογές επεξεργασίας φωνής. Σύγχρονες τεχνικές κωδικοποίησης φωνής. Εισαγωγή στην αναγνώριση φωνής και τα κρυφά Μαρκοβιανά μοντέλα. Στατιστική σύνθεση φωνής. Εφαρμογές αναγνώρισης φωνής, σύνθεσης φωνής και η γλώσσα VoiceXML. Βασικές έννοιες της υπολογιστικής γλωσσολογίας. Βασικά εργαλεία επεξεργασίας γλώσσας: κανονικές εκφράσεις, μηχανές πεπερασμένης κατάστασης, γλωσσικά μοντέλα ν-γραμμάτων, γραμματικές χωρίς συμφραζόμενα, δενδρικά μοντέλα απόφασης, στατιστικά μοντέλα συντακτικής ανάλυσης, στατιστικά μοντέλα σημασιολογικής ανάλυσης, μοντέλα διαλόγου και στατιστικά μοντέλα μετάφρασης.
 
Περιεχόμενα
ΕβδομάδαΓνωστικό Αντικέιμενο

Σχετική Βιβλιογραφία

(κωδικος βιβλίου -κεφάλαιο)

1

Εισαγωγή στην Επεξεργασία Φωνής - Σύστημα παραγωγής ομιλίας κ εισαγωγή στην φωνολογία. Εισαγωγή στην Επεξεργασία Φυσικής Γλώσσας - Κανονικές εκφράσεις

R&S 1, R&J 2.1-2.4,

J&M 1, J&M 2.1


2

Παραγωγή φωνής - Μοντέλα φωνητικού σωλήνα - Βασικά χαρακτηριστικά σήματος φωνής - Αντίληψη φωνής - Νοητικά μοντέλα

R&S 3, R&S 5.1-5.2,

R&S 4.1-4.6


3 Μηχανές πεπερασμένης κατάστασης - Τροπικοί ημιδακτύλιοι - Μηχανές πεπερασμένης κατάστασης με βάρη - Μοντέλα μορφολογίας γλώσσας

J&M 2.2 -2.4

J&M 3.1, J&M 3.4


4 Μορφολογία - Φωνολογία - Ορθογράφοι (spell checkers)

J&M 3, J&M 11

5 Μοντέλα ανάλυσης βραχέως χρόνου (short-time processing) - Ανάλυση Φωνής - Αλγόριθμοι υπολογισμού θεμελιώδους συχνότητας και formants - Γραμμική πρόβλεψη - Ομομορφική επεξεργασία - Cepstrum

R&S 6, R&S 7.1-7.3,

R&S 8, R&S 9


6 Στατιστικα μοντέλα Bayes - Μοντέλα Markov - Κρυφά μοντέλα Markov - Εφαργμογή σε αναγνώριση Φωνής
R&J 6, B 8,
J&M 6.1-6.5

7 Αναγνώριση Φωνής - Στατιστικά γλωσσικά μοντέλα - CRFs/DNNs

J&M 9, J&M 4


8 Αναγνώριση μερών του λόγου (part-of-speech tagging) - Συντακτικοί αναλυτές - Στατιστικοί συντακτικοί αναλυτές - Dependency parsing

J&M 5.1-.5.5

J&M 13, J&M 14


9 Μαθηματική Λογική και Σημασιολογία - Σημασιολογικοί Αναλυτές

J&M 17, J&M 18


10 Συστήματα Διαλόγου - Πολυτροπικά συστήματα αλληλεπίδρασης με φωνή - Η Γλώσσα Voice XML

J&M 24, Διαφάνειες μαθήματος


11 Σύνθεση φωνής (text-to-speech synthesis) - Κωδικοποίηση φωνής (speech coding) - Αυτόματη μετάφραση από κείμενο και από σήμα φωνής

R&S 13, R&S 11,

J&M 25


12 Προχωρημένα θέματα επεξεργασίας φωνής και λόγου - Σημασιολογικά μοντέλα - Γνωσιακά μοντέλα - Μοντέλα αναπαράστασης γνώσης

Επιλεγμένες πρόσφατες δημοσιεύσεις


* Εργαστήριο Επεξεργασίας Φυσικού Λόγου - Η βιβλιοθήκη OpenFST - μετατροπέας Greekglish - αναλυτής μερών του λόγου
* Εργαστήριο Επεξεργασίας Φωνής - Το λογισμικό KALDI - Εκπαίδευση γλωσσικών μοντέλων - Σύστημα αναγνώρισης φωνής

Προαπαιτούμενα: Σήματα και Συστήματα

Άλλα σχετικά μαθήματα: Ψηφιακή Επεξεργασία Σημάτων, Αναγνώριση Προτύπων

Εργαλεία που θα χρησιμοποιηθούν στο μάθημα: OpenFST, KALDI, Python/Perl, MATLAB

 
Βιβλιογραφία
    1. [J&M] Daniel Jurafsky and James H. Martin.
      Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics.
      2nd edition. Prentice Hall, 2008.
    2. [R&S] Lawrence R. Rabiner and Ronald W. Schafer.
      Theory and Applications of Digital Speech Processing.
      Pearson, 2011.
    3. [R&J] Lawrence R. Rabiner and Biing-Hwang Juang.
      Fundamentals of Speech Recognition.
      PTR Prentice Hall, 1993
    4. [B] Christopher M. Bishop.
      Pattern Recognition and Machine Learning. Springer-Verlag New York, 2006.
    5. Βασίλειος Διγαλάκης και Αλέξανδρος Ποταμιάνος.
    6. Σημειώσεις στην Επεξεργασία Φωνής.
Μέθοδοι Αξιολόγησης
  • 2 σειρές ασκήσεων 20% (και 5% bonus)
  • Πρόοδος 20%
  • Τελικό 30%
  • Εργαστήρια 30%
Ημερολόγιο μαθήματος
Αναλυτικές Ασκήσεις Ημερομηνία
Ανάρτηση 1ου σετ ασκήσεων12/11/2015
Προθεσμία υποβολής 1ου σετ ασκήσεων26/11/2015
Ανάρτηση 2ου σετ ασκήσεων3/12/2015
Προθεσμία υποβολής 2ου σετ ασκήσεων10/01/2015
Εργαστήρια
Ανάρτηση προπαρασκευής 1ου εργαστηρίου16/11/2015
1ο εργαστήριο23/11/2015
Παράδοση αναφοράς 1ου εργαστηρίου13/12/2015
Ανάρτηση προπαρασκευής 2ου εργαστηρίου7/12/2015
2ο εργαστήριο14/12/2015
Παράδοση αναφοράς 2ου εργαστηρίου28/12/2015
Εξετάσεις
Πρόοδος16/12/2015
Τελική εξέταση18/1/2016 (δεν έχει οριστικοποιηθεί ακόμα)
Τελευταία Αλλαγή:  Monday, 05 December 2016 | Δημιουργοί: Νάσος Κατσαμάνης, Γιώργος Παπανδρέου | Search is powered by