Η Αθανασία Κολοβού, ΕΔΙΠ του Τμήματος, συμμετείχε στην ομάδα Tweester, η οποία λειτούργησε υπό την καθοδήγηση του Αναπληρωτή Καθηγητή Αλέξανδρου Ποταμιάνου (Σχολή ΗΜΜΥ, Ε.Μ.Π., πρώην Σχολή ΗΜΜΥ Πολυτεχνείου Κρήτης) και κατέλαβε την 1η θέση -ανάμεσα σε 19 ομάδες- στον παγκόσμιο διαγωνισμό επεξεργασίας φυσικής γλώσσας SemEval-2016. Η ομάδα αποτελείται από τη μεταπτυπτυχιακή φοιτήτρια της Σχολής Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών Πολυτεχνείου Κρήτης κα Ελισάβετ Παλογιαννίδη, τους απόφοιτους του Πολυτεχνείου Κρήτης, κ.κ. Ηλίας Ιωσήφ και Νικόλαο Μαλανδράκη, και τους προπτυχιακούς φοιτητές της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Ε.Μ.Π. Φένια Χριστοπούλου και Φίλιππο Κόκκινο. Μέλη της ομάδας είναι ακόμα ο ερευνητής του Ινστιτούτου Επεξεργασίας Λόγου Χάρης Παπαγεωργίου και ο καθηγήτής του Viterbi School of Engineering Shrikanth Narayanan.
Ο διαγωνισμός SemEval-2016 είναι ο 10ος συνεχόμενος διαγωνισμός πάνω σε διάφορες ενότητες που έχουν να κάνουν με την επεξεργασία φυσικής γλώσσας και είναι ιδιαίτερα δημοφιλής προσελκύοντας συμμετέχοντες από όλον τον κόσμο.
Φέτος υπήρχαν συνολικά πέντε ενότητες, καθεμία εκ των οποίων περιέχει επιμέρους tasks και subtasks (http://alt.qcri.org/semeval2016/index.php?id=tasks).
Η ομάδα Tweester συμμετείχε στην ενότητα "Sentiment Analysis" (Συναισθηματική ανάλυση) και συγκεκριμένα στο κομμάτι του διαγωνισμού που έχει να κάνει με τη συναισθηματική ανάλυση των tweets, δηλαδή των κειμένων (status) που γράφονται στο δημοφιλές κοινωνικό δίκτυο twitter.
Το πρόβλημα προς επίλυση ήταν η ταξινόμηση των tweets ως προς το συναίσθημα που εκφέρουν. Συγκεκριμένα έπρεπε να αναπτυχθεί ένα σύστημα το οποίο θα είναι σε θέση να δέχεται κομμάτια κειμένου, που δε γνωρίζει εκ των προτέρων, να αποφασίζει αν το συναίσθημα που εκφέρουν είναι θετικό ή αρνητικό και έπειτα να τα ταξινομεί αναλόγως. Όραμα της ομάδας ήταν η δημιουργία ενός συστήματος το οποίο θα αξιοποιεί όλη την πληροφορία που μπορεί να διεξαχθεί από το κείμενο, έχοντας πάντα ως κίνητρο τον τρόπο με τον οποίο αντιλαμβάνεται και αποφασίζει το ανθρώπινο μυαλό. Έτσι, αναπτύχθηκε ένα σύνολο από συστήματα που χρησιμοποιούν τεχνικές μηχανικής μάθησης (machine learning) και τα οποία συνδυάστηκαν με πιθανοτικό τρόπο ώστε να παρθεί η τελική απόφαση. Τα επιμέρους συστήματα χρησιμοποιούν Νευρωνικά Δίκτυα (Neural Networks) καθώς και μεθόδους εξόρυξης κειμένου (text mining) βασισμένους στη θεματολογία που εντοπίζεται στο κείμενο (topic modeling). Σημαντικό μέρος των συστημάτων αφορά τη σημασιολογική αναπαράσταση της λεξικής πληροφορίας των tweets, καθώς και την εξαγωγή χαρακτηριστικών (feature extraction) τα οποία χρησιμοποιούνται για την εκπαίδευση (training) των ταξινομητών (classifiers) που αναπτύχθηκαν.
Η ανάπτυξη του Tweester ήταν εντατική δουλειά τριών μηνών, όμως πρόκειται για τη συνέχεια έρευνας που είχε γίνει σε βάθος χρόνων.
Το βραβευμένο σύστημα Tweester θα παρουσιαστεί στο San Diego στις 16-17 Ιουνίου στα πλαίσια του διεθνούς συνεδρίου NAACL (http://naacl.org/naacl-hlt-2016/)
Share