Xiaomi: Tεχνολογία ομιλίας για άτομα με διαταραχές λόγου

Η Xiaomi, η εταιρεία καταναλωτικών ηλεκτρονικών προϊόντων και έξυπνης παραγωγής, με συσκευές και έξυπνα κινητά συνδεδεμένα μέσω μιας πλατφόρμας ΙοΤ που βρίσκεται στον πυρήνα της, παρουσίασε την τελευταία της εφαρμογή προηγμένων αλγορίθμων και αυτοαναπτυσσόμενης τεχνολογίας ομιλίας στο πεδίο της προσβασιμότητας. Η τεχνολογία Text-to-Speech, η οποία αναπτύχθηκε από το Xiaomi AI Lab, χρησιμοποιείται για τη δημιουργία μιας μοναδικής και προσαρμοσμένης φωνής για χρήστες με διαταραχές λόγου.

Ο χρήστης μπορεί πλέον να επικοινωνεί με άλλα άτομα χρησιμοποιώντας τη «δική του φωνή» αντί για την τυποποιημένη ηλεκτρονική φωνή. Ως μέρος του προερευνητικού έργου “Own My Voice”, επικεφαλής του οποίου είναι η Xiaomi Technical Committee, η επιτυχημένη αυτή προσπάθεια καταδεικνύει τη δέσμευση της Xiaomi στο “Tech for Good” και την επίτευξη του στόχου της «να μπορεί όλο ο κόσμος να  απολαύσει μια καλύτερη ζωή μέσω καινοτόμων τεχνολογιών».

Γιατί η Xiaomi ξεκίνησε το έργο

H Xiaomi ενδιαφέρεται για τους ανθρώπους και προσπαθεί να καλύψει τις ποικίλες ανάγκες τους μέσω τεχνολογικών καινοτομιών. Στο πλαίσιο αυτό, ανακάλυψε την επιθυμία πολλών χρηστών με διαταραχές λόγου να αποκτήσουν τις δικές τους μοναδικές φωνές για την καθημερινή τους επικοινωνία και δημιούργησε την ομάδα “Own My Voice”, η οποία προσκάλεσε έναν χρήστη με διαταραχές λόγου να αποκτήσει τη δική του φωνή. Ο Zhu Xi, μέλος της Επιτροπής Τεχνολογίας του Tech for Good στη Xiaomi Corporation, δήλωσε: «Είμαστε ενθουσιασμένοι να εξερευνούμε πολλαπλές αξίες που μας προσφέρουν οι καινοτόμες τεχνολογίες, όπως η ανταπόκριση στις απαιτήσεις των χρηστών για την απόκτηση αλλά και τη δημιουργία της ταυτότητάς τους».

Πώς η Xiaomi υλοποίησε το συγκεκριμένο έργο

Για να είναι σε θέση να παρέχει την καταλληλότερη και πιο εξατομικευμένη φωνή στον αποδέκτη, η ομάδα του project συνεργάστηκε με περισσότερους από 200 εθελοντές μέσα στη Xiaomi οι οποίοι δάνεισαν τις φωνές τους. Στη συνέχεια, χρησιμοποίησαν τον αλγόριθμο αντιστοίχισης φωνητικού αποτυπώματος, ώστε τα στοιχεία της φωνής του εθελοντή να ταιριάξουν με εκείνα της φωνής του αποδέκτη. Μέσω αυτής της προσέγγισης, βρήκαν την καταλληλότερη φωνή ως βασικό ήχο αναφοράς φωνής για τον παραλήπτη. Θέλοντας να προστατέψουν την προστασία της ιδιωτικότητας, κάθε επιλεγμένη αληθινή φωνή επεξεργάστηκε με πολύπλοκα ακουστικά μέσα, προκειμένου να παραχθεί ένας νέος μοναδικός ήχος φωνής. Σε επόμενο στάδιο, χρησιμοποίησαν την τεχνολογία άμεσης απόκρισης Text-To-Speech technology για να εκπαιδεύσουν το μοντέλο AI, κάνοντας αυτή τη νέα φωνή να αποκτήσει σταδιακά έναν φυσικό ρυθμό και τονισμό που μπορεί να εκφράσει με ειλικρίνεια τα συναισθήματα και τον τόνο ενός ανθρώπου. Το πρόγραμμα “Own My Voice” συνδυάζει μια ποικιλία από τους πιο εξελιγμένους αλγόριθμους ομιλίας που έχει δημιουργήσει η Xiaomi για να εξασφαλίσει την ιδιαιτερότητα, την ασφάλεια και την υψηλή γνησιότητα της συνθετικής φωνής, δημιουργώντας μια νέα ιδέα για την προσαρμοσμένη σύνθεση ομιλίας για χρήστες με διαταραχές λόγου.

Ποια είναι η σημασία αυτού του έργου

Η ραχοκοκαλιά αυτού του έργου αποτελείται από μία ομάδα ειδικών στην τεχνολογία ομιλίας από το Xiaomi ΑΙ Lab. Από το 2017 έχουν δημοσιεύσει 37 μελέτες σχετικά με την ομιλία στα πρακτικά κορυφαίων διεθνών συνεδρίων, όπως το Διεθνές Συνέδριο Ακουστικής, Ομιλίας και Επεξεργασίας Σήματος (ICASSP). Η επιτυχία του “Own My Voice” βασίζεται κυρίως στην τεχνολογία Text-to-Speech που αναπτύχθηκε από την ομάδα. Το αυθόρμητο στυλ της τεχνολογίας Text-To-Speech ουσιαστικά κάνει τη συνθετική φωνή να ακούγεται σαν αληθινή στον τονισμό, την παύση, την ταχύτητα και άλλα χαρακτηριστικά της. Αυτό αντικαθιστά τη μονότονη και αφύσικη αίσθηση της ηλεκτρονικής φωνής με μία πιο φυσική. Μέχρι στιγμής, η τεχνολογία αυτή είναι διαθέσιμη σε πολλές έξυπνες συσκευές εξοπλισμένες με το XiaoAI, τον φωνητικό βοηθό AI της Xiaomi.

Το έργο “Own My Voice” δείχνει ότι η τεχνολογία Text-to-Speech μπορεί επίσης να υιοθετηθεί ευρέως σε τομείς προσβασιμότητας και να βελτιώσει την εμπειρία του χρήστη. O Zhu Xi πρόσθεσε: «Αν παρατηρήσουμε και καλύψουμε νωρίς τις ανάγκες των συνανθρώπων μας, η διαδικασία διάχυσης της τεχνολογίας θα μπορούσε να είναι σημαντικά πιο σύντομη. Αυτό δίνει τη δυνατότητα στα οφέλη των νέων τεχνολογιών να γίνουν προσβάσιμα σε ανθρώπους με αναπηρία χωρίς καμία καθυστέρηση».

Προχωρώντας μπροστά, η Xiaomi θα συνεχίσει να ακούει τα σχόλια κάθε παραλήπτη φωνής και θα μελετήσει την πιθανή επέκταση του έργου σε ένα ευρύτερο φάσμα. Η Xiaomi θα συνεχίσει να στηρίζει την προσβασιμότητα μέσω νέων τεχνολογιών, προσπαθώντας να ικανοποιήσει τις διαφορετικές ανάγκες των ανθρώπων μέσω της τεχνολογικής καινοτομίας.