[ad_1]
Όπως ο Henry Higgins, ο φωνολόγος από το έργο του George Bernard Shaw «Πυγμαλίων», ο Marius Cotescu και ο Georgi Tinchev έδειξαν πρόσφατα πώς ο μαθητής τους προσπαθούσε να ξεπεράσει τις δυσκολίες στην προφορά.
Οι δύο επιστήμονες δεδομένων, που εργάζονται για την Amazon στην Ευρώπη, δίδασκαν την Alexa, τον ψηφιακό βοηθό της εταιρείας. Καθήκον τους: να βοηθήσουν την Alexa να μάθει αγγλικά με ιρλανδική προφορά με τη βοήθεια τεχνητής νοημοσύνης και ηχογραφήσεων από φυσικούς ομιλητές.
Κατά τη διάρκεια της διαδήλωσης, η Alexa μίλησε για μια αξέχαστη βραδινή έξοδο. «Το πάρτι χθες το βράδυ ήταν υπέροχο,» είπε η Alexa βουρκωμένη, χρησιμοποιώντας την ιρλανδική λέξη για διασκέδαση. «Πήραμε παγωτό στο δρόμο για το σπίτι και ήμασταν χαρούμενοι έξω».
Ο κύριος Τίντσεφ κούνησε το κεφάλι του. Η Alexa είχε ρίξει το “r” στο “party”, κάνοντας τη λέξη να ακούγεται επίπεδη, σαν pah-tee. Υπερβολικά Βρετανός, κατέληξε.
Οι τεχνολόγοι είναι μέρος μιας ομάδας στο Amazon που εργάζεται σε μια προκλητική περιοχή της επιστήμης δεδομένων, γνωστή ως αποσύνδεση φωνής. Είναι ένα δύσκολο ζήτημα που έχει αποκτήσει νέα συνάφεια εν μέσω ενός κύματος εξελίξεων τεχνητής νοημοσύνης, με τους ερευνητές να πιστεύουν ότι το παζλ ομιλίας και τεχνολογίας μπορεί να βοηθήσει να γίνουν οι συσκευές με τεχνητή νοημοσύνη, τα ρομπότ και οι συνθέτες ομιλίας πιο συνομιλητές – δηλαδή ικανοί να τραβήξουν ένα πλήθος τοπικών τόνους.
Η αντιμετώπιση της απεμπλοκής της φωνής περιλαμβάνει πολύ περισσότερα από την κατανόηση λεξιλογίου και σύνταξης. Ο τόνος, η χροιά και η προφορά ενός ομιλητή συχνά δίνουν στις λέξεις διαφοροποιημένο νόημα και συναισθηματικό βάρος. Οι γλωσσολόγοι αποκαλούν αυτό το χαρακτηριστικό της γλώσσας «προσωδία», κάτι που οι μηχανές δυσκολεύτηκαν να κατακτήσουν.
Μόνο τα τελευταία χρόνια, χάρη στην πρόοδο της τεχνητής νοημοσύνης, των τσιπ υπολογιστών και άλλου υλικού, οι ερευνητές έκαναν βήματα προόδου στην επίλυση του ζητήματος της απεμπλοκής της φωνής, μετατρέποντας την ομιλία που δημιουργείται από υπολογιστή σε κάτι πιο ευχάριστο για το αυτί.
Μια τέτοια εργασία μπορεί τελικά να συγκλίνει με μια έκρηξη «γεννητικής τεχνητής νοημοσύνης», μια τεχνολογία που επιτρέπει στα chatbots να δημιουργούν τις δικές τους απαντήσεις, είπαν οι ερευνητές. Τα ρομπότ συνομιλίας όπως το ChatGPT και το Bard ενδέχεται κάποια μέρα να ενεργήσουν πλήρως στις φωνητικές εντολές των χρηστών και να απαντήσουν προφορικά. Ταυτόχρονα, οι βοηθοί φωνής όπως η Alexa και το Siri της Apple θα γίνουν πιο συνομιλητές, δυνητικά αναζωπυρώνοντας το ενδιαφέρον των καταναλωτών για ένα τεχνολογικό τμήμα που φαινομενικά είχε σταματήσει, είπαν οι αναλυτές.
Η απόκτηση φωνητικών βοηθών όπως η Alexa, η Siri και ο Βοηθός Google να μιλούν πολλές γλώσσες ήταν μια δαπανηρή και παρατεταμένη διαδικασία. Οι εταιρείες τεχνολογίας έχουν προσλάβει φωνητικούς ηθοποιούς για να ηχογραφούν εκατοντάδες ώρες ομιλίας, κάτι που βοήθησε στη δημιουργία συνθετικών φωνών για ψηφιακούς βοηθούς. Τα προηγμένα συστήματα τεχνητής νοημοσύνης γνωστά ως “μοντέλα μετατροπής κειμένου σε ομιλία” – επειδή μετατρέπουν κείμενο σε συνθετική ομιλία με φυσικό ήχο – μόλις αρχίζουν να βελτιστοποιούν αυτή τη διαδικασία.
Η τεχνολογία «είναι πλέον σε θέση να δημιουργήσει ανθρώπινη φωνή και συνθετικό ήχο με βάση μια εισαγωγή κειμένου, σε διαφορετικές γλώσσες, προφορές και διαλέκτους», δήλωσε η Marion Laboure, ανώτερη στρατηγός της Deutsche Bank Research.
Η Amazon δέχεται πιέσεις για να προσεγγίσει ανταγωνιστές όπως η Microsoft και η Google στον αγώνα τεχνητής νοημοσύνης. Τον Απρίλιο, ο Andy Jassy, διευθύνων σύμβουλος της Amazon, είπε σε αναλυτές της Wall Street ότι η εταιρεία σχεδίαζε να κάνει την Alexa «ακόμη πιο ενεργητική και συνομιλητική» με τη βοήθεια της εξελιγμένης γενετικής τεχνητής νοημοσύνης και ο Rohit Prasad, επικεφαλής επιστήμονας της Amazon για την Alexa, είπε στο CNBC τον Μάιο ότι είδε τον φωνητικό βοηθό ως ένα «άμεσα διαθέσιμο, προσωπικό AI» με δυνατότητα φωνής
Η Irish Alexa έκανε το εμπορικό της ντεμπούτο τον Νοέμβριο, μετά από εννέα μήνες εκπαίδευσης στην κατανόηση μιας ιρλανδικής προφοράς και στη συνέχεια στην ομιλία της.
«Η προφορά είναι διαφορετική από τη γλώσσα», είπε ο κ. Prasad σε μια συνέντευξη. Οι τεχνολογίες τεχνητής νοημοσύνης πρέπει να μάθουν να αφαιρούν την προφορά από άλλα μέρη του λόγου, όπως τον τόνο και τη συχνότητα, προτού μπορέσουν να αναπαράγουν τις ιδιαιτερότητες των τοπικών διαλέκτων — για παράδειγμα, ίσως το «α» να είναι πιο επίπεδο και τα «τ» να προφέρονται πιο δυνατά.
Αυτά τα συστήματα πρέπει να καταλάβουν αυτά τα μοτίβα «ώστε να μπορείτε να συνθέσετε μια εντελώς νέα προφορά», είπε. “Αυτό είναι δύσκολο.”
Ο πιο δύσκολος ακόμα προσπαθούσε να κάνει την τεχνολογία να μάθει μια νέα προφορά σε μεγάλο βαθμό μόνη της, από ένα μοντέλο ομιλίας διαφορετικού ήχου. Αυτό προσπάθησε η ομάδα του κ. Cotescu στην κατασκευή της Irish Alexa. Βασίστηκαν σε μεγάλο βαθμό σε ένα υπάρχον μοντέλο ομιλίας κυρίως βρετανο-αγγλικών προφορών – με πολύ μικρότερο εύρος αμερικανικών, καναδικών και αυστραλιανών προφορών – για να το εκπαιδεύσουν να μιλά ιρλανδικά αγγλικά.
Η ομάδα αντιμετώπισε διάφορες γλωσσικές προκλήσεις της ιρλανδικής αγγλικής γλώσσας. Οι Ιρλανδοί τείνουν να ρίχνουν το “h” στο “th”, για παράδειγμα, προφέροντας τα γράμματα ως σκληρό “t” ή “d”, κάνοντας το “bath” να ακούγεται σαν “bat” ή ακόμα και “bad”. Τα ιρλανδικά αγγλικά είναι επίσης ροτικά, που σημαίνει ότι το “r” προφέρεται υπερβολικά. Αυτό σημαίνει ότι το “r” στο “πάρτι” θα είναι πιο ευδιάκριτο από αυτό που μπορεί να ακούσετε από το στόμα ενός Λονδρέζου. Η Alexa έπρεπε να μάθει αυτά τα χαρακτηριστικά ομιλίας και να τα κατακτήσει.
Τα ιρλανδικά αγγλικά, είπε ο κ. Cotescu, ο οποίος είναι Ρουμάνος και ήταν ο επικεφαλής ερευνητής στην ομάδα της Irish Alexa, «είναι σκληρά».
Τα μοντέλα ομιλίας που ενισχύουν τις λεκτικές δεξιότητες της Alexa έχουν εξελιχθεί περισσότερο τα τελευταία χρόνια. Το 2020, ερευνητές της Amazon έμαθαν στην Alexa να μιλάει άπταιστα ισπανικά από ένα μοντέλο που μιλάει αγγλικά.
Ο κ. Cotescu και η ομάδα είδαν τις προφορές ως το επόμενο όριο των δυνατοτήτων ομιλίας της Alexa. Σχεδίασαν την ιρλανδική Alexa για να βασίζεται περισσότερο στην τεχνητή νοημοσύνη παρά σε ηθοποιούς για να δημιουργήσουν το μοντέλο ομιλίας της. Ως αποτέλεσμα, η Ιρλανδή Alexa εκπαιδεύτηκε σε ένα σχετικά μικρό σώμα – περίπου 24 ώρες ηχογραφήσεων από φωνητικούς ηθοποιούς που απήγγειλαν 2.000 εκφράσεις στα αγγλικά με ιρλανδική προφορά.
Στην αρχή, όταν οι ερευνητές της Amazon έδωσαν τις ιρλανδικές ηχογραφήσεις στην ιρλανδική Alexa που μάθαινε ακόμη, συνέβησαν μερικά περίεργα πράγματα.
Τα γράμματα και οι συλλαβές κατά καιρούς έπεφταν από την απάντηση. Τα “S” μερικές φορές κολλούσαν μεταξύ τους. Μια ή δύο λέξεις, μερικές φορές κρίσιμες, μουρμούρισαν ανεξήγητα και ακατανόητα. Τουλάχιστον σε μία περίπτωση, η γυναικεία φωνή της Alexa έπεσε μερικές οκτάβες, ακούγοντας πιο αντρική. Ακόμη χειρότερα, η αντρική φωνή ακουγόταν ευδιάκριτα βρετανική, το είδος της βλακείας που θα μπορούσε να σηκώσει τα φρύδια σε ορισμένα ιρλανδικά σπίτια.
«Είναι μεγάλα μαύρα κουτιά», είπε ο κ. Tinchev, Βούλγαρος υπήκοος που είναι ο κύριος επιστήμονας της Amazon στο έργο, για τα μοντέλα ομιλίας. «Πρέπει να κάνεις πολύ πειραματισμό για να τα συντονίσεις».
Αυτό έκαναν οι τεχνολόγοι για να διορθώσουν το «πάρτι» της Alexa. Ξεμπέρδευαν την ομιλία, λέξη προς λέξη, φώνημα (το μικρότερο ακουστικό κομμάτι μιας λέξης) με φώνημα για να εντοπίσουν πού γλιστρούσε η Alexa και να τη συντονίσουν. Στη συνέχεια τροφοδότησαν το μοντέλο ομιλίας της Ιρλανδίας Alexa με περισσότερα ηχογραφημένα φωνητικά δεδομένα για να διορθώσουν την εσφαλμένη προφορά.
Το αποτέλεσμα: το «r» στο «πάρτι» επέστρεψε. Αλλά μετά το «p» εξαφανίστηκε.
Έτσι οι επιστήμονες δεδομένων πέρασαν ξανά την ίδια διαδικασία. Τελικά μηδενίστηκαν στο φώνημα που περιείχε το “p” που λείπει. Στη συνέχεια βελτίωσαν περαιτέρω το μοντέλο, έτσι ώστε ο ήχος “p” να επιστρέψει και το “r” να μην εξαφανιστεί. Η Alexa μάθαινε επιτέλους να μιλάει σαν Δουβλινιώτης.
Δύο Ιρλανδοί γλωσσολόγοι – η Elaine Vaughan, που διδάσκει στο Πανεπιστήμιο του Limerick, και η Kate Tallon, μια διδακτορική φοιτήτρια που εργάζεται στο Εργαστήριο Φωνητικής και Λόγου στο Trinity College του Δουβλίνου – έκτοτε έδωσαν υψηλές βαθμολογίες στην προφορά της Irish Alexa. Ο τρόπος με τον οποίο η ιρλανδική Alexa τόνιζε τα «r» και τα απαλύνει τα «t» ξεχώριζε, είπαν, και η Amazon πήρε την προφορά στο σύνολό της σωστά.
«Μου ακούγεται αυθεντικό», είπε η κ. Τάλον.
Οι ερευνητές της Amazon δήλωσαν ικανοποιημένοι από τα σε μεγάλο βαθμό θετικά σχόλια. Το ότι τα μοντέλα ομιλίας τους ξεμπέρδεψαν τόσο γρήγορα την ιρλανδική προφορά τους έδωσε ελπίδα ότι θα μπορούσαν να αναπαράγουν προφορές αλλού.
«Σκοπεύουμε επίσης να επεκτείνουμε τη μεθοδολογία μας σε προφορές γλώσσας εκτός των Αγγλικών», έγραψαν σε μια ερευνητική εργασία του Ιανουαρίου για το ιρλανδικό έργο Alexa.
[ad_2]
Source link


