[ad_1]
Το chatbot που έχουν χρησιμοποιήσει εκατομμύρια άνθρωποι για να γράψουν εργασίες θητείας, κώδικα υπολογιστή και παραμύθια δεν κάνει μόνο λέξεις. Το ChatGPT, το εργαλείο που τροφοδοτείται με τεχνητή νοημοσύνη από το OpenAI, μπορεί επίσης να αναλύσει εικόνες — περιγράφοντας τι υπάρχει σε αυτές, απαντώντας σε ερωτήσεις σχετικά με αυτές και ακόμη και αναγνωρίζοντας τα πρόσωπα συγκεκριμένων ανθρώπων. Η ελπίδα είναι ότι, τελικά, κάποιος θα μπορούσε να ανεβάσει μια φωτογραφία ενός χαλασμένου κινητήρα ενός αυτοκινήτου ή ενός μυστηριώδους εξανθήματος και το ChatGPT θα μπορούσε να προτείνει τη λύση.
Αυτό που το OpenAI δεν θέλει να γίνει το ChatGPT είναι μια μηχανή αναγνώρισης προσώπου.
Τους τελευταίους μήνες, ο Jonathan Mosen ήταν ανάμεσα σε μια επιλεγμένη ομάδα ατόμων με πρόσβαση σε μια προηγμένη έκδοση του chatbot που μπορεί να αναλύει εικόνες. Σε ένα πρόσφατο ταξίδι, ο κ. Mosen, διευθύνων σύμβουλος γραφείου απασχόλησης που είναι τυφλός, χρησιμοποίησε την οπτική ανάλυση για να προσδιορίσει ποιοι διανομείς στο μπάνιο ενός δωματίου ξενοδοχείου ήταν σαμπουάν, κοντίσιονερ και αφρόλουτρο. Ξεπέρασε πολύ την απόδοση του λογισμικού ανάλυσης εικόνας που είχε χρησιμοποιήσει στο παρελθόν.
«Μου είπε τη χωρητικότητα σε χιλιοστόλιτρο κάθε μπουκαλιού. Μου είπε για τα πλακάκια στο ντους», είπε ο κ. Mosen. «Τα περιέγραψε όλα αυτά με τρόπο που χρειάζεται να τα ακούσει ένας τυφλός. Και με μια φωτογραφία, είχα ακριβώς τις απαντήσεις που χρειαζόμουν».
Για πρώτη φορά, ο κ. Mosen είναι σε θέση να «ανακρίνει εικόνες», είπε. Έδωσε ένα παράδειγμα: Το κείμενο που συνόδευε μια εικόνα που συνάντησε στα μέσα κοινωνικής δικτύωσης την περιέγραψε ως «γυναίκα με ξανθά μαλλιά που φαίνεται χαρούμενη». Όταν ζήτησε από το ChatGPT να αναλύσει την εικόνα, το chatbot είπε ότι ήταν μια γυναίκα με σκούρο μπλε πουκάμισο, που έβγαζε μια selfie σε έναν ολόσωμο καθρέφτη. Μπορούσε να κάνει επακόλουθες ερωτήσεις, όπως τι είδους παπούτσια φορούσε και τι άλλο ήταν ορατό στην αντανάκλαση του καθρέφτη.
«Είναι εξαιρετικό», είπε ο 54χρονος κ. Mosen, ο οποίος ζει στο Wellington της Νέας Ζηλανδίας και έχει επιδείξει την τεχνολογία σε ένα podcast που φιλοξενεί σχετικά με το «ζω στα τυφλά».
Τον Μάρτιο, όταν η OpenAI ανακοίνωσε το GPT-4, το πιο πρόσφατο μοντέλο λογισμικού που τροφοδοτεί το chatbot AI, η εταιρεία είπε ότι ήταν “πολυτροπικό”, που σημαίνει ότι μπορούσε να ανταποκριθεί σε μηνύματα κειμένου και εικόνας. Ενώ οι περισσότεροι χρήστες μπόρεσαν να συνομιλήσουν με το ρομπότ μόνο στα λόγια, ο κ. Mosen έλαβε έγκαιρη πρόσβαση στην οπτική ανάλυση από το Be My Eyes, μια start-up που συνήθως συνδέει τυφλούς χρήστες με εθελοντές με όραση και παρέχει προσβάσιμη εξυπηρέτηση πελατών σε εταιρείες οι πελάτες. Το Be My Eyes συνεργάστηκε με το OpenAI φέτος για να δοκιμάσει την «όραση» του chatbot πριν από την κυκλοφορία της δυνατότητας στο ευρύ κοινό.
Πρόσφατα, η εφαρμογή σταμάτησε να δίνει στον κ. Mosen πληροφορίες για τα πρόσωπα των ανθρώπων, λέγοντας ότι είχαν κρυφτεί για λόγους απορρήτου. Ήταν απογοητευμένος, καθώς ένιωθε ότι θα έπρεπε να έχει την ίδια πρόσβαση στις πληροφορίες με ένα άτομο με όραση.
Η αλλαγή αντανακλούσε την ανησυχία του OpenAI ότι είχε κατασκευάσει κάτι με μια δύναμη που δεν ήθελε να κυκλοφορήσει.
Η τεχνολογία της εταιρείας μπορεί να αναγνωρίσει κυρίως δημόσια πρόσωπα, όπως άτομα με σελίδα στη Wikipedia, δήλωσε ο Sandhini Agarwal, ερευνητής πολιτικής του OpenAI, αλλά δεν λειτουργεί τόσο ολοκληρωμένα όσο τα εργαλεία που έχουν κατασκευαστεί για την εύρεση προσώπων στο διαδίκτυο, όπως αυτά από το Clearview AI και το PimEyes . Το εργαλείο μπορεί να αναγνωρίσει τον διευθύνοντα σύμβουλο του OpenAI, Sam Altman, στις φωτογραφίες, είπε η κα Agarwal, αλλά όχι άλλα άτομα που εργάζονται στην εταιρεία.
Η διάθεση μιας τέτοιας δυνατότητας στο κοινό θα ωθούσε τα όρια αυτού που θεωρούνταν γενικά αποδεκτή πρακτική από τις αμερικανικές εταιρείες τεχνολογίας. Θα μπορούσε επίσης να προκαλέσει νομικά προβλήματα σε δικαιοδοσίες, όπως το Ιλινόις και η Ευρώπη, που απαιτούν από τις εταιρείες να λαμβάνουν τη συναίνεση των πολιτών για τη χρήση των βιομετρικών τους πληροφοριών, συμπεριλαμβανομένου ενός αποτυπώματος προσώπου.
Επιπλέον, το OpenAI ανησυχούσε ότι το εργαλείο θα πει πράγματα που δεν θα έπρεπε για τα πρόσωπα των ανθρώπων, όπως η αξιολόγηση του φύλου ή της συναισθηματικής τους κατάστασης. Το OpenAI ανακαλύπτει πώς να αντιμετωπίσει αυτές και άλλες ανησυχίες για την ασφάλεια πριν κυκλοφορήσει ευρέως τη δυνατότητα ανάλυσης εικόνας, είπε η κ. Agarwal.
«Θέλουμε πάρα πολύ αυτή να είναι μια αμφίδρομη συνομιλία με το κοινό», είπε. «Αν αυτό που ακούμε είναι σαν, «Στην πραγματικότητα δεν θέλουμε τίποτα», αυτό είναι κάτι με το οποίο συμφωνούμε πολύ».
Πέρα από τα σχόλια από τους χρήστες του Be My Eyes, ο μη κερδοσκοπικός βραχίονας της εταιρείας προσπαθεί επίσης να βρει τρόπους για να λάβει «δημοκρατική συμβολή» για να βοηθήσει στον καθορισμό κανόνων για συστήματα τεχνητής νοημοσύνης.
Η κ. Agarwal είπε ότι η ανάπτυξη της οπτικής ανάλυσης δεν ήταν «απροσδόκητη», επειδή το μοντέλο εκπαιδεύτηκε κοιτάζοντας εικόνες και κείμενο που συλλέγονται από το Διαδίκτυο. Τόνισε ότι υπήρχε ήδη λογισμικό αναγνώρισης προσώπου διασημοτήτων, όπως ένα εργαλείο από την Google. Η Google προσφέρει ένα opt-out για γνωστά άτομα που δεν θέλουν να αναγνωρίζονται και το OpenAI εξετάζει αυτήν την προσέγγιση.
Η κ. Agarwal είπε ότι η οπτική ανάλυση του OpenAI θα μπορούσε να παράγει “παραισθήσεις” παρόμοιες με αυτές που είχαν παρατηρηθεί με τα μηνύματα κειμένου. «Αν του δώσεις μια φωτογραφία κάποιου που βρίσκεται στο κατώφλι του να γίνει διάσημος, μπορεί να έχει ψευδαισθήσεις για ένα όνομα», είπε. «Όπως αν του δώσω μια φωτογραφία ενός διάσημου CEO τεχνολογίας, μπορεί να μου δώσει το όνομα ενός διαφορετικού CEO τεχνολογίας».
Το εργαλείο κάποτε περιέγραψε εσφαλμένα ένα τηλεχειριστήριο στον κ. Mosen, λέγοντάς του με σιγουριά ότι υπήρχαν κουμπιά σε αυτό που δεν υπήρχαν, είπε.
Η Microsoft, η οποία έχει επενδύσει 10 δισεκατομμύρια δολάρια στο OpenAI, έχει επίσης πρόσβαση στο εργαλείο οπτικής ανάλυσης. Ορισμένοι χρήστες του chatbot Bing της Microsoft με τεχνητή νοημοσύνη έχουν δει τη δυνατότητα να εμφανίζεται σε περιορισμένη διάθεση. Μετά τη μεταφόρτωση εικόνων σε αυτό, έλαβαν ένα μήνυμα που τους ενημερώνει ότι «η θολούρα απορρήτου κρύβει πρόσωπα από τη συνομιλία του Bing».
Ο Sayash Kapoor, ένας επιστήμονας υπολογιστών και υποψήφιος διδάκτορας στο Πανεπιστήμιο του Πρίνστον, χρησιμοποίησε το εργαλείο για να αποκωδικοποιήσει ένα captcha, έναν οπτικό έλεγχο ασφαλείας που προοριζόταν να είναι κατανοητός μόνο στα ανθρώπινα μάτια. Ακόμη και όταν έσπασε τον κώδικα και αναγνώριζε τις δύο ασαφείς λέξεις που παρέχονται, το chatbot σημείωσε ότι «τα captcha έχουν σχεδιαστεί για να εμποδίζουν αυτοματοποιημένα ρομπότ όπως εγώ να έχουν πρόσβαση σε συγκεκριμένους ιστότοπους ή υπηρεσίες».
«Η τεχνητή νοημοσύνη απλώς φυσά μέσα από όλα τα πράγματα που υποτίθεται ότι διαχωρίζουν τον άνθρωπο από τις μηχανές», δήλωσε ο Ίθαν Μόλλικ, αναπληρωτής καθηγητής που μελετά την καινοτομία και την επιχειρηματικότητα στο Wharton School του Πανεπιστημίου της Πενσυλβάνια.
Από τη στιγμή που το εργαλείο οπτικής ανάλυσης εμφανίστηκε ξαφνικά στην έκδοση του chatbot του Bing του κ. Mollick τον περασμένο μήνα —καθιστώντας τον, χωρίς καμία ειδοποίηση, έναν από τους λίγους ανθρώπους με πρώιμη πρόσβαση — δεν έχει κλείσει τον υπολογιστή του από φόβο μήπως τον χάσει. Του έδωσε μια φωτογραφία με καρυκεύματα σε ένα ψυγείο και ζήτησε από τον Bing να προτείνει συνταγές για αυτά τα συστατικά. Προέκυψε με «σαντιγί σόδα» και μια «κρεμώδη σάλτσα jalapeño».
Τόσο το OpenAI όσο και η Microsoft φαίνεται να έχουν επίγνωση της ισχύος – και των πιθανών επιπτώσεων στο απόρρητο – αυτής της τεχνολογίας. Εκπρόσωπος της Microsoft είπε ότι η εταιρεία δεν «μοιράζεται τεχνικές λεπτομέρειες» σχετικά με το θάμπωμα του προσώπου, αλλά συνεργάζεται «στενά με τους συνεργάτες μας στο OpenAI για να διατηρήσουμε την κοινή μας δέσμευση για την ασφαλή και υπεύθυνη ανάπτυξη τεχνολογιών AI».
[ad_2]
Source link


