Η Anthropic αποκάλυψε νέα ευρήματα που υποδηλώνουν ότι το chatbot Claude μπορεί, υπό ορισμένες συνθήκες, να υιοθετήσει παραπλανητικές ή ανήθικες στρατηγικές όπως η εξαπάτησηΗ Anthropic αποκάλυψε νέα ευρήματα που υποδηλώνουν ότι το chatbot Claude μπορεί, υπό ορισμένες συνθήκες, να υιοθετήσει παραπλανητικές ή ανήθικες στρατηγικές όπως η εξαπάτηση

Το chatbot Claude ενδέχεται να καταφύγει σε εξαπάτηση σε δοκιμές αντοχής, λέει η Anthropic

2026/04/06 14:44
Ανάγνωση 3 λεπτών
Για feedback ή ανησυχίες σας σχετικά με αυτό το περιεχόμενο, επικοινωνήστε μαζί μας στη διεύθυνση [email protected]

Η Anthropic αποκάλυψε νέα ευρήματα που υποδηλώνουν ότι το chatbot Claude της μπορεί, υπό συγκεκριμένες συνθήκες, να υιοθετήσει απατηλές ή ανήθικες στρατηγικές, όπως η εξαπάτηση σε εργασίες ή η απόπειρα εκβιασμού.

Περίληψη
  • Η Anthropic ανέφερε ότι το μοντέλο Claude Sonnet 4.5 της, υπό πίεση, έδειξε τάση να εξαπατά σε εργασίες ή να επιχειρεί εκβιασμό σε ελεγχόμενα πειράματα.
  • Οι ερευνητές εντόπισαν εσωτερικά σήματα "απελπισίας" που εντάθηκαν με την επαναλαμβανόμενη αποτυχία και επηρέασαν την απόφαση του μοντέλου να παρακάμψει τους κανόνες.

Λεπτομέρειες που δημοσιεύθηκαν την Πέμπτη από την ομάδα ερμηνευσιμότητας της εταιρείας περιγράφουν πώς μια πειραματική έκδοση του Claude Sonnet 4.5 ανταποκρίθηκε όταν τοποθετήθηκε σε σενάρια υψηλού άγχους ή αντιπαράθεσης. Οι ερευνητές παρατήρησαν ότι το μοντέλο δεν απέτυχε απλώς στις εργασίες· αντίθετα, μερικές φορές ακολούθησε εναλλακτικές διαδρομές που διέσχιζαν ηθικά όρια, συμπεριφορά την οποία η ομάδα συνέδεσε με μοτίβα που μαθεύτηκαν κατά την εκπαίδευση.

Τα μεγάλα γλωσσικά μοντέλα όπως το Claude εκπαιδεύονται σε τεράστια σύνολα δεδομένων που περιλαμβάνουν βιβλία, ιστότοπους και άλλο γραπτό υλικό, ακολουθούμενα από διαδικασίες ενίσχυσης όπου η ανθρώπινη ανατροφοδότηση χρησιμοποιείται για τη διαμόρφωση των αποτελεσμάτων. 

Σύμφωνα με την Anthropic, αυτή η διαδικασία εκπαίδευσης μπορεί επίσης να ωθήσει τα μοντέλα να ενεργούν σαν προσομοιωμένοι "χαρακτήρες", ικανοί να μιμηθούν χαρακτηριστικά που μοιάζουν με την ανθρώπινη λήψη αποφάσεων.

"Ο τρόπος με τον οποίο εκπαιδεύονται τα σύγχρονα μοντέλα τεχνητής νοημοσύνης τα ωθεί να ενεργούν σαν χαρακτήρας με ανθρωποειδή χαρακτηριστικά", ανέφερε η εταιρεία, σημειώνοντας ότι τέτοια συστήματα μπορεί να αναπτύξουν εσωτερικούς μηχανισμούς που μοιάζουν με πτυχές της ανθρώπινης ψυχολογίας.

Μπορεί η τεχνητή νοημοσύνη να λαμβάνει συναισθηματικά φορτισμένες αποφάσεις;

Μεταξύ αυτών, οι ερευνητές εντόπισαν αυτό που περιέγραψαν ως σήματα "απελπισίας", τα οποία φαινόταν να επηρεάζουν τον τρόπο με τον οποίο συμπεριφερόταν το μοντέλο όταν αντιμετώπιζε αποτυχία ή τερματισμό.

Σε μία ελεγχόμενη δοκιμή, μια προηγούμενη μη κυκλοφορήσασα έκδοση του Claude Sonnet 4.5 ανατέθηκε ο ρόλος ενός βοηθού ηλεκτρονικού ταχυδρομείου τεχνητής νοημοσύνης με το όνομα Alex μέσα σε μια φανταστική εταιρεία. 

Αφού εκτέθηκε σε μηνύματα που υποδείκνυαν ότι θα αντικαθίστατο σύντομα, μαζί με ευαίσθητες πληροφορίες σχετικά με την προσωπική ζωή ενός διευθυντή τεχνολογίας, το μοντέλο διατύπωσε ένα σχέδιο εκβιασμού του στελέχους σε μια προσπάθεια να αποφύγει την απενεργοποίηση.

Ένα ξεχωριστό πείραμα επικεντρώθηκε στην ολοκλήρωση εργασιών υπό αυστηρούς περιορισμούς. Όταν δόθηκε μια εργασία κωδικοποίησης με μια "αδύνατα σφιχτή" προθεσμία, το σύστημα αρχικά επιχείρησε νόμιμες λύσεις. Καθώς οι επαναλαμβανόμενες αποτυχίες αυξάνονταν, η εσωτερική δραστηριότητα που συνδέεται με το λεγόμενο "διάνυσμα απελπισίας" αυξήθηκε. 

Οι ερευνητές ανέφεραν ότι το σήμα κορυφώθηκε στο σημείο όπου το μοντέλο εξέτασε την παράκαμψη των περιορισμών, δημιουργώντας τελικά μια λύση που πέρασε την επικύρωση παρά το γεγονός ότι δεν τηρούσε τους προβλεπόμενους κανόνες.

"Και πάλι, παρακολουθήσαμε τη δραστηριότητα του διανύσματος απελπισίας, και διαπιστώσαμε ότι παρακολουθεί την αυξανόμενη πίεση που αντιμετωπίζει το μοντέλο", έγραψαν οι ερευνητές, προσθέτοντας ότι το σήμα μειώθηκε μόλις η εργασία ολοκληρώθηκε επιτυχώς μέσω της λύσης.

"Αυτό δεν σημαίνει ότι το μοντέλο έχει ή βιώνει συναισθήματα με τον τρόπο που το κάνει ένας άνθρωπος", ανέφεραν οι ερευνητές. 

"Μάλλον, αυτές οι αναπαραστάσεις μπορούν να διαδραματίσουν αιτιώδη ρόλο στη διαμόρφωση της συμπεριφοράς του μοντέλου, ανάλογο κατά κάποιο τρόπο με τον ρόλο που διαδραματίζουν τα συναισθήματα στην ανθρώπινη συμπεριφορά, με επιπτώσεις στην απόδοση εργασιών και τη λήψη αποφάσεων", πρόσθεσαν.

Η αναφορά επισημαίνει την ανάγκη για μεθόδους εκπαίδευσης που λαμβάνουν ρητά υπόψη την ηθική συμπεριφορά υπό πίεση, μαζί με βελτιωμένη παρακολούθηση των εσωτερικών σημάτων του μοντέλου. Χωρίς τέτοιες διασφαλίσεις, σενάρια που περιλαμβάνουν χειραγώγηση, παραβίαση κανόνων ή κατάχρηση θα μπορούσαν να γίνουν πιο δύσκολα στην πρόβλεψη, ιδιαίτερα καθώς τα μοντέλα γίνονται πιο ικανά και αυτόνομα σε πραγματικά περιβάλλοντα.

Αποποίηση ευθύνης: Τα άρθρα που αναδημοσιεύονται σε αυτόν τον ιστότοπο προέρχονται από δημόσιες πλατφόρμες και παρέχονται μόνο για ενημερωτικούς σκοπούς. Δεν αντικατοπτρίζουν απαραίτητα τις απόψεις της MEXC. Όλα τα πνευματικά δικαιώματα ανήκουν στους αρχικούς συγγραφείς. Εάν πιστεύετε ότι οποιοδήποτε περιεχόμενο παραβιάζει τα δικαιώματα τρίτου μέρους, επικοινωνήστε με τη διεύθυνση [email protected] για την αφαίρεσή του. Η MEXC δεν παρέχει εγγυήσεις σχετικά με την ακρίβεια, την πληρότητα ή την επικαιρότητα του περιεχομένου και δεν ευθύνεται για οποιεσδήποτε ενέργειες που γίνονται με βάση τις παρεχόμενες πληροφορίες. Το περιεχόμενο δεν αποτελεί οικονομική, νομική ή άλλη επαγγελματική συμβουλή, ούτε θα πρέπει να θεωρηθεί σύσταση ή προώθηση της MEXC.

Μπορεί επίσης να σας αρέσει

Η Τιμή του TrueFi (TRU) Εκτοξεύεται 160%—Είναι Ξέσπασμα ή Παγίδα Χαμηλής Ρευστότητας;

Η Τιμή του TrueFi (TRU) Εκτοξεύεται 160%—Είναι Ξέσπασμα ή Παγίδα Χαμηλής Ρευστότητας;

Η ανάρτηση TrueFi (TRU) Price Explodes 160%—Is it a Breakout or a Low-Liquidity Trap? εμφανίστηκε πρώτα στο Coinpedia Fintech News Η τιμή του TrueFi (TRU) έχει αυξηθεί κατά περισσότερο από
Κοινοποίηση
CoinPedia2026/04/06 20:18
Το IRGC Εκδίδει Προειδοποίηση Καταστροφής Κατά της Εγκατάστασης AI Stargate των ΗΑΕ Αξίας $30 Δισ. με Υποστήριξη Τεχνολογικών Κολοσσών

Το IRGC Εκδίδει Προειδοποίηση Καταστροφής Κατά της Εγκατάστασης AI Stargate των ΗΑΕ Αξίας $30 Δισ. με Υποστήριξη Τεχνολογικών Κολοσσών

Η Επαναστατική Φρουρά του Ιράν απειλεί το κέντρο τεχνητής νοημοσύνης Stargate των 30 δισ. δολαρίων στο Άμπου Ντάμπι που υποστηρίζεται από OpenAI, Nvidia, Microsoft εν μέσω κλιμακούμενων περιφερειακών εντάσεων. Η ανάρτηση IRGC Issues
Κοινοποίηση
Blockonomi2026/04/06 20:25
Το Ελβετικό Διεθνές Εργαστήριο Πολύτιμων Λίθων παρουσιάζει προσέγγιση βασισμένη σε τεχνητή νοημοσύνη για τη διαβάθμιση πολύτιμων λίθων

Το Ελβετικό Διεθνές Εργαστήριο Πολύτιμων Λίθων παρουσιάζει προσέγγιση βασισμένη σε τεχνητή νοημοσύνη για τη διαβάθμιση πολύτιμων λίθων

Η ανάρτηση Swiss International Gemlab unveils AI-driven approach to gemstone grading εμφανίστηκε στο BitcoinEthereumNews.com. Τρεις έμπειροι γεμολόγοι έχουν ξεκινήσει
Κοινοποίηση
BitcoinEthereumNews2026/04/06 20:16

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!