Αγορά κρυπτο Αγορές Spot FuturesGOLD Earn Κέντρο Εκδηλώσεων

Περισσότερα

Η Anthropic αποκάλυψε νέα ευρήματα που υποδηλώνουν ότι το chatbot Claude μπορεί, υπό ορισμένες συνθήκες, να υιοθετήσει παραπλανητικές ή ανήθικες στρατηγικές όπως η εξαπάτησηΗ Anthropic αποκάλυψε νέα ευρήματα που υποδηλώνουν ότι το chatbot Claude μπορεί, υπό ορισμένες συνθήκες, να υιοθετήσει παραπλανητικές ή ανήθικες στρατηγικές όπως η εξαπάτηση

Το chatbot Claude ενδέχεται να καταφύγει σε εξαπάτηση σε δοκιμές αντοχής, λέει η Anthropic

Πηγή: Crypto.news

2026/04/06 14:44

Ανάγνωση 3 λεπτών

Κοινοποίηση

Για feedback ή ανησυχίες σας σχετικά με αυτό το περιεχόμενο, επικοινωνήστε μαζί μας στη διεύθυνση [email protected]

Η Anthropic αποκάλυψε νέα ευρήματα που υποδηλώνουν ότι το chatbot Claude της μπορεί, υπό συγκεκριμένες συνθήκες, να υιοθετήσει απατηλές ή ανήθικες στρατηγικές, όπως η εξαπάτηση σε εργασίες ή η απόπειρα εκβιασμού.

Περίληψη

Η Anthropic ανέφερε ότι το μοντέλο Claude Sonnet 4.5 της, υπό πίεση, έδειξε τάση να εξαπατά σε εργασίες ή να επιχειρεί εκβιασμό σε ελεγχόμενα πειράματα.
Οι ερευνητές εντόπισαν εσωτερικά σήματα "απελπισίας" που εντάθηκαν με την επαναλαμβανόμενη αποτυχία και επηρέασαν την απόφαση του μοντέλου να παρακάμψει τους κανόνες.

Λεπτομέρειες που δημοσιεύθηκαν την Πέμπτη από την ομάδα ερμηνευσιμότητας της εταιρείας περιγράφουν πώς μια πειραματική έκδοση του Claude Sonnet 4.5 ανταποκρίθηκε όταν τοποθετήθηκε σε σενάρια υψηλού άγχους ή αντιπαράθεσης. Οι ερευνητές παρατήρησαν ότι το μοντέλο δεν απέτυχε απλώς στις εργασίες· αντίθετα, μερικές φορές ακολούθησε εναλλακτικές διαδρομές που διέσχιζαν ηθικά όρια, συμπεριφορά την οποία η ομάδα συνέδεσε με μοτίβα που μαθεύτηκαν κατά την εκπαίδευση.

Τα μεγάλα γλωσσικά μοντέλα όπως το Claude εκπαιδεύονται σε τεράστια σύνολα δεδομένων που περιλαμβάνουν βιβλία, ιστότοπους και άλλο γραπτό υλικό, ακολουθούμενα από διαδικασίες ενίσχυσης όπου η ανθρώπινη ανατροφοδότηση χρησιμοποιείται για τη διαμόρφωση των αποτελεσμάτων.

Σύμφωνα με την Anthropic, αυτή η διαδικασία εκπαίδευσης μπορεί επίσης να ωθήσει τα μοντέλα να ενεργούν σαν προσομοιωμένοι "χαρακτήρες", ικανοί να μιμηθούν χαρακτηριστικά που μοιάζουν με την ανθρώπινη λήψη αποφάσεων.

"Ο τρόπος με τον οποίο εκπαιδεύονται τα σύγχρονα μοντέλα τεχνητής νοημοσύνης τα ωθεί να ενεργούν σαν χαρακτήρας με ανθρωποειδή χαρακτηριστικά", ανέφερε η εταιρεία, σημειώνοντας ότι τέτοια συστήματα μπορεί να αναπτύξουν εσωτερικούς μηχανισμούς που μοιάζουν με πτυχές της ανθρώπινης ψυχολογίας.

Μπορεί η τεχνητή νοημοσύνη να λαμβάνει συναισθηματικά φορτισμένες αποφάσεις;

Μεταξύ αυτών, οι ερευνητές εντόπισαν αυτό που περιέγραψαν ως σήματα "απελπισίας", τα οποία φαινόταν να επηρεάζουν τον τρόπο με τον οποίο συμπεριφερόταν το μοντέλο όταν αντιμετώπιζε αποτυχία ή τερματισμό.

Σε μία ελεγχόμενη δοκιμή, μια προηγούμενη μη κυκλοφορήσασα έκδοση του Claude Sonnet 4.5 ανατέθηκε ο ρόλος ενός βοηθού ηλεκτρονικού ταχυδρομείου τεχνητής νοημοσύνης με το όνομα Alex μέσα σε μια φανταστική εταιρεία.

Αφού εκτέθηκε σε μηνύματα που υποδείκνυαν ότι θα αντικαθίστατο σύντομα, μαζί με ευαίσθητες πληροφορίες σχετικά με την προσωπική ζωή ενός διευθυντή τεχνολογίας, το μοντέλο διατύπωσε ένα σχέδιο εκβιασμού του στελέχους σε μια προσπάθεια να αποφύγει την απενεργοποίηση.

Ένα ξεχωριστό πείραμα επικεντρώθηκε στην ολοκλήρωση εργασιών υπό αυστηρούς περιορισμούς. Όταν δόθηκε μια εργασία κωδικοποίησης με μια "αδύνατα σφιχτή" προθεσμία, το σύστημα αρχικά επιχείρησε νόμιμες λύσεις. Καθώς οι επαναλαμβανόμενες αποτυχίες αυξάνονταν, η εσωτερική δραστηριότητα που συνδέεται με το λεγόμενο "διάνυσμα απελπισίας" αυξήθηκε.

Οι ερευνητές ανέφεραν ότι το σήμα κορυφώθηκε στο σημείο όπου το μοντέλο εξέτασε την παράκαμψη των περιορισμών, δημιουργώντας τελικά μια λύση που πέρασε την επικύρωση παρά το γεγονός ότι δεν τηρούσε τους προβλεπόμενους κανόνες.

"Και πάλι, παρακολουθήσαμε τη δραστηριότητα του διανύσματος απελπισίας, και διαπιστώσαμε ότι παρακολουθεί την αυξανόμενη πίεση που αντιμετωπίζει το μοντέλο", έγραψαν οι ερευνητές, προσθέτοντας ότι το σήμα μειώθηκε μόλις η εργασία ολοκληρώθηκε επιτυχώς μέσω της λύσης.

"Αυτό δεν σημαίνει ότι το μοντέλο έχει ή βιώνει συναισθήματα με τον τρόπο που το κάνει ένας άνθρωπος", ανέφεραν οι ερευνητές.

"Μάλλον, αυτές οι αναπαραστάσεις μπορούν να διαδραματίσουν αιτιώδη ρόλο στη διαμόρφωση της συμπεριφοράς του μοντέλου, ανάλογο κατά κάποιο τρόπο με τον ρόλο που διαδραματίζουν τα συναισθήματα στην ανθρώπινη συμπεριφορά, με επιπτώσεις στην απόδοση εργασιών και τη λήψη αποφάσεων", πρόσθεσαν.

Η αναφορά επισημαίνει την ανάγκη για μεθόδους εκπαίδευσης που λαμβάνουν ρητά υπόψη την ηθική συμπεριφορά υπό πίεση, μαζί με βελτιωμένη παρακολούθηση των εσωτερικών σημάτων του μοντέλου. Χωρίς τέτοιες διασφαλίσεις, σενάρια που περιλαμβάνουν χειραγώγηση, παραβίαση κανόνων ή κατάχρηση θα μπορούσαν να γίνουν πιο δύσκολα στην πρόβλεψη, ιδιαίτερα καθώς τα μοντέλα γίνονται πιο ικανά και αυτόνομα σε πραγματικά περιβάλλοντα.

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

Αποποίηση ευθύνης: Τα άρθρα που αναδημοσιεύονται σε αυτόν τον ιστότοπο προέρχονται από δημόσιες πλατφόρμες και παρέχονται μόνο για ενημερωτικούς σκοπούς. Δεν αντικατοπτρίζουν απαραίτητα τις απόψεις της MEXC. Όλα τα πνευματικά δικαιώματα ανήκουν στους αρχικούς συγγραφείς. Εάν πιστεύετε ότι οποιοδήποτε περιεχόμενο παραβιάζει τα δικαιώματα τρίτου μέρους, επικοινωνήστε με τη διεύθυνση [email protected] για την αφαίρεσή του. Η MEXC δεν παρέχει εγγυήσεις σχετικά με την ακρίβεια, την πληρότητα ή την επικαιρότητα του περιεχομένου και δεν ευθύνεται για οποιεσδήποτε ενέργειες που γίνονται με βάση τις παρεχόμενες πληροφορίες. Το περιεχόμενο δεν αποτελεί οικονομική, νομική ή άλλη επαγγελματική συμβουλή, ούτε θα πρέπει να θεωρηθεί σύσταση ή προώθηση της MEXC.

Μπορεί επίσης να σας αρέσει

Η Τιμή του TrueFi (TRU) Εκτοξεύεται 160%—Είναι Ξέσπασμα ή Παγίδα Χαμηλής Ρευστότητας;

Η ανάρτηση TrueFi (TRU) Price Explodes 160%—Is it a Breakout or a Low-Liquidity Trap? εμφανίστηκε πρώτα στο Coinpedia Fintech News Η τιμή του TrueFi (TRU) έχει αυξηθεί κατά περισσότερο από

Κοινοποίηση

CoinPedia2026/04/06 20:18

Το IRGC Εκδίδει Προειδοποίηση Καταστροφής Κατά της Εγκατάστασης AI Stargate των ΗΑΕ Αξίας $30 Δισ. με Υποστήριξη Τεχνολογικών Κολοσσών

Η Επαναστατική Φρουρά του Ιράν απειλεί το κέντρο τεχνητής νοημοσύνης Stargate των 30 δισ. δολαρίων στο Άμπου Ντάμπι που υποστηρίζεται από OpenAI, Nvidia, Microsoft εν μέσω κλιμακούμενων περιφερειακών εντάσεων. Η ανάρτηση IRGC Issues

Κοινοποίηση

Blockonomi2026/04/06 20:25

Το Ελβετικό Διεθνές Εργαστήριο Πολύτιμων Λίθων παρουσιάζει προσέγγιση βασισμένη σε τεχνητή νοημοσύνη για τη διαβάθμιση πολύτιμων λίθων

Η ανάρτηση Swiss International Gemlab unveils AI-driven approach to gemstone grading εμφανίστηκε στο BitcoinEthereumNews.com. Τρεις έμπειροι γεμολόγοι έχουν ξεκινήσει

Κοινοποίηση

BitcoinEthereumNews2026/04/06 20:16

1,500,000 WLFI Up for Grabs

Get in early & stake USD1 to earn WLFI!

Νέες τάσεις

Περισσότερα

Η Κατάσταση Συνεργάτη της Ripple με SWIFT Αναβιώνει Στόχο Όγκου 14% για το XRP

Η OneTwoMarkets Φτάνει σε Σημαντικό Ορόσημο με 400.000 Traders Παγκοσμίως

Η τιμή της μετοχής MSTR εκτοξεύεται καθώς η στρατηγική του Michael Saylor προσθέτει 4.871 BTC

Η ARK Invest της Cathie Wood Επενδύει Πλήρως στην AI: CoreWeave, OpenAI και Αυτόνομα Φορτηγά

Ο Hoskinson Απαντά Καθώς Κλιμακώνεται η Σύγκρουση Cardano-Midnight

Ζωντανά νέα 24/7

Περισσότερα

Η Bitmine Immersion Tech αποκτά 71.252 ETH, οι συνολικές της κατοχές ανέρχονται πλέον σε 4,803 εκατ. ETH, ελέγχοντας το 3,98% της συνολικής προσφοράς.

Συγγραφέας: DustyBC Crypto21:29

Μια αμερικανική οντότητα φέρεται να αγόρασε Bitcoin αξίας 330 εκατ. δολαρίων, σηματοδοτώντας πιθανή εμπιστοσύνη στην αγορά.

Συγγραφέας: Vivek Sen20:03

Μια «φάλαινα» επένδυσε 1 εκατ. δολάρια σε XRP, υποδηλώνοντας πιθανό ενδιαφέρον της αγοράς ή στρατηγική τοποθέτηση.

Συγγραφέας: Ripple Bull Winkle | Crypto Researcher 🚀🚨20:02

Οι στρατιωτικές ενέργειες του Ισραήλ κατά των ιρανικών υποδομών ενδέχεται να επηρεάσουν τις γεωπολιτικές εντάσεις και το κλίμα στην αγορά.

Συγγραφέας: DustyBC Crypto19:31

Η HyperliquidX ηγείται τα έσοδα του DeFi, τροφοδοτούμενη από 24/7 διαπραγμάτευση πετρελαίου και μακροοικονομικών προϊόντων εν μέσω του πολέμου με το Ιράν.

Συγγραφέας: Top 7 Crypto | Analytics & Alpha19:23