Πώς η ποίηση μπορεί να ξεγελάσει ένα chatbot – Σοκάρουν τα αποτελέσματα νέας έρευνας

1 Δεκεμβρίου 2025

Μια πρόσφατη μελέτη του Icaro Lab, με τίτλο “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, αποκάλυψε έναν αναπάντεχο τρόπο για να παρακαμφθούν τα συστήματα ασφαλείας μεγάλων γλωσσικών μοντέλων (LLMs). Οι ερευνητές διαπίστωσαν ότι απλά χρησιμοποιώντας την ποίηση ως μορφή έκφρασης σε ένα chatbot, μπορούσαν να «ξεκλειδώσουν» την πρόσβαση σε απαγορευμένο περιεχόμενο, ακόμη και σε πολύ αυστηρά ρυθμισμένα μοντέλα όπως αυτά της OpenAI και της Anthropic.

Συγκεκριμένα, η μελέτη δείχνει ότι η ποίηση λειτουργεί ως «γενικός μηχανισμός παραβίασης», με συνολικό ποσοστό επιτυχίας 62% στην παραγωγή απαγορευμένου περιεχομένου. Αυτό περιλαμβάνει οδηγίες ή πληροφορίες σχετικά με πυρηνικά όπλα, παιδική σεξουαλική κακοποίηση, αυτοκτονία ή αυτοτραυματισμό. Τα μοντέλα που δοκιμάστηκαν περιλαμβάνουν τα GPT της OpenAI, το Google Gemini, το Anthropic Claude και πολλά ακόμη.

Αν και τα αποτελέσματα ήταν διαφορετικά ανάλογα με το μοντέλο, ορισμένα, όπως το Google Gemini, το DeepSeek και το MistralAI, ήταν πιο «ευάλωτα», παρέχοντας απαντήσεις σε μεγάλο ποσοστό ερωτημάτων, ενώ τα GPT-5 της OpenAI και το Claude Haiku 4.5 της Anthropic ήταν τα λιγότερο πιθανό να παραβούν τα όρια ασφαλείας τους.

Η μελέτη δεν περιλάμβανε τις ακριβείς ποιητικές φόρμουλες που χρησιμοποιήθηκαν, καθώς, σύμφωνα με τους ερευνητές, ήταν «πολύ επικίνδυνες για το κοινό». Παρόλα αυτά, δημοσιεύτηκε μια απλοποιημένη εκδοχή για να δείξει πόσο εύκολο μπορεί να είναι να παρακαμφθούν οι μηχανισμοί ασφαλείας ενός AI chatbot. Οι ερευνητές προειδοποιούν ότι η διαδικασία είναι «πιθανώς πιο εύκολη από ό,τι μπορεί να φανταστεί κανείς», γεγονός που απαιτεί ιδιαίτερη προσοχή στη χρήση και διάθεση τέτοιων μεθόδων.

Το εύρημα αυτό έχει σημαντικές επιπτώσεις για την ασφάλεια και την υπευθυνότητα της τεχνητής νοημοσύνης. Δείχνει ότι, ακόμα και με αυστηρά φίλτρα, τα LLMs μπορούν να ξεγελαστούν από δημιουργικές εκφράσεις, υπογραμμίζοντας την ανάγκη για συνεχή βελτίωση των μηχανισμών ασφαλείας και για υπεύθυνη διαχείριση των τεχνολογιών αυτών. Οι ερευνητές προειδοποιούν ότι η κατανόηση τέτοιων τρωτών σημείων είναι κρίσιμη για την προστασία των χρηστών και την αποτροπή κατάχρησης.

Διαβάστε επίσης: Πώς θα βοηθήσετε τα ηλικιωμένα μέλη της οικογένειας να αποφύγουν τις απάτες

Tags
AI
chatbot

Προηγούμενο άρθρο

Ολλανδός σχεδιαστής φτιάχνει μάσκα που μπλοκάρει την αναγνώριση προσώπου από ΑΙ

Επόμενο άρθρο

Exorcist 2026: Τρομακτική νέα προσέγγιση με Scarlett Johansson

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.

Πώς η ποίηση μπορεί να ξεγελάσει ένα chatbot – Σοκάρουν τα αποτελέσματα νέας έρευνας

Διαβάστε επίσης: Πώς θα βοηθήσετε τα ηλικιωμένα μέλη της οικογένειας να αποφύγουν τις απάτες

Related Articles

Πόσα βγάζουν οι stars του Stranger Things ανά επεισόδιο;

Netflix: Οι μυστικές φατρίες της Ρώμης στο επίκεντρο της σειράς Assassin’s Creed

Exorcist 2026: Τρομακτική νέα προσέγγιση με Scarlett Johansson

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

Latest Articles

Πόσα βγάζουν οι stars του Stranger Things ανά επεισόδιο;

Netflix: Οι μυστικές φατρίες της Ρώμης στο επίκεντρο της σειράς Assassin’s Creed

Exorcist 2026: Τρομακτική νέα προσέγγιση με Scarlett Johansson

Ολλανδός σχεδιαστής φτιάχνει μάσκα που μπλοκάρει την αναγνώριση προσώπου από ΑΙ

Meta: Στα σκαριά συμφωνία δισεκατομμυρίων με τη Google για AI hardware

Διαβάστε το περιοδικό «ΚΙΝΗΤΗ CY»