6.4 C
Cyprus
Τρίτη, 2 Δεκεμβρίου, 2025
More

    Πώς η ποίηση μπορεί να ξεγελάσει ένα chatbot – Σοκάρουν τα αποτελέσματα νέας έρευνας

    Μια πρόσφατη μελέτη του Icaro Lab, με τίτλο “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, αποκάλυψε έναν αναπάντεχο τρόπο για να παρακαμφθούν τα συστήματα ασφαλείας μεγάλων γλωσσικών μοντέλων (LLMs). Οι ερευνητές διαπίστωσαν ότι απλά χρησιμοποιώντας την ποίηση ως μορφή έκφρασης σε ένα chatbot, μπορούσαν να «ξεκλειδώσουν» την πρόσβαση σε απαγορευμένο περιεχόμενο, ακόμη και σε πολύ αυστηρά ρυθμισμένα μοντέλα όπως αυτά της OpenAI και της Anthropic.

    Συγκεκριμένα, η μελέτη δείχνει ότι η ποίηση λειτουργεί ως «γενικός μηχανισμός παραβίασης», με συνολικό ποσοστό επιτυχίας 62% στην παραγωγή απαγορευμένου περιεχομένου. Αυτό περιλαμβάνει οδηγίες ή πληροφορίες σχετικά με πυρηνικά όπλα, παιδική σεξουαλική κακοποίηση, αυτοκτονία ή αυτοτραυματισμό. Τα μοντέλα που δοκιμάστηκαν περιλαμβάνουν τα GPT της OpenAI, το Google Gemini, το Anthropic Claude και πολλά ακόμη.

    Αν και τα αποτελέσματα ήταν διαφορετικά ανάλογα με το μοντέλο, ορισμένα, όπως το Google Gemini, το DeepSeek και το MistralAI, ήταν πιο «ευάλωτα», παρέχοντας απαντήσεις σε μεγάλο ποσοστό ερωτημάτων, ενώ τα GPT-5 της OpenAI και το Claude Haiku 4.5 της Anthropic ήταν τα λιγότερο πιθανό να παραβούν τα όρια ασφαλείας τους.

    Η μελέτη δεν περιλάμβανε τις ακριβείς ποιητικές φόρμουλες που χρησιμοποιήθηκαν, καθώς, σύμφωνα με τους ερευνητές, ήταν «πολύ επικίνδυνες για το κοινό». Παρόλα αυτά, δημοσιεύτηκε μια απλοποιημένη εκδοχή για να δείξει πόσο εύκολο μπορεί να είναι να παρακαμφθούν οι μηχανισμοί ασφαλείας ενός AI chatbot. Οι ερευνητές προειδοποιούν ότι η διαδικασία είναι «πιθανώς πιο εύκολη από ό,τι μπορεί να φανταστεί κανείς», γεγονός που απαιτεί ιδιαίτερη προσοχή στη χρήση και διάθεση τέτοιων μεθόδων.

    Το εύρημα αυτό έχει σημαντικές επιπτώσεις για την ασφάλεια και την υπευθυνότητα της τεχνητής νοημοσύνης. Δείχνει ότι, ακόμα και με αυστηρά φίλτρα, τα LLMs μπορούν να ξεγελαστούν από δημιουργικές εκφράσεις, υπογραμμίζοντας την ανάγκη για συνεχή βελτίωση των μηχανισμών ασφαλείας και για υπεύθυνη διαχείριση των τεχνολογιών αυτών. Οι ερευνητές προειδοποιούν ότι η κατανόηση τέτοιων τρωτών σημείων είναι κρίσιμη για την προστασία των χρηστών και την αποτροπή κατάχρησης.

    Διαβάστε επίσης: Πώς θα βοηθήσετε τα ηλικιωμένα μέλη της οικογένειας να αποφύγουν τις απάτες

    Related Articles

    ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

    εισάγετε το σχόλιό σας!
    παρακαλώ εισάγετε το όνομά σας εδώ

    Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.



    Latest Articles



    Διαβάστε το περιοδικό «ΚΙΝΗΤΗ CY»