Πώς Λειτουργεί η AI Παραγωγής Περιεχομένου(Generative AI)

α συστήματα γεννητικής τεχνητής νοημοσύνης είναι συστήματα πρόβλεψης. Αυτό το άρθρο εξηγεί με απλή γλώσσα τα νευρωνικά δίκτυα και τα μεγάλα γλωσσικά μοντέλα (LLMs).

Σε αυτό το άρθρο θα δούμε:

Θέλετε να κατανοήσετε πώς λειτουργούν τα μεγάλα γλωσσικά μοντέλα (LLMs) χωρίς να μπλέξετε με περίπλοκα μαθηματικά; Διαβάστε παρακάτω για μια απλουστευμένη εξήγηση ενός εξαιρετικά πολύπλοκου τεχνικού θέματος. Χρησιμοποιώ μεταφορές για να δώσω έμφαση στην κατανόηση και όχι στην τεχνική ακρίβεια. Αν επιθυμείτε μια πιο λεπτομερή εξήγηση, η οποία επίσης απευθύνεται σε μη τεχνικό κοινό, σας προτείνω το άρθρο του Timothy B. Lee και του Sean Trott.

Γενική Επισκόπηση

Δεν θέλετε να διαβάσετε όλο το άρθρο; Εδώ είναι μια σύντομη περίληψη.

Τα μεγάλα γλωσσικά μοντέλα (LLMs) είναι πιθανοτικά συστήματα που προσπαθούν να προβλέψουν αλληλουχίες λέξεων. Αυτό κάνουν τα συστήματα γεννητικής τεχνητής νοημοσύνης (genAI) — κάνουν προβλέψεις λέξη προς λέξη στο πλαίσιο του κειμένου που τους δίνετε. Τα LLMs δεν είναι βάσεις δεδομένων γνώσεων· μοντελοποιούν στατιστικά το πώς οι λέξεις συνήθως εμφανίζονται μαζί βάσει των δεδομένων εκπαίδευσής τους.

Τα LLMs βασίζονται σε αρχιτεκτονική νευρωνικού δικτύου. Τα νευρωνικά δίκτυα είναι υπολογιστικά συστήματα που αποτελούνται από στρώματα “νευρώνων”. Κάθε νευρώνας εκτελεί μια απλή μαθηματική λειτουργία στις εισόδους του. Η έξοδος κάθε νευρώνα έχει ένα βάρος, δηλαδή πολλαπλασιάζεται με έναν αριθμό που καθορίζει τη σημασία της σε σχέση με τις εξόδους άλλων νευρώνων. Τα νευρωνικά δίκτυα εκπαιδεύονται με μεγάλες ποσότητες δεδομένων για να “μάθουν” τα βάρη που παράγουν τα καλύτερα αποτελέσματα.

Στα LLMs, οι λέξεις (ή τμήματα λέξεων) κωδικοποιούνται ως ενσωματώσεις λέξεων (word embeddings) — μια σειρά συντεταγμένων σε έναν πολυδιάστατο αφηρημένο χώρο, όπου οι λέξεις με παρόμοιο νόημα ή λειτουργία βρίσκονται κοντά η μία στην άλλη. Αυτή η αναπαράσταση επιτρέπει στην τεχνητή νοημοσύνη να “σκέφτεται” σχετικά με τις λέξεις εξετάζοντας τη σχετική απόσταση μεταξύ τους, έτσι ώστε να τις συναρμολογεί με νόημα βάσει του πλαισίου. Οι ενσωματώσεις λέξεων επίσης μαθαίνονται από τα LLMs κατά τη διάρκεια της εκπαίδευσής τους.

Αφού ένα σύστημα LLM εκπαιδευτεί, βελτιώνεται περαιτέρω με την τροφοδότηση δεδομένων συνομιλιών (όπου οι άνθρωποι έχουν γράψει τόσο το μέρος του “ανθρώπου” όσο και το μέρος της “AI”) και άλλων δεδομένων εκπαίδευσης. Στη συνέχεια, οι άνθρωποι αξιολογούν τα αποτελέσματα διαφόρων δοκιμαστικών σεναρίων, επιβραβεύοντας το σύστημα όταν ευθυγραμμίζεται με τις ανθρώπινες προσδοκίες.

Προβλεπτική Αλληλουχία και Όχι Μαγεία

Τα εργαλεία γεννητικής τεχνητής νοημοσύνης (genAI) είναι θεμελιωδώς μηχανές πρόβλεψης αλληλουχιών. Τι σημαίνει αυτό; Σε γενικές γραμμές, αυτά τα συστήματα συμπληρώνουν μια αλληλουχία με ό,τι είναι πιο πιθανό να εμφανιστεί.

Ένα Απλό Παράδειγμα Πρόβλεψης Αλληλουχίας

Ένα Απλό Παράδειγμα Πρόβλεψης Αλληλουχίας

Σκεφτείτε το γνωστό ιδίωμα: “It’s raining cats and ____.” Αν παρουσιάσετε αυτήν την ημιτελή φράση σε ένα σύστημα genAI, η απάντηση θα είναι πιθανότατα “dogs.” Αυτό συμβαίνει επειδή αυτό το μοτίβο (“raining cats and dogs”) εμφανίζεται συχνά στα γραπτά αγγλικά. Όταν εισάγετε ένα αίτημα σε ένα σύστημα όπως το ChatGPT, το Gemini ή το Claude, αυτό προσπαθεί να προβλέψει ποιες λέξεις θα ακολουθήσουν τις προτάσεις σας.

Σκεφτείτε το σαν ένα πιο πολύπλοκο παιχνίδι Mad Libs — υπάρχει ένα κενό σε μια πρόταση και το σύστημα θέλει να το συμπληρώσει με μια λέξη. Αντί να προσπαθεί να βρει μια γελοία λέξη για χιουμοριστικό αποτέλεσμα, τα συστήματα genAI στοχεύουν να παρέχουν την πιο πιθανή απάντηση.

Το γεγονός ότι αυτές οι τεχνητές νοημοσύνες τα καταφέρνουν τόσο καλά είναι εκπληκτικό. Η ανθρώπινη γλώσσα είναι αρκετά προβλέψιμη ώστε ένα σύστημα να συμπληρώνει τα κενά με πειστικό τρόπο, αλλά μόνο αφού έχει διαβάσει σχεδόν όλο το διαδίκτυο.

Από το Συμπλήρωμα Λέξεων σε Σύνθετες Απαντήσεις

Από το Συμπλήρωμα Λέξεων σε Σύνθετες Απαντήσεις

Αν τα συστήματα γεννητικής τεχνητής νοημοσύνης απλώς “παίζουν” ένα περίπλοκο παιχνίδι Mad Libs, πώς καταφέρνουν να δημιουργούν σύνθετες απαντήσεις ή να εκτελούν πλήρεις εργασίες; Η πρόβλεψη της επόμενης λέξης σε μια αλληλουχία που ήδη υπάρχει είναι αρκετά διαφορετική από τη δημιουργία μιας σχετικής απάντησης σε μια ερώτηση.

Τα LLMs δεν προσπαθούν απλώς να προβλέψουν την επόμενη λέξη (αν και αυτός είναι ο πυρήνας της διαδικασίας). Προσπαθούν να ολοκληρώσουν ολόκληρη τη συνομιλία, και αυτή η συνομιλία περιλαμβάνει και το αίτημά σας ως μέρος της. Η απάντηση είναι το “κενό” που υποτίθεται ότι πρέπει να συμπληρώσει η τεχνητή νοημοσύνη.

Τι Είναι το Νευρωνικό Δίκτυο;

Τι Είναι το Νευρωνικό Δίκτυο;

Τα LLMs είναι χτισμένα πάνω σε νευρωνικά δίκτυα. Αν φανταστούμε ότι ένα LLM είναι ο μαέστρος, το νευρωνικό δίκτυο είναι η ορχήστρα και οι μεμονωμένοι νευρώνες είναι οι μουσικοί. Κάθε μουσικός μπορεί να παίζει κάτι απλό από μόνος του, αλλά όταν συνεργάζονται σε συνδυασμούς που βγάζουν νόημα, παράγεται μια μελωδία ή αρμονία.

Τα νευρωνικά δίκτυα είναι υπολογιστικά συστήματα που εμπνέονται από τον τρόπο με τον οποίο λειτουργεί ο ανθρώπινος εγκέφαλος, αν και στην πράξη διαφέρουν αρκετά από τον βιολογικό εγκέφαλο. Χτίζουν στατιστικά μοντέλα για να προβλέπουν συγκεκριμένα αποτελέσματα βάσει ενός εισερχόμενου δεδομένου.

Πώς Αναπαρίστανται οι Λέξεις στα LLMs;

Πώς Αναπαρίστανται οι Λέξεις στα LLMs;

Όλες οι προηγούμενες αναφορές σχετικά με τα νευρωνικά δίκτυα περιέγραφαν μαθηματικές λειτουργίες, αλλά οι λέξεις δεν είναι αριθμοί. Πώς λοιπόν τα νευρωνικά δίκτυα χειρίζονται τις λέξεις;

Τα LLMs λειτουργούν με ενσωματώσεις λέξεων (word embeddings) — αναλυτικές διανυσματικές αναπαραστάσεις των λέξεων που λαμβάνουν υπόψη τα νοήματά τους και τις σχέσεις τους με άλλες λέξεις. Αυτές οι αναπαραστάσεις επιτρέπουν στα συστήματα να πραγματοποιούν υπολογισμούς για το πόσο παρόμοιες είναι δύο λέξεις.

Από τα μαθήματα γεωμετρίας που ίσως θυμάστε, ένα σημείο σε έναν δισδιάστατο χώρο μπορεί να αναπαρασταθεί με δύο αριθμούς (x, y) που αναφέρονται στους δύο άξονες. Αυτό είναι ένα παράδειγμα δισδιάστατου διανύσματος. Στη συνέχεια μπορούμε να κάνουμε διάφορους μαθηματικούς υπολογισμούς για να συγκρίνουμε πόσο μακριά είναι δύο σημεία σε αυτόν το δισδιάστατο χώρο.

Στη γλώσσα, όμως, τα πράγματα είναι πιο περίπλοκα. Τα LLMs δεν χρησιμοποιούν δισδιάστατο χώρο, αλλά εκατοντάδες ή και χιλιάδες διαστάσεις. Μια λέξη είναι ένα σημείο σε αυτόν τον πολυδιάστατο χώρο, και η απόσταση μεταξύ δύο λέξεων μπορεί να υπολογιστεί μαθηματικά, όπως στη γεωμετρία. Δύο λέξεις με παρόμοιο νόημα βρίσκονται κοντά η μία στην άλλη (και αντίστροφα).

Ας πάρουμε για παράδειγμα τη λέξη “νερό”. Το LLM θα μετατρέψει αυτή τη λέξη σε ένα διάνυσμα συντεταγμένων σε πολυδιάστατο χώρο, ώστε να μπορεί να εξετάσει πόσο μακριά είναι μια λέξη από μια άλλη. Έτσι, το “νερό” θα βρίσκεται κοντά στο “ωκεανός”, καθώς συχνά εμφανίζονται σε παρόμοια συμφραζόμενα. Το “άμμος” θα βρίσκεται κοντά στο “έρημος”.

Αν και η ακριβής σημασία κάθε διάστασης είναι ασαφής, ορισμένες διαστάσεις φαίνεται να σχετίζονται με γραμματικούς ή συντακτικούς σκοπούς (π.χ. ρήματα, ουσιαστικά), ενώ άλλες περιγράφουν το νόημα των λέξεων ή άλλα χαρακτηριστικά, όπως ο τόνος. Η δημιουργία αυτών των λεπτομερών ενσωματώσεων λέξεων είναι ένα βασικό μέρος της εκπαίδευσης των LLMs, καθώς επιτρέπει στην τεχνητή νοημοσύνη να επεξεργάζεται και να λειτουργεί με τη γλώσσα.

 

Η δημιουργία αυτών των λεπτομερών ενσωματώσεων λέξεων είναι ένα βασικό μέρος της εκπαίδευσης των LLMs,

Τι Είναι το Transformer;

Τα μεγάλα γλωσσικά μοντέλα (LLMs) χρησιμοποιούν συνήθως έναν ειδικό τύπο νευρωνικού δικτύου που ονομάζεται transformer (το T στο “GPT” σημαίνει “Generative Pre-Trained Transformer”).

Οι transformers είναι μια σχετικά πρόσφατη καινοτομία (παρουσιάστηκαν το 2017 από ερευνητές της Google στο διάσημο άρθρο τους “Attention Is All You Need”) και διαθέτουν δύο μεγάλα πλεονεκτήματα που οδήγησαν σε ραγδαίες εξελίξεις στις δυνατότητες της τεχνητής νοημοσύνης: ταχύτητα και κατανόηση του συμφραζομένου.

Ταχύτητα

Οι transformers απαιτούν λιγότερο χρόνο εκπαίδευσης σε σχέση με άλλες αρχιτεκτονικές νευρωνικών δικτύων, επειδή επεξεργάζονται εισόδους (π.χ. λέξεις) παράλληλα και όχι σειριακά. Οι προηγούμενες αρχιτεκτονικές νευρωνικών δικτύων (όπως τα αναδρομικά νευρωνικά δίκτυα) επεξεργάζονταν κάθε λέξη μία τη φορά, κάτι που ήταν χρονοβόρο.

Κατανόηση Συμφραζομένων

Οι transformers έχουν επίσης έναν μηχανισμό αυτό-προσοχής (self-attention). Αυτό σημαίνει ότι κάθε λέξη “γνωρίζει” όλες τις άλλες λέξεις στο κείμενο και πώς αυτές σχετίζονται. Αυτό επιτρέπει στο μοντέλο να δημιουργεί μια περίπλοκη και λεπτομερή κατανόηση των συντακτικών ή σημασιολογικών σχέσεων μεταξύ των λέξεων, ακόμη και όταν οι λέξεις βρίσκονται μακριά μεταξύ τους μέσα σε ένα μεγάλο κείμενο. Αυτή η ικανότητα κατανόησης του συμφραζομένου είναι μια μεγάλη καινοτομία — το παράθυρο του συμφραζομένου (που μοιάζει με την ανθρώπινη “εργαζόμενη μνήμη”) γίνεται πολύ μεγαλύτερο χάρη στον μηχανισμό αυτο-προσοχής.

Έτσι, τα συστήματα AI που βασίζονται σε transformers μπορούν να κάνουν περισσότερα από το να προβλέπουν την επόμενη λέξη σε μια αλληλουχία. Μπορούν να κατανοούν τις σχέσεις μεταξύ λέξεων σε ένα κείμενο και να διατηρούν πληροφορίες όπως το ποιος έκανε τι, ώστε να παράγουν μια συνεκτική και “ευφυή” απάντηση. Προηγούμενα συστήματα τεχνητής νοημοσύνης έχαναν συχνά αυτές τις πληροφορίες σε μεγαλύτερα κείμενα και έκαναν λάθη, μπερδεύοντας τις λεπτομέρειες.

πηγές

Baquero, Carlos. 2024. The energy footprint of humans and large language models. (June 2024). Retrieved Sep. 9, 2024 from https://cacm.acm.org/blogcacm/the-energy-footprint-of-humans-and-large-language-models/

Brown, Tom B. et al. 2020. Language models are few-shot learners. arXiv:2005.14165. Retrieved from https://arxiv.org/abs/2005.14165

Colis, Jaron. 2017. Glossary of deep learning: Word embedding. (April 18, 2017). Retrieved Sep. 9, 2024 from https://medium.com/deeper-learning/glossary-of-deep-learning-word-embedding-f90c3cec34ca

Lee, Timothy B. and Sean Trott. 2023. A jargon-free explanation of how AI large language models work. (July 2023). Retrieved Sep. 9, 2024 from https://arstechnica.com/science/2023/07/a-jargon-free-explanation-of-how-ai-large-language-models-work/

OpenAI. 2022. Introducing ChatGPT. (2022). Retrieved Sep. 9, 2024 from https://openai.com/index/chatgpt/

OpenAI. 2024. Learning to summarize with human feedback. (2020). Retrieved Sep. 9, 2024 from https://openai.com/index/learning-to-summarize-with-human-feedback/

OpenAI. 2024. OpenAI API Documentation. (2024). Retrieved Sep. 9, 2024 from https://platform.openai.com/docs/api-reference/chat/create#chat-create-temperature

Ouyang, Long et al. 2022. Training language models to follow instructions with human feedback. arXiv:2203.02155. Retrieved from https://arxiv.org/abs/2203.02155

Trott, Sean. 2024. “Mechanistic interpretability” for LLMS, explained. (July 2024). Retrieved Sep. 9, 2024 from https://seantrott.substack.com/p/mechanistic-interpretability-for

Trott, Sean. 2024. Tokenization in large language models. (MAy 2024). Retrieved Sep. 9, 2024 from https://seantrott.substack.com/p/tokenization-in-large-language-models

Vaswani, Ashish, et al. 2017. Attention is all you need. arXiv:1706.03762. Retrieved from https://arxiv.org/abs/1706.03762

Wei, J., et al. (2022). Finetuned language models are zero-shot learners. arXiv preprint arXiv:2203.02155. Retrieved from https://arxiv.org/abs/2109.01652

Wells, Sarah. 2023. Generative AI’s energy problem today is foundational. (October 2023). Retrieved Sep. 9, 2024 from https://spectrum.ieee.org/ai-energy-consumption

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Ain el sokhna.