A chatGPT modell arra van kiképezve, hogy az előző szavak alapján megjósolja a következő szót egy mondatban, így képes koherens és nyelvtanilag helyes válaszokat generálni a lekérdezésekre. A transzformátor architektúrának nevezett technikát alkalmazza, amely arról ismert, hogy képes nagy mennyiségű adatot kezelni, és képes modellezni a mondatban lévő szavak közötti függőséget. Ez lehetővé teszi a ChatGPT számára, hogy pontosabb és kontextus szempontjából relevánsabb válaszokat generáljon.
A chatGPT modellt úgy képezték ki, hogy a felhasználó szándékai szerint működjön. A GPT-3 modell, amelyre a chatGPT-t fejlesztették, az emberi visszacsatolásból (RLHF) származó megerősítő tanulást alkalmazza. Ez a technika az emberi preferenciákat használja jutalomjelként, amelyet a GPT-modellek finomhangolására használnak. A megerősítő tanulás jutalmazási modelljének létrehozásához összehasonlító adatokat gyűjtünk. Az összehasonlító adatok két vagy több modellválaszt tartalmaznak minőség szerint rangsorolva. A rangsorolást a mesterséges intelligencia oktatói végzik a modell által írt üzenetek által generált válaszok alapján. A gereblyézés alapján a jutalommodelleket arra tanítják, hogy válaszoljanak a bemeneti lekérdezésekre. A folyamat az 1. ábrán látható.