Paano naitinurok ang Chat GPT?

Kung nakakakilala ka sa ChatGPT, marahil ay narinig mo na siya ay nakatnay sa isang malawak na corpus ng data. Pero ano nga ba talaga ang ibig sabihin nito? Sa artikulong ito, ating tatalakayin kung paano nga ba itinuturo ang ChatGPT sa mga detalye nito?”

Ang ChatGPT ay isang pre-trained na modelo sa pagbuo ng wika na ginawa sa pamamagitan ng pagkombina ng mga teknik na supervised at reinforcement learning. Ang proseso ng pagsasanay ng ChatGPT ay kinabibilangan ng pag-input ng isang malaking halaga ng mga teksto sa modelo at pag-aayos ng mga parameter nito upang makapaglikha ng mga teksto na katulad ng mga teksto sa pagsasanay na corpus.

Ginamit ang pamamaraang unsupervised learning sa prosesong ito, ibig sabihin, hindi direkta binibigyan ng feedback ang modelo kung tama o mali ang nakagawa nitong teksto. Sa halip, aayusin ng modelo ang kanyang mga parameter base sa posibilidad na ang nalikha nitong teksto ay katulad sa teksto sa nakalap na corpus sa pagsasanay.

Ang GPT-3, ang modelo ng magulang ng ChatGPT-3, ay isa sa mga pinakamalaking modelo ng wika na nakalikha, mayroong 175 bilyong mga parameter at isang konteksto ng 2048-token-long. Ito ay nasa pagsasanay sa daan-daang bilyong mga salita mula sa Common Crawl, WebText2, Books1/2, Wikipedia sa Ingles, at mga halimbawa ng code sa CSS, JSX, Python, at iba pang mga programming language.

Ang pamamaraang ginagamit sa pag-eensayo ng GPT-3 ay ang "generative pretraining," nangangahulugang ito ay hinubog upang masubaybayan ang susunod na token o salita sa input na pangungusap.

Pinakamahusay na alternatibo sa Chat GPT

Pagsasanay sa pagtuturo

Ang modelo ng ChatGPT ay fine-tuned sa pamamagitan ng isang proseso ng supervised learning ng mga tagapagturo. Ang mga tagapagturo ay nakikipag-usap at gumaganap bilang gumagamit at AI assistant.

Sila ay binigyan ng mga mungkahi mula sa modelo upang tulungan sila sa pagbuo ng kanilang mga sagot, na kasama rin ang InstructGPT dataset na na-convert sa format ng pakikipag-usap.

Pagpapalakas ng pag-aaral

Ang modelo ay pinaigting pa gamit ang reinforcement learning sa pamamagitan ng paggamit ng Proximal Policy Optimization (PPO). Ini-evaluate ng mga human trainers ang mga sagot na ginawa ng modelo sa nakaraang usapan at ginagamit ang mga evaluasyon na ito upang lumikha ng mga modelo ng gantimpala. Ang modelo ay saka naman pinapasok sa pagpapahusay gamit ang mga modelo ng gantimpala na ito.

Ang proseso ng pagpino ng detalye ay ginawa ilang beses upang makamit ang mas mahusay na pagganap. Ang mga algoritmo ng PPO ay cost-effective kumpara sa ibang mga algorithm at may mas mabilis na pagganap, na ginagawa silang mahusay para sa prosesong ito.

Patuloy na nagkakalap ng impormasyon ang OpenAI mula sa mga user na nakikipag-ugnayan sa ChatGPT, na maaaring magamit upang mapabuti at mapaayos pa ang modelo.

Mayroong opsyon para sa mga user na bumoto sa mga sagot ng ChatGPT sa pamamagitan ng pag-upvote o pag-downvote, at mayroon din silang pagkakataon na magbigay ng karagdagang feedback. Ginagamit ang data na ito upang mapaayos pa ang pagganap ng modelo at gawin itong mas mahusay sa paglikha ng tekstong tulad ng tao.

Mga Datos na Ginamit sa Pagturo sa Modelo

Ang ChatGPT-3 ay isang modelo ng wika na nakapagpakintay mula sa GPT-3.5 na serye, na naitreina gamit ang Azure AI supercomputing infrastructure. Ito ay naitreina sa maraming teksto na kinuha mula sa internet, na kasama ang mga libro, chat forums, artikulo, mga website, akademikong papel, code, at iba pa.

Ang corpus ng teksto na ginamit sa pagtre-train sa ChatGPT-3 ay may laki na higit sa 45Terabyte, na napakalaki at nakakatulong sa kakayahan ng modelo na mag-produce ng teksto na kahawig ng ginagawa ng isang mamamahayag o may-akda.

Paano naitataguyod ang Chat GPT?

Pagsasanay sa pagtuturo

Pagpapalakas ng pag-aaral

Mga Datos na Ginamit sa Pagturo sa Modelo

Mga Kaugnay na Artikulo