Custom GPT-2 Model Implementation

Uploaded by

sid_hyd

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views2 pages

Custom GPT-2 Model Implementation

Uploaded by

sid_hyd

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

gpt.

md 2024-07-27

projection produce logits for the vocabulary, which can be used for text generation or computing the cross-
entropy loss if targets are provided.
Additionally, the class includes a from_pretrained method, allowing users to load pretrained weights
from Hugging Face models. This involves mapping and aligning parameters from the Hugging Face model to
the custom GPT-2 model, ensuring compatibility and functionality. Overall, the GPT class encapsulates the
architecture and operations needed to train and deploy a powerful language model.

class GPT([Link]):

def init(self, config):

super().__init__()
[Link] = config
[Link] = [Link](dict(
wte = [Link](config.vocab_size, config.n_embd),
wpe = [Link](config.block_size, config.n_embd),
h = [Link]([Block(config) for _ in
range(config.n_layer)]),
ln_f = [Link](config.n_embd),
))
self.lm_head = [Link](config.n_embd, config.vocab_size,
bias=False)
[Link] = self.lm_head.weight
# initialize the weights (use the code -
[Link]
[Link](self._init_weights)

# initialize the weights, taken from the original gpt2 model

def _init_weights(self, module):
if isinstance(module, [Link]):
std = 0.02
if hasattr(module, 'GPT_SCALE_UNIT'):
std *= (2 * [Link].n_layer) ** -0.5
[Link].normal_([Link], mean=0.0, std=0.02)
if [Link] is not None:
[Link].zeros_([Link])
if isinstance(module, [Link]):
[Link].normal_([Link], mean=0.0, std=0.02)

def forward(self, idx, targets=None):

B, T = [Link]()
assert T <= [Link].block_size, "Cannot forward, model block
size is exhausted"
pos = [Link](0, T, dtype=[Link], device=[Link]) #
(T)
pos_emb = [Link](pos)
tok_emb = [Link](idx)
x = tok_emb + pos_emb
for block in [Link].h:
x = block(x)
x = [Link].ln_f(x)
logits = self.lm_head(x) # (B, T, vocab_size)

5 / 11
[Link] 2024-07-27

loss = None
if targets is not None:
loss = F.cross_entropy([Link](-1, [Link](-1)),
[Link](-1)) # cross entropy loss
return logits, loss

@classmethod
def from_pretrained(cls, model_type):
"""Load pretrained model weights from Huggingface"""
assert model_type in {'gpt2', 'gpt2-medium', 'gpt2-large', 'gpt2-
xl'}
from transformers import GPT2LMHeadModel
print(f"Loading {model_type} weights...")

config_args = {
'gpt2': dict(n_layer=12, n_head=12, n_embd=768), # 124M Param
'gpt2-medium': dict(n_layer=24, n_head=16, n_embd=1024), #
350M Param
'gpt2-large': dict(n_layer=36, n_head=20, n_embd=1280), # 774M
Param
'gpt2-xl': dict(n_layer=48, n_head=25, n_embd=1600), # 1558M
Param
} [model_type]
config_args['vocab_size'] = 50257 # GPT2 vocab size
config_args['block_size'] = 1024 # GPT2 block size

config = GPTConfig(**config_args)
model = GPT(config)
sd = model.state_dict()
sd_keys = [Link]()
sd_keys = [k for k in sd_keys if not [Link]('.[Link]')]

model_hf = GPT2LMHeadModel.from_pretrained(model_type)
sd_hf = model_hf.state_dict()

sd_keys_hf = sd_hf.keys()
sd_keys_hf = [k for k in sd_keys_hf if not
[Link]('.attn.masked_bias')]
sd_keys_hf = [k for k in sd_keys_hf if not
[Link]('.[Link]')]
transposed = ['attn.c_attn.weight', 'attn.c_proj.weight',
'mlp.c_fc.weight', 'mlp.c_proj.weight']
assert len(sd_keys_hf) == len(sd_keys), f"mismatched keys:
{len(sd_keys_hf)} != {len(sd_keys)}"
for k in sd_keys_hf:
if any([Link](w) for w in transposed):
assert sd_hf[k].shape[::-1] == sd[k].shape
with torch.no_grad():
sd[k].copy_(sd_hf[k].t())
else:
assert sd_hf[k].shape == sd[k].shape
with torch.no_grad():
sd[k].copy_(sd_hf[k])

6 / 11

Causal Self-Attention in PyTorch
No ratings yet
Causal Self-Attention in PyTorch
10 pages
Karpathy MinGPT Model
No ratings yet
Karpathy MinGPT Model
7 pages
GPT-2 Model Architecture Overview
No ratings yet
GPT-2 Model Architecture Overview
2 pages
Integrating Hopfield Networks With Intuitional Data For Enhanced Pattern Recognition and Intuitive Decision-Making
No ratings yet
Integrating Hopfield Networks With Intuitional Data For Enhanced Pattern Recognition and Intuitive Decision-Making
14 pages
Building GPT-2 from Scratch in PyTorch
No ratings yet
Building GPT-2 from Scratch in PyTorch
13 pages
Deep Learning Lab Manual With Code
No ratings yet
Deep Learning Lab Manual With Code
10 pages
Def Set Random Seed (Seed)
No ratings yet
Def Set Random Seed (Seed)
29 pages
4 Implementing A GPT Model From Scratch To Generate Text - Build A Large Language Model (From Scratch)
No ratings yet
4 Implementing A GPT Model From Scratch To Generate Text - Build A Large Language Model (From Scratch)
52 pages
Visual Transformers
No ratings yet
Visual Transformers
26 pages
Code2pdf 67c73149b96ef
No ratings yet
Code2pdf 67c73149b96ef
4 pages
Medical Text Classifier GabrieldeOlaguibel
No ratings yet
Medical Text Classifier GabrieldeOlaguibel
12 pages
Pytorch Demo 1749471354
No ratings yet
Pytorch Demo 1749471354
10 pages
ANN Detection Technique
No ratings yet
ANN Detection Technique
20 pages
2B MultiLayer Perceptron Assignment
No ratings yet
2B MultiLayer Perceptron Assignment
3 pages
Astro AI
No ratings yet
Astro AI
20 pages
Transformer Flux
No ratings yet
Transformer Flux
11 pages
NLP 4
No ratings yet
NLP 4
10 pages
Intent Recognizer
No ratings yet
Intent Recognizer
5 pages
Perceptron Pytorch
No ratings yet
Perceptron Pytorch
3 pages
MAMBA
No ratings yet
MAMBA
5 pages
Final DL
No ratings yet
Final DL
26 pages
Mlp-Fromscratch Sigmoid-Mse
No ratings yet
Mlp-Fromscratch Sigmoid-Mse
13 pages
IBest DeepLearning
No ratings yet
IBest DeepLearning
123 pages
Expt 5 Expt 6
No ratings yet
Expt 5 Expt 6
10 pages
Assignment No 4
No ratings yet
Assignment No 4
8 pages
PyTorch ChatGLM Model Implementation
No ratings yet
PyTorch ChatGLM Model Implementation
20 pages
Project Source
No ratings yet
Project Source
21 pages
Deep Learning Lab
No ratings yet
Deep Learning Lab
7 pages
ML Unit-5
No ratings yet
ML Unit-5
14 pages
Building Your Deep Neural Network - Step by Step v8 PDF
No ratings yet
Building Your Deep Neural Network - Step by Step v8 PDF
44 pages
Deep Learning Lab Exercises
No ratings yet
Deep Learning Lab Exercises
56 pages
TensorFlow Assignment 1 Overview
No ratings yet
TensorFlow Assignment 1 Overview
4 pages
TXT
No ratings yet
TXT
7 pages
Train
No ratings yet
Train
13 pages
02 Pytorch Classification - Ipynb
No ratings yet
02 Pytorch Classification - Ipynb
348 pages
Val
No ratings yet
Val
9 pages
A Gentle Introduction To Neural Networks With Python
No ratings yet
A Gentle Introduction To Neural Networks With Python
85 pages
Neural Network Implementations
No ratings yet
Neural Network Implementations
9 pages
Deep Learning
No ratings yet
Deep Learning
46 pages
Deep Learning Manual
No ratings yet
Deep Learning Manual
53 pages
Deep Record
No ratings yet
Deep Record
44 pages
Ad3511 Deep Learning Lab Manual
No ratings yet
Ad3511 Deep Learning Lab Manual
80 pages
Deep Learning
No ratings yet
Deep Learning
30 pages
Neural Language Models & Classifiers Guide
No ratings yet
Neural Language Models & Classifiers Guide
7 pages
Intro to Neural Networks with Python
100% (1)
Intro to Neural Networks with Python
85 pages
Coding Attention Mechanisms
No ratings yet
Coding Attention Mechanisms
24 pages
ML Hota Assign5
No ratings yet
ML Hota Assign5
2 pages
Pgi20s02j - Lab Record
No ratings yet
Pgi20s02j - Lab Record
24 pages
Beginner's Guide to GPT-2 Training
No ratings yet
Beginner's Guide to GPT-2 Training
2 pages
PyTorch Cheat Sheet & Quick Reference
No ratings yet
PyTorch Cheat Sheet & Quick Reference
6 pages
Assignment 3 DS5620
No ratings yet
Assignment 3 DS5620
11 pages
Simple Neural Network - Ipynb
No ratings yet
Simple Neural Network - Ipynb
4 pages
Ilovepdf Merged
No ratings yet
Ilovepdf Merged
10 pages
PyTorch Neural Network Basics Guide
No ratings yet
PyTorch Neural Network Basics Guide
12 pages
Transfer Learning For Image Classification in Pytorch
No ratings yet
Transfer Learning For Image Classification in Pytorch
13 pages
Deep Learning - Lab - Manual
No ratings yet
Deep Learning - Lab - Manual
59 pages
Using Pre-Trained Models in Keras
No ratings yet
Using Pre-Trained Models in Keras
12 pages
Sandeep - CH Resume
No ratings yet
Sandeep - CH Resume
4 pages
Walking As Retreat Article
No ratings yet
Walking As Retreat Article
3 pages
TP Manual 2019R1
No ratings yet
TP Manual 2019R1
881 pages
A2 Flyers Listening Practice Guide
No ratings yet
A2 Flyers Listening Practice Guide
4 pages
Graphic Organizer - Activity Sheet in RWS - Selecting and Organizing Information
No ratings yet
Graphic Organizer - Activity Sheet in RWS - Selecting and Organizing Information
2 pages
Grade 4 Term 1-Research & Innovation Project 2024-2025
No ratings yet
Grade 4 Term 1-Research & Innovation Project 2024-2025
1 page
Grade 12 Computer Maintenance Plan
No ratings yet
Grade 12 Computer Maintenance Plan
2 pages
Year 8Z Reading: Shadow of the Minotaur
No ratings yet
Year 8Z Reading: Shadow of the Minotaur
7 pages
Trigonometry II - Review
No ratings yet
Trigonometry II - Review
6 pages
Ennoble Question Paper Computer Class 6
No ratings yet
Ennoble Question Paper Computer Class 6
3 pages
SHS 21st Century Module 2
95% (150)
SHS 21st Century Module 2
23 pages
Trimester II Exam Schedule 2024
No ratings yet
Trimester II Exam Schedule 2024
8 pages
2023 Ter Mod 2
No ratings yet
2023 Ter Mod 2
4 pages
Maharishi Markandeshwar (Deemed To Be University), Mullana (Ambala)
No ratings yet
Maharishi Markandeshwar (Deemed To Be University), Mullana (Ambala)
8 pages
Math Lesson PowerPoint
No ratings yet
Math Lesson PowerPoint
17 pages
AI in Self-Regulated Language Learning
No ratings yet
AI in Self-Regulated Language Learning
16 pages
Module 1 Living With It Era
No ratings yet
Module 1 Living With It Era
18 pages
AI Techniques: ImageNet, WaveNet, Word2Vec
No ratings yet
AI Techniques: ImageNet, WaveNet, Word2Vec
21 pages
Test Paper
No ratings yet
Test Paper
2 pages
Module 2 - Compute in The Cloud
No ratings yet
Module 2 - Compute in The Cloud
22 pages
Sid Resume Feb 11
No ratings yet
Sid Resume Feb 11
2 pages
Software Engeenring KL
No ratings yet
Software Engeenring KL
19 pages
Module 3 Developing The Gift of Prophecy
No ratings yet
Module 3 Developing The Gift of Prophecy
5 pages
ORACLE-BASE - Oracle Database 12c Release 1 (12
No ratings yet
ORACLE-BASE - Oracle Database 12c Release 1 (12
24 pages
Moving Hot Air Balloon
No ratings yet
Moving Hot Air Balloon
8 pages
Senior High School Final Grades Summary
No ratings yet
Senior High School Final Grades Summary
10 pages
P - Science - 3 - Language Worksheets - Unit 2
No ratings yet
P - Science - 3 - Language Worksheets - Unit 2
2 pages
Topic:: Explicit and Implicit Claims in A Text
No ratings yet
Topic:: Explicit and Implicit Claims in A Text
38 pages
Kitaab Al Wird Complete
No ratings yet
Kitaab Al Wird Complete
89 pages
Dell Purchase
No ratings yet
Dell Purchase
4 pages

Custom GPT-2 Model Implementation

Uploaded by

Custom GPT-2 Model Implementation

Uploaded by

gpt.

def __init__(self, config):

# initialize the weights, taken from the original gpt2 model

def forward(self, idx, targets=None):

You might also like

def init(self, config):