1. Debugging

Training neural networks is powerful but full of potential pitfalls. Here’s a comprehensive guide to common training problems and how to debug/fix

Check	Tip
Loss curve behavior	Plot training/val loss
Gradients	Check for zero or exploding grads
Model outputs	Print early predictions
Data	Visualize input samples and labels
Overfit 1 batch	Your model should fit it 100%
Logging	Use TensorBoard / wandb for tracking

Symptom	Likely Cause	Suggested Fix
Loss is flat	Data/label issue, learning rate too low	Check input/labels, increase LR
Loss = NaN	Exploding gradients, bad numerics	Clip gradients, switch activation/loss
High training, low val acc	Overfitting	Add dropout, regularization, more data
Training loss doesn’t decrease	Model too small, poor init	Increase capacity, try different init

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.tensorboard import SummaryWriter
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# Data
transform = transforms.Compose([transforms.ToTensor()])
trainset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
trainloader = DataLoader(trainset, batch_size=64, shuffle=True)

# Model
class SimpleNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(28*28, 128)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(x.size(0), -1)  # flatten
        x = self.relu(self.fc1(x))
        return self.fc2(x)

model = SimpleNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=1e-3)

# Logging
writer = SummaryWriter()

# Training loop
for epoch in range(5):
    running_loss = 0.0
    for i, (inputs, labels) in enumerate(trainloader):
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if i % 100 == 99:
            print(f"[{epoch + 1}, {i + 1}] loss: {running_loss / 100:.4f}")
            writer.add_scalar("Loss/train", running_loss / 100, epoch * len(trainloader) + i)
            running_loss = 0.0

writer.close()

1. Debugging

1. 🔍 Common Problems

1.1 📉 Training Loss Issues

🔍 Cause:

🛠️ Fix:

1.2 🧠 Model Overfitting

🔍 Cause:

🛠️ Fix:

1.3 🐢 Unstable Training

🔍 Cause:

🛠️ Fix:

1.4 🔁 Validation Accuracy Stuck

🔍 Cause:

🛠️ Fix:

1.5 📊 Unstable or NaN Loss

🔍 Cause:

🛠️ Fix:

1.6 ⚖️ Imbalanced Dataset

🔍 Cause:

🛠️ Fix:

1.7 👁️‍🗨️ Model Doesn’t Learn

🔍 Cause:

🛠️ Fix:

2. 🛠️ Debugging Strategies

2.1 ✅ What to Check?

2.2 🔄 Tools That Help

2.3 ✅ NN Debug Checklist

1. 📦 Before Training

2. ⚙️ During Training

3. 🔍 Debugging Signs

2.4 📋 PyTorch Template

🔎 What this does:

Enter Password

1. Debugging

1. 🔍 Common Problems

1.1 📉 Training Loss Issues

🔍 Cause:

🛠️ Fix:

1.2 🧠 Model Overfitting

🔍 Cause:

🛠️ Fix:

1.3 🐢 Unstable Training

🔍 Cause:

🛠️ Fix:

1.4 🔁 Validation Accuracy Stuck

🔍 Cause:

🛠️ Fix:

1.5 📊 Unstable or NaN Loss

🔍 Cause:

🛠️ Fix:

1.6 ⚖️ Imbalanced Dataset

🔍 Cause:

🛠️ Fix:

1.7 👁️‍🗨️ Model Doesn’t Learn

🔍 Cause:

🛠️ Fix:

2. 🛠️ Debugging Strategies

2.1 ✅ What to Check?

2.2 🔄 Tools That Help

2.3 ✅ NN Debug Checklist

1. 📦 Before Training

2. ⚙️ During Training

3. 🔍 Debugging Signs

2.4 📋 PyTorch Template

🔎 What this does: