Image Captioning

completed

Public Summary

* The robust CNN-RNN Attention model utilizes ResNet-50 features, but consider enabling configurable fine-tuning of the final encoder layers. * Integrating `BertTokenizer` is effective; ensure the tokenizer's specific `pad_token_id` is consistently applied in the data collator and loss criteria. * The training script expertly incorporates Automatic Mixed Precision (AMP) via `GradScaler`, demonstrating adherence to modern PyTorch optimization practices. * Refactor hardcoded model dimensions and training hyperparameters currently scattered across `train.py` and `inference.py` into a single configuration file. * Strong separation of concerns is evident, partitioning the architecture, data loading, training loops, and inference into clean, reusable modules.

Details

Detailed description is only visible to project members.

General Skills Required

Jupyter Notebook

Python

Project Details

Public Project

Start date not set

Last updated 19 days ago

0 Member(s)

0 Open Role(s)