↓Skip to main content

🏢 Dalhousie University

Representation Noising: A Defence Mechanism Against Harmful Finetuning

26 September 2024·3502 words·17 mins· loading · loading

Natural Language Processing Large Language Models 🏢 Dalhousie University

RepNoise: a novel defense against harmful fine-tuning of LLMs by removing information about harmful representations, generalizing across different harmful tasks, and maintaining LLM capabilities.

DiffAug: A Diffuse-and-Denoise Augmentation for Training Robust Classifiers

26 September 2024·13127 words·62 mins· loading · loading

AI Generated Machine Learning Deep Learning 🏢 Dalhousie University

Boost classifier robustness with DiffAug, a novel diffusion-based augmentation method! One forward and reverse diffusion step enhances robustness against covariate shifts, adversarial examples, and o…