Giới thiệu về LoRA – Low-Rank Adaptation
Tìm hiểu kỹ thuật LoRA (Low-Rank Adaptation) giúp tinh chỉnh mô hình ngôn ngữ lớn hiệu quả và tiết kiệm chi phí.
Như chúng ta đã biết, các Large Language Model (LLM - mô hình ngôn ngữ lớn) ngày nay có quy mô khổng lồ, khiến việc tinh chỉnh để phục vụ từng ứng dụng cụ thể trở nên tiêu tốn nhiều tài nguyên, vô cùng đắt đỏ, không giành cho người nghèo chúng ta.
Cách tiếp cận truyền thống là full fine-tuning, tức tinh chỉnh toàn bộ tham số của mô hình gốc để thích ứng với tác vụ mới. Tuy nhiên, phương pháp này không khả thi khi mô hình có hàng tỷ tham số, thậm chí là hàng trăm tỉ tham số.
Để giải quyết vấn đề này, các nhà nghiên cứu đã đề xuất một nhóm kỹ thuật mới gọi là parameter-efficient fine-tuning (PEFT), cho phép tinh chỉnh mô hình lớn với chi phí thấp hơn nhiều bằng cách chỉ điều chỉnh một tập con tham số.
Một trong các phương pháp PEFT nổi bật là LoRA – Low-Rank Adaptation. LoRA giữ cố định các trọng số đã được huấn luyện trước (freeze - đóng băng), và chỉ thêm các ma trận phân rã hạng thấp (low-rank decomposition matrices) vào mỗi lớp Transformer, để học phần hiệu chỉnh (∆W) thay vì tái huấn luyện toàn bộ mô hình.
Ngay sau đây, mình xin giới thiệu tóm tắt về LoRA dựa trên nội dung của paper gốc:
Bạn có thể tìm hiểu chi tiết hơn tại :
- 📄 Paper gốc: LoRA: Low-Rank Adaptation of Large Language Models