Thuật ngữ

Chưng cất kiến thức

Khám phá cách Knowledge Distillation nén các mô hình AI để suy luận nhanh hơn, cải thiện độ chính xác và hiệu quả triển khai thiết bị biên.

Chắt lọc Kiến thức là một kỹ thuật tối ưu hóa và nén mô hình trong học máy (ML), trong đó một mô hình "học viên" nhỏ gọn được huấn luyện để tái tạo hiệu suất của một mô hình "giáo viên" lớn hơn, phức tạp hơn. Ý tưởng cốt lõi là chuyển "kiến thức" từ mô hình giáo viên mạnh mẽ nhưng cồng kềnh sang mô hình học viên nhỏ gọn hơn, hiệu quả hơn. Điều này cho phép triển khai các mô hình có độ chính xác cao trong các môi trường hạn chế về tài nguyên, chẳng hạn như trên các thiết bị biên hoặc điện thoại di động, mà không làm giảm đáng kể hiệu suất. Quy trình này thu hẹp khoảng cách giữa các mô hình nghiên cứu quy mô lớn, hiện đại và việc triển khai mô hình thực tế, thiết thực.

Quá trình chưng cất kiến thức diễn ra như thế nào

Mô hình giáo viên, thường là một mạng nơ-ron lớn hoặc một tập hợp các mô hình, trước tiên được đào tạo trên một tập dữ liệu lớn để đạt được độ chính xác cao. Trong quá trình tinh lọc, mô hình học viên học bằng cách cố gắng bắt chước kết quả đầu ra của giáo viên. Thay vì chỉ học từ các nhãn thực tế trong dữ liệu đào tạo , học viên cũng được đào tạo trên phân phối xác suất đầy đủ của giáo viên cho mỗi dự đoán, thường được gọi là "nhãn mềm". Các nhãn mềm này cung cấp thông tin phong phú hơn so với "nhãn cứng" (câu trả lời đúng), vì chúng tiết lộ cách mô hình giáo viên "suy nghĩ" và khái quát hóa. Ví dụ: mô hình giáo viên có thể dự đoán hình ảnh một con mèo là "mèo" với độ tin cậy 90%, nhưng cũng gán các xác suất nhỏ cho "chó" (5%) và "cáo" (2%). Thông tin chi tiết này giúp mô hình học viên học hiệu quả hơn, thường dẫn đến khả năng khái quát hóa tốt hơn so với việc chỉ đào tạo trên các nhãn cứng. Kỹ thuật này là một phần quan trọng của bộ công cụ học sâu để tạo ra các mô hình hiệu quả.

Ứng dụng trong thế giới thực

Phương pháp chưng cất kiến thức được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau để giúp AI mạnh mẽ có thể tiếp cận được.

  1. Xử lý Ngôn ngữ Tự nhiên (NLP): Các mô hình ngôn ngữ lớn (LLM) như BERT cực kỳ mạnh mẽ nhưng lại quá lớn đối với nhiều ứng dụng. DistilBERT là một ví dụ điển hình về phiên bản rút gọn của BERT. Nó nhỏ hơn 40% và nhanh hơn 60% trong khi vẫn giữ được hơn 97% hiệu suất của BERT, phù hợp cho các tác vụ như phân tích cảm xúctrả lời câu hỏi trên thiết bị tiêu dùng.
  2. Thị giác Máy tính trên Thiết bị Biên: Trong thị giác máy tính , một mô hình lớn, độ chính xác cao để phân loại hình ảnh hoặc phát hiện đối tượng có thể được tinh chỉnh thành một mô hình nhỏ hơn. Điều này cho phép các tác vụ thị giác phức tạp, chẳng hạn như phát hiện người theo thời gian thực cho camera an ninh thông minh, chạy trực tiếp trên phần cứng có sức mạnh tính toán hạn chế, chẳng hạn như Raspberry Pi , cải thiện tốc độ và quyền riêng tư dữ liệu . Các mô hình YOLO của Ultralytics như YOLO11 có thể là một phần của các quy trình làm việc như vậy, nơi kiến thức từ các mô hình lớn hơn có thể cung cấp thông tin cho việc đào tạo các phiên bản nhỏ hơn, có thể triển khai.

Chưng cất kiến thức so với các kỹ thuật tối ưu hóa khác

Chưng cất Kiến thức có liên quan nhưng khác biệt với các kỹ thuật tối ưu hóa mô hình khác. Hiểu được sự khác biệt là chìa khóa để lựa chọn phương pháp phù hợp cho dự án của bạn, có thể được quản lý và triển khai thông qua các nền tảng như Ultralytics HUB .

  • Cắt tỉa Mô hình : Kỹ thuật này bao gồm việc loại bỏ các kết nối (trọng số) dư thừa hoặc ít quan trọng khỏi một mạng đã được huấn luyện để giảm kích thước của nó. Ngược lại, chưng cất huấn luyện một mạng hoàn toàn mới, nhỏ hơn từ đầu để bắt chước giáo viên.
  • Lượng tử hóa mô hình : Lượng tử hóa làm giảm độ chính xác số học của các trọng số mô hình (ví dụ: từ số thực 32 bit xuống số nguyên 8 bit). Điều này làm giảm kích thước mô hình và có thể tăng tốc độ tính toán trên phần cứng tương thích. Nó thay đổi biểu diễn của mô hình hiện có, trong khi chưng cất tạo ra một mô hình mới. Lượng tử hóa thường được sử dụng kết hợp với chưng cất hoặc cắt tỉa, và các mô hình có thể được xuất sang các định dạng như ONNX hoặc được tối ưu hóa bằng các công cụ như TensorRT .
  • Học chuyển giao : Phương pháp này bao gồm việc tái sử dụng các phần của mô hình được đào tạo trước (thường là xương sống trích xuất đặc trưng của nó) và sau đó tinh chỉnh nó trên một tập dữ liệu mới, nhỏ hơn. Mục tiêu là điều chỉnh mô hình hiện có cho phù hợp với một nhiệm vụ mới. Mặt khác, phương pháp chưng cất nhằm mục đích chuyển đổi hành vi dự đoán của giáo viên sang mô hình học sinh, vốn có thể có kiến trúc hoàn toàn khác.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard