Khám phá ImageNet, bộ dữ liệu đột phá thúc đẩy sự tiến bộ của công nghệ thị giác máy tính với hơn 14 triệu hình ảnh, hỗ trợ nghiên cứu, mô hình và ứng dụng AI.
ImageNet là một bộ dữ liệu khổng lồ, có thể truy cập công khai, gồm hơn 14 triệu hình ảnh được chú thích thủ công để chỉ ra các đối tượng được mô tả. Được sắp xếp theo hệ thống phân cấp WordNet , ImageNet chứa hơn 20.000 danh mục, với một danh mục điển hình, chẳng hạn như "bóng bay" hoặc "dâu tây", bao gồm hàng trăm hình ảnh. Bộ sưu tập rộng lớn và đa dạng này đã đóng vai trò quan trọng trong việc thúc đẩy các lĩnh vực thị giác máy tính (CV) và học sâu (DL) , đóng vai trò là tiêu chuẩn cho việc đào tạo và đánh giá chuẩn các mô hình.
Việc các nhà nghiên cứu tại Đại học Stanford tạo ra ImageNet là một bước ngoặt quan trọng đối với trí tuệ nhân tạo (AI) . Trước ImageNet, các tập dữ liệu thường quá nhỏ để huấn luyện hiệu quả các mạng nơ-ron (NN) phức tạp, dẫn đến các vấn đề như quá khớp (overfitting ). ImageNet đã cung cấp quy mô cần thiết để huấn luyện các mô hình sâu, mở đường cho cuộc cách mạng AI hiện đại. Bạn có thể tìm hiểu thêm bằng cách đọc bài nghiên cứu gốc của ImageNet .
Tầm ảnh hưởng của ImageNet được khuếch đại bởi Thử thách Nhận dạng Hình ảnh Quy mô Lớn ImageNet (ILSVRC) , một cuộc thi thường niên được tổ chức từ năm 2010 đến năm 2017. Thử thách này đã trở thành một chuẩn mực quan trọng để đánh giá hiệu suất của các thuật toán thị giác máy tính. Năm 2012, một mạng nơ-ron tích chập (CNN) có tên AlexNet đã đạt được một chiến thắng đột phá, vượt trội hơn đáng kể so với tất cả các mô hình trước đó. Thành công này đã chứng minh sức mạnh của học sâu và tính toán GPU, khơi mào một làn sóng đổi mới trong lĩnh vực này. ILSVRC là động lực chính trong sự phát triển của nhiều kiến trúc hiện đại, và bạn có thể xem hiệu suất của các mô hình ngày nay trên nhiều chuẩn mực khác nhau trên các trang web như Papers with Code .
Công dụng chính của ImageNet là làm tài nguyên cho các mô hình tiền huấn luyện. Bằng cách huấn luyện một mô hình trên tập dữ liệu khổng lồ này, nó học cách nhận dạng một tập hợp phong phú các đặc điểm trực quan. Kiến thức này sau đó có thể được chuyển giao cho các tác vụ mới, cụ thể hơn. Kỹ thuật này được gọi là học chuyển giao (transfer learning ).
Điều quan trọng là phải phân biệt ImageNet với các thuật ngữ và tập dữ liệu liên quan khác:
Các mô hình như YOLO11 thường được đào tạo trước trên ImageNet cho nền tảng phân loại của chúng trước khi được đào tạo trên COCO cho các tác vụ phát hiện. Quy trình đào tạo nhiều giai đoạn này tận dụng thế mạnh của cả hai tập dữ liệu. Bạn có thể xem các mô hình khác nhau so sánh như thế nào trên các điểm chuẩn này trên trang so sánh mô hình của chúng tôi. Mặc dù có ảnh hưởng lớn, nhưng cần lưu ý rằng ImageNet có những hạn chế, bao gồm các sai lệch tập dữ liệu đã biết, điều quan trọng cần xem xét từ góc độ đạo đức AI .