Thuật ngữ

ImageNet

Khám phá ImageNet, bộ dữ liệu đột phá thúc đẩy sự tiến bộ của công nghệ thị giác máy tính với hơn 14 triệu hình ảnh, hỗ trợ nghiên cứu, mô hình và ứng dụng AI.

ImageNet là một bộ dữ liệu khổng lồ, có thể truy cập công khai, gồm hơn 14 triệu hình ảnh được chú thích thủ công để chỉ ra các đối tượng được mô tả. Được sắp xếp theo hệ thống phân cấp WordNet , ImageNet chứa hơn 20.000 danh mục, với một danh mục điển hình, chẳng hạn như "bóng bay" hoặc "dâu tây", bao gồm hàng trăm hình ảnh. Bộ sưu tập rộng lớn và đa dạng này đã đóng vai trò quan trọng trong việc thúc đẩy các lĩnh vực thị giác máy tính (CV)học sâu (DL) , đóng vai trò là tiêu chuẩn cho việc đào tạo và đánh giá chuẩn các mô hình.

Việc các nhà nghiên cứu tại Đại học Stanford tạo ra ImageNet là một bước ngoặt quan trọng đối với trí tuệ nhân tạo (AI) . Trước ImageNet, các tập dữ liệu thường quá nhỏ để huấn luyện hiệu quả các mạng nơ-ron (NN) phức tạp, dẫn đến các vấn đề như quá khớp (overfitting ). ImageNet đã cung cấp quy mô cần thiết để huấn luyện các mô hình sâu, mở đường cho cuộc cách mạng AI hiện đại. Bạn có thể tìm hiểu thêm bằng cách đọc bài nghiên cứu gốc của ImageNet .

Thử thách nhận dạng hình ảnh quy mô lớn của Imagenet (ILSVRC)

Tầm ảnh hưởng của ImageNet được khuếch đại bởi Thử thách Nhận dạng Hình ảnh Quy mô Lớn ImageNet (ILSVRC) , một cuộc thi thường niên được tổ chức từ năm 2010 đến năm 2017. Thử thách này đã trở thành một chuẩn mực quan trọng để đánh giá hiệu suất của các thuật toán thị giác máy tính. Năm 2012, một mạng nơ-ron tích chập (CNN) có tên AlexNet đã đạt được một chiến thắng đột phá, vượt trội hơn đáng kể so với tất cả các mô hình trước đó. Thành công này đã chứng minh sức mạnh của học sâu và tính toán GPU, khơi mào một làn sóng đổi mới trong lĩnh vực này. ILSVRC là động lực chính trong sự phát triển của nhiều kiến trúc hiện đại, và bạn có thể xem hiệu suất của các mô hình ngày nay trên nhiều chuẩn mực khác nhau trên các trang web như Papers with Code .

Ứng dụng thực tế của Imagenet

Công dụng chính của ImageNet là làm tài nguyên cho các mô hình tiền huấn luyện. Bằng cách huấn luyện một mô hình trên tập dữ liệu khổng lồ này, nó học cách nhận dạng một tập hợp phong phú các đặc điểm trực quan. Kiến thức này sau đó có thể được chuyển giao cho các tác vụ mới, cụ thể hơn. Kỹ thuật này được gọi là học chuyển giao (transfer learning ).

  1. Phân tích hình ảnh y tế: Một mô hình được đào tạo trước trên ImageNet, chẳng hạn như mô hình Ultralytics YOLO , có thể được tinh chỉnh trên một tập dữ liệu quét y tế chuyên biệt, nhỏ hơn nhiều để phát hiện các tình trạng cụ thể như khối u. Việc đào tạo ban đầu trên ImageNet cung cấp nền tảng vững chắc về hiểu biết trực quan tổng quát, điều này rất quan trọng để đạt được độ chính xác cao trong các tác vụ phân tích hình ảnh y tế khi dữ liệu được gắn nhãn còn khan hiếm. Đây là một ứng dụng quan trọng của AI trong chăm sóc sức khỏe .
  2. Nhận dạng Sản phẩm Bán lẻ: Trong bán lẻ, các mô hình có thể được điều chỉnh để nhận dạng hàng ngàn sản phẩm khác nhau trên kệ, giúp quản lý hàng tồn kho tự động. Thay vì phải đào tạo từ đầu, một mô hình được đào tạo sẵn trên ImageNet có thể nhanh chóng được điều chỉnh cho phù hợp với các sản phẩm cụ thể của cửa hàng. Điều này giúp giảm nhu cầu về khối lượng lớn dữ liệu đào tạo tùy chỉnh và đẩy nhanh quá trình triển khai mô hình . Nhiều giải pháp AI mạnh mẽ trong bán lẻ tận dụng phương pháp này.

Imagenet so với các khái niệm liên quan

Điều quan trọng là phải phân biệt ImageNet với các thuật ngữ và tập dữ liệu liên quan khác:

  • ImageNet so với các tác vụ CV: Bản thân ImageNet là một tập dữ liệu —một tập hợp các hình ảnh được gắn nhãn. Nó không phải là một tác vụ. Thay vào đó, nó được sử dụng để huấn luyện và đánh giá các mô hình thực hiện các tác vụ như phân loại hình ảnh , trong đó một nhãn duy nhất được gán cho mỗi hình ảnh. Điều này khác với phát hiện đối tượng , bao gồm việc định vị các đối tượng bằng hộp giới hạn , hoặc phân đoạn hình ảnh , phân loại từng pixel trong một hình ảnh.
  • ImageNet so với COCO: Mặc dù ImageNet là tiêu chuẩn vàng cho phân loại, các bộ dữ liệu thị giác máy tính khác lại phù hợp hơn cho các tác vụ khác. Ví dụ, bộ dữ liệu COCO (Đối tượng Chung trong Bối cảnh) là chuẩn mực được ưa chuộng để phát hiện đối tượng và phân đoạn thực thể . Điều này là do COCO cung cấp các chú thích chi tiết hơn, chẳng hạn như hộp giới hạn và mặt nạ phân đoạn theo pixel cho nhiều đối tượng trong mỗi ảnh. Ngược lại, hầu hết ảnh ImageNet chỉ có một nhãn cấp ảnh duy nhất.

Các mô hình như YOLO11 thường được đào tạo trước trên ImageNet cho nền tảng phân loại của chúng trước khi được đào tạo trên COCO cho các tác vụ phát hiện. Quy trình đào tạo nhiều giai đoạn này tận dụng thế mạnh của cả hai tập dữ liệu. Bạn có thể xem các mô hình khác nhau so sánh như thế nào trên các điểm chuẩn này trên trang so sánh mô hình của chúng tôi. Mặc dù có ảnh hưởng lớn, nhưng cần lưu ý rằng ImageNet có những hạn chế, bao gồm các sai lệch tập dữ liệu đã biết, điều quan trọng cần xem xét từ góc độ đạo đức AI .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard