Espinha dorsal
Descubra o papel dos backbones na aprendizagem profunda, explore as principais arquitecturas, como a ResNet e a ViT, e conheça as suas aplicações de IA no mundo real.
Um backbone é um componente central de um modelo de aprendizagem profunda, particularmente na visão computacional (CV). Funciona como a principal rede de extração de caraterísticas. A sua principal função é pegar em dados de entrada brutos, como uma imagem, e transformá-los num conjunto de caraterísticas de alto nível, ou mapas de caraterísticas, que podem ser utilizados para tarefas a jusante, como a deteção de objectos, a segmentação de imagens ou a classificação. Pode pensar-se na espinha dorsal como a parte da rede neural (NN) que aprende a "ver" e a compreender os padrões fundamentais - como arestas, texturas, formas e objectos - dentro de uma imagem.
Como funcionam os backbones
A espinha dorsal é normalmente uma Rede Neuronal Convolucional (CNN) profunda que foi pré-treinada num conjunto de dados de classificação de imagens em grande escala, como o ImageNet. Este processo de pré-treino, uma forma de aprendizagem por transferência, ensina a rede a reconhecer uma vasta biblioteca de caraterísticas visuais gerais. Ao criar um modelo para uma nova tarefa, os programadores utilizam frequentemente estas bases pré-treinadas em vez de começarem do zero. Esta abordagem reduz significativamente o tempo de formação e a quantidade de dados rotulados necessários, melhorando frequentemente o desempenho do modelo. As caraterísticas extraídas pelo backbone são depois passadas para o "pescoço" e a "cabeça" da rede, que efectuam o processamento adicional e geram o resultado final. A escolha da espinha dorsal envolve frequentemente um compromisso entre a exatidão, a dimensão do modelo e a latência da inferência, o que é crucial para obter um desempenho em tempo real.
Arquitecturas de backbone comuns
A conceção de backbones tem evoluído ao longo dos anos, com cada nova arquitetura a oferecer melhorias em termos de eficiência e desempenho. Algumas das arquitecturas de backbone mais influentes incluem:
- Redes residuais (ResNet): Introduzidos pela Microsoft Research, os modelos ResNet utilizam "ligações de salto" para permitir que a rede aprenda funções residuais. Esta inovação tornou possível treinar redes muito mais profundas sem sofrer do problema do gradiente de desaparecimento.
- EfficientNet: Desenvolvida pela Google AI, esta família de modelos utiliza um método de escalonamento composto para equilibrar uniformemente a profundidade, a largura e a resolução da rede. Isto resulta em modelos que são altamente precisos e computacionalmente eficientes.
- Transformador de visão (ViT): Adaptando a bem sucedida arquitetura Transformer da PNL à visão, os ViTs tratam uma imagem como uma sequência de manchas e utilizam a auto-atenção para captar o contexto global, oferecendo uma abordagem diferente em comparação com os campos receptivos locais das CNNs.
- CSPNet (Cross Stage Partial Network): Esta arquitetura, descrita no seu artigo original, melhora a aprendizagem através da integração de mapas de caraterísticas do início e do fim de uma fase da rede, o que melhora a propagação do gradiente e reduz os estrangulamentos computacionais. É um componente essencial em muitos modelos YOLO do Ultralytics.
Espinha dorsal vs. cabeça e pescoço
Numa arquitetura típica de deteção de objectos, o modelo é composto por três partes principais:
- Backbone: A sua função é efetuar a extração de caraterísticas da imagem de entrada, criando mapas de caraterísticas a várias escalas.
- O pescoço: Este componente situa-se entre a espinha dorsal e a cabeça. Aperfeiçoa e agrega os mapas de caraterísticas da espinha dorsal, combinando frequentemente caraterísticas de diferentes camadas para construir uma representação mais rica. Um exemplo comum é a Feature Pyramid Network (FPN).
- Cabeça de deteção: Esta é a parte final da rede, que utiliza as caraterísticas refinadas do pescoço e executa a tarefa de deteção propriamente dita. Prevê as caixas delimitadoras, as etiquetas de classe e as pontuações de confiança dos objectos na imagem.
A espinha dorsal é, portanto, a base sobre a qual o resto do modelo de deteção é construído. Modelos como o YOLOv8 e o YOLO11 integram backbones poderosos para garantir uma extração de caraterísticas de alta qualidade, o que é essencial para o seu desempenho de ponta em várias tarefas. Pode explorar diferentes comparações de modelos YOLO para ver como as escolhas de arquitetura afectam o desempenho.
Aplicações no mundo real
Os backbones são componentes fundamentais em inúmeras aplicações de IA:
- Condução autónoma: Os sistemas em carros autónomos dependem fortemente de backbones robustos (por exemplo, variantes ResNet ou EfficientNet) para processar a entrada de câmaras e sensores LiDAR. As caraterísticas extraídas permitem a deteção e classificação de veículos, peões, semáforos e linhas de faixa de rodagem, o que é crucial para uma navegação segura e para a tomada de decisões, como se vê em sistemas desenvolvidos por empresas como a Waymo.
- Análise de imagens médicas: Nas soluções de IA para os cuidados de saúde, os backbones são utilizados para analisar exames médicos como radiografias, TACs ou ressonâncias magnéticas. Por exemplo, um backbone como o DenseNet pode extrair caraterísticas de uma radiografia ao tórax para ajudar a detetar sinais de pneumonia ou de uma TAC para identificar potenciais tumores(investigação relevante em Radiologia: IA). Isto ajuda os radiologistas no diagnóstico e no planeamento do tratamento. Os modelos Ultralytics, como o YOLO11, podem ser adaptados a tarefas como a deteção de tumores, tirando partido de poderosos backbones.
Pode simplificar o processo de utilização de backbones poderosos para os seus próprios projectos, utilizando plataformas como o Ultralytics HUB, que simplifica a gestão de conjuntos de dados e a formação de modelos personalizados.