Glossário

Espinha dorsal

Descubra o papel dos backbones na aprendizagem profunda, explore as principais arquitecturas, como a ResNet e a ViT, e conheça as suas aplicações de IA no mundo real.

Um backbone é um componente central de um modelo de aprendizagem profunda, particularmente na visão computacional (CV). Funciona como a principal rede de extração de caraterísticas. A sua principal função é pegar em dados de entrada brutos, como uma imagem, e transformá-los num conjunto de caraterísticas de alto nível, ou mapas de caraterísticas, que podem ser utilizados para tarefas a jusante, como a deteção de objectos, a segmentação de imagens ou a classificação. Pode pensar-se na espinha dorsal como a parte da rede neural (NN) que aprende a "ver" e a compreender os padrões fundamentais - como arestas, texturas, formas e objectos - dentro de uma imagem.

Como funcionam os backbones

A espinha dorsal é normalmente uma Rede Neuronal Convolucional (CNN) profunda que foi pré-treinada num conjunto de dados de classificação de imagens em grande escala, como o ImageNet. Este processo de pré-treino, uma forma de aprendizagem por transferência, ensina a rede a reconhecer uma vasta biblioteca de caraterísticas visuais gerais. Ao criar um modelo para uma nova tarefa, os programadores utilizam frequentemente estas bases pré-treinadas em vez de começarem do zero. Esta abordagem reduz significativamente o tempo de formação e a quantidade de dados rotulados necessários, melhorando frequentemente o desempenho do modelo. As caraterísticas extraídas pelo backbone são depois passadas para o "pescoço" e a "cabeça" da rede, que efectuam o processamento adicional e geram o resultado final. A escolha da espinha dorsal envolve frequentemente um compromisso entre a exatidão, a dimensão do modelo e a latência da inferência, o que é crucial para obter um desempenho em tempo real.

Arquitecturas de backbone comuns

A conceção de backbones tem evoluído ao longo dos anos, com cada nova arquitetura a oferecer melhorias em termos de eficiência e desempenho. Algumas das arquitecturas de backbone mais influentes incluem:

Redes residuais (ResNet): Introduzidos pela Microsoft Research, os modelos ResNet utilizam "ligações de salto" para permitir que a rede aprenda funções residuais. Esta inovação tornou possível treinar redes muito mais profundas sem sofrer do problema do gradiente de desaparecimento.
EfficientNet: Desenvolvida pela Google AI, esta família de modelos utiliza um método de escalonamento composto para equilibrar uniformemente a profundidade, a largura e a resolução da rede. Isto resulta em modelos que são altamente precisos e computacionalmente eficientes.
Transformador de visão (ViT): Adaptando a bem sucedida arquitetura Transformer da PNL à visão, os ViTs tratam uma imagem como uma sequência de manchas e utilizam a auto-atenção para captar o contexto global, oferecendo uma abordagem diferente em comparação com os campos receptivos locais das CNNs.
CSPNet (Cross Stage Partial Network): Esta arquitetura, descrita no seu artigo original, melhora a aprendizagem através da integração de mapas de caraterísticas do início e do fim de uma fase da rede, o que melhora a propagação do gradiente e reduz os estrangulamentos computacionais. É um componente essencial em muitos modelos YOLO do Ultralytics.

Espinha dorsal vs. cabeça e pescoço

Numa arquitetura típica de deteção de objectos, o modelo é composto por três partes principais:

Backbone: A sua função é efetuar a extração de caraterísticas da imagem de entrada, criando mapas de caraterísticas a várias escalas.
O pescoço: Este componente situa-se entre a espinha dorsal e a cabeça. Aperfeiçoa e agrega os mapas de caraterísticas da espinha dorsal, combinando frequentemente caraterísticas de diferentes camadas para construir uma representação mais rica. Um exemplo comum é a Feature Pyramid Network (FPN).
Cabeça de deteção: Esta é a parte final da rede, que utiliza as caraterísticas refinadas do pescoço e executa a tarefa de deteção propriamente dita. Prevê as caixas delimitadoras, as etiquetas de classe e as pontuações de confiança dos objectos na imagem.

A espinha dorsal é, portanto, a base sobre a qual o resto do modelo de deteção é construído. Modelos como o YOLOv8 e o YOLO11 integram backbones poderosos para garantir uma extração de caraterísticas de alta qualidade, o que é essencial para o seu desempenho de ponta em várias tarefas. Pode explorar diferentes comparações de modelos YOLO para ver como as escolhas de arquitetura afectam o desempenho.

Aplicações no mundo real

Os backbones são componentes fundamentais em inúmeras aplicações de IA:

Condução autónoma: Os sistemas em carros autónomos dependem fortemente de backbones robustos (por exemplo, variantes ResNet ou EfficientNet) para processar a entrada de câmaras e sensores LiDAR. As caraterísticas extraídas permitem a deteção e classificação de veículos, peões, semáforos e linhas de faixa de rodagem, o que é crucial para uma navegação segura e para a tomada de decisões, como se vê em sistemas desenvolvidos por empresas como a Waymo.
Análise de imagens médicas: Nas soluções de IA para os cuidados de saúde, os backbones são utilizados para analisar exames médicos como radiografias, TACs ou ressonâncias magnéticas. Por exemplo, um backbone como o DenseNet pode extrair caraterísticas de uma radiografia ao tórax para ajudar a detetar sinais de pneumonia ou de uma TAC para identificar potenciais tumores(investigação relevante em Radiologia: IA). Isto ajuda os radiologistas no diagnóstico e no planeamento do tratamento. Os modelos Ultralytics, como o YOLO11, podem ser adaptados a tarefas como a deteção de tumores, tirando partido de poderosos backbones.

Pode simplificar o processo de utilização de backbones poderosos para os seus próprios projectos, utilizando plataformas como o Ultralytics HUB, que simplifica a gestão de conjuntos de dados e a formação de modelos personalizados.

Espinha dorsal

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

Como funcionam os backbones

Arquitecturas de backbone comuns

Espinha dorsal vs. cabeça e pescoço

Aplicações no mundo real

Ler mais nesta categoria

Explorar o GPT-5 da OpenAI: um sistema unificado inteligente

O Google AlphaEarth utiliza dados de observação para cartografia global

FastVLM: Apple apresenta o seu novo modelo de linguagem de visão rápida

Junte-se à comunidade Ultralytics