Já passou quase um século desde que o astrónomo Fritz Zwicky calculou pela primeira vez a massa do Enxame de Cabeleira de Berenice, uma densa coleção de quase 1000 galáxias localizadas no Universo próximo.
Mas estimar a massa de algo tão grande e denso, que está a 320 milhões de anos-luz de distância, tem a sua quota-parte de problemas – então e agora. As medições iniciais de Zwicky, e as muitas feitas desde então, têm fontes de erros que enviesam a massa para cima ou para baixo.
Agora, utilizando ferramentas de aprendizagem de máquina, uma equipa liderada por físicos da Universidade Carnegie Mellon desenvolveu um método de aprendizagem profunda que estima com precisão a massa do Enxame de Cabeleira de Berenice e atenua eficazmente as fontes de erro.
“As pessoas têm feito estimativas da massa do Enxame de Cabeleira de Berenice há muitos, muitos anos. Mas ao mostrar que os nossos métodos de aprendizagem de máquina são consistentes com estas estimativas anteriores de massa, estamos a construir confiança nestes novos e muito poderosos métodos que estão atualmente muito em voga no campo da cosmologia”, disse Matthew Ho, um estudante do quinto ano do Centro McWilliams para Cosmologia do Departamento de Física e membro do Instituto de Planeamento de IA para Física do Futuro da NSF em Carnegie Mellon.
Os métodos de aprendizagem de máquina são utilizados com sucesso numa variedade de campos para encontrar padrões em dados complexos, mas só na última década é que ganharam uma posição de destaque na investigação cosmológica.
Para alguns investigadores na área, estes métodos vêm com uma grande preocupação: uma vez que é difícil compreender o funcionamento interno de um modelo complexo de aprendizagem de máquina, será que podemos confiar neles para fazer aquilo para que foram concebidos? Ho e os seus colegas propuseram-se a abordar estas reticências com a sua última investigação, publicada na revista Nature Astronomy.
Para calcular a massa do Enxame de Cabeleira de Berenice, Zwicky e outros utilizaram uma medição dinâmica da massa, na qual estudaram o movimento ou velocidade de objetos em órbita dentro e em redor do enxame galáctico e depois utilizaram a sua compreensão da gravidade para inferir a massa do enxame. Mas esta medição é suscetível a uma variedade de erros.
Os enxames de galáxias existem como nós numa enorme teia de matéria distribuída pelo Universo, e estão constantemente a colidir e a fundir-se uns com os outros, o que distorce o perfil de velocidade das galáxias constituintes. E tendo em conta que os astrónomos estão a observar o enxame a uma grande distância, há muitas outras coisas na distância que nos separa que podem parecer e agir como se fizessem parte do enxame de galáxias, o que pode distorcer a medição da massa.
Investigações recentes fizeram progressos no sentido de quantificar e contabilizar o efeito destes erros, mas os métodos baseados na aprendizagem de máquina fornecem uma abordagem inovadora baseada em dados, de acordo com Ho.
“O nosso método de aprendizagem profunda aprende com dados reais o que são medições úteis e o que não são”, disse Ho, acrescentando que o seu método elimina erros de galáxias intrusas (efeitos de seleção) e tem em conta várias formas galácticas (efeitos físicos). “A utilização destes métodos baseados em dados torna as nossas previsões melhores e automatizadas“.
“Uma das maiores falhas com as abordagens de aprendizagem de máquina padrão é que normalmente produzem resultados sem quaisquer incertezas”, acrescentou Hy Trac, professor associado de física, orientador de Ho. “O nosso método inclui estatísticas Bayesianas robustas, que nos permitem quantificar a incerteza nos nossos resultados”.
Ho e colegas desenvolveram o seu método inovador através da personalização de uma conhecida ferramenta de aprendizagem de máquina chamada rede neuronal convolucional, que é um tipo de algoritmo de aprendizagem profunda utilizado no reconhecimento de imagens. Os investigadores treinaram o seu modelo, alimentando-o com dados provenientes de simulações cosmológicas do Universo.
O modelo aprendeu através da observação das características observáveis de milhares de enxames de galáxias, cuja massa já é conhecida. Após uma análise aprofundada da manipulação dos dados de simulação pelo modelo, Ho aplicou-o a um sistema real – o Enxame de Cabeleira de Berenice – cuja verdadeira massa não é conhecida. O método de Ho calculou uma estimativa de massa que é consistente com a maioria das estimativas de massa feitas desde os anos 80. Isto marca a primeira vez que esta metodologia específica de aprendizagem de máquina foi aplicada a um sistema observacional.
“Para construir a fiabilidade dos modelos de aprendizagem de máquina, é importante validar as previsões do modelo em sistemas bem estudados, como o de Cabeleira de Berenice”, disse Ho. “Estamos atualmente a proceder a uma verificação mais rigorosa e extensiva do nosso método. Os resultados promissores são um passo forte para a aplicação do nosso método em dados novos e não estudados”.
Modelos como estes vão ser críticos daqui para a frente, especialmente quando levantamentos espectroscópicos em grande escala, como o DESI (Dark Energy Spectroscopic Instrument), o Observatório Vera C. Rubin e Euclides, começarem a divulgar a vasta quantidade de dados que estão a recolher do céu. “Em breve vamos ter um fluxo de dados à escala dos pentabytes“, explicou Ho.
“Isto é enorme. É impossível para os humanos analisarem isto à mão. À medida que trabalhamos na construção de modelos que podem estimar robustamente coisas como a massa enquanto mitigam as fontes de erro, outro aspeto importante é que precisam de ser computacionalmente eficientes se quisermos processar este enorme fluxo de dados destes novos levantamentos. E é exatamente isso que estamos a tentar abordar – utilizando a aprendizagem de máquina para melhorar as nossas análises e torná-las mais rápidas“.
// CCVAlg