Defesa de tese de doutorado
Estudante: Erik Vinicius Rodrigues de Lima
Programa: Astronomia
Título: "Reconstrução da estrutura em larga escala do Universo utilizando redshifts fotométricos e técnicas de aprendizado de máquina"
Orientador: Prof. Dr. Laerte Sodré Junior
Comissão Julgadora:
Presidente da Banca: Prof. Dr. Laerte Sodré Junior - IAG/USP
- Profa. Dra. Cláudia Lucia Mendes de Oliveira - IAG/USP
- Prof. Dr. Gastão Cesar Bierrenbach Lima Neto - IAG/USP
- Dr. Clécio Roque de Bom – CBPF (por videoconferência)
- Prof. Dr. Valerio Marra - UFES (por videoconferência)
- Dr. Rafael Duarte Coelho dos Santos – INPE (por videoconferência)
Resumo:
Para compreender o nosso Universo, nós precisamos caracterizar e estudar as estruturas em larga escala (LSS) que o formam. Estas estruturas são compostas por aglomerados e filamentos de galáxias, vazios e paredes, e são distribuídas no espaço em uma estrutura em forma de teia, formando o que chamamos de Teia Cósmica. Visto que nossas observações do céu oferecem apenas uma visão bi-dimensional do Universo, é necessário estimar as distâncias aos objetos celestes de forma a obter uma visualização completa e detalhada em três dimensões da estrutura em larga escala que nos cerca. Os atuais mapeamentos de céu inteiro são baseados em fotometria, na qual a luz de um objeto é observada em um número de filtros, cada um cobrindo um intervalo específico de comprimentos de onda. É possível aproveitar essa informação fotométrica para a estimativa de uma medida de redshift mais rápida e eficiente, apesar de menos precisa, chamada de redshift fotométrico. Neste trabalho, nós desenvolvemos um algoritmo de aprendizado de máquina, usando uma arquitetura de mistura de densidades Bayesiana (BMDN), para estimar redshifts fotométricos e funções de densidade de probabilidade para o Southern Photometric Local Universe Survey (SPLUS). O SPLUS é um mapeamento com foco em observar o céu do hemisfério sul, e o lançamento de dados mais recente já mapeou mais de 4000 graus quadrados do céu, enquanto que o objetivo ao final do projeto é a observação de mais que 9000 graus quadrados. A informação fotométrica deste mapeamento é complementada pela fotometria do Galaxy Evolution Explorer (GALEX), do Vista Hemisphere Survey (VHS), e do projeto unWISE, que usa dados do Wide-field Infrared Survey Explorer (WISE), além de dados morfológicos provenientes do SPLUS. A junção destes dados permite uma grande cobertura em comprimentos de onda, do ultravioleta ao infravermelho médio. Dado que o nosso modelo é supervisionado, é preciso construir uma amostra de treinamento que contenha o valor que desejamos estimar, o redshift espectroscópico, e visto que uma amostra maior usualmente leva a uma melhor capacidade de generalização, nós criamos o que é, possivelmente, o maior compilado público de redshifts espectroscópicos do hemisfério sul, com dados de 1852 catálogos e mais de 8 milhões de objetos, dos quais 2.5 milhões são galáxias. Usando estes dados, nós treinamos nossos modelos com magnitudes, cores, e informação morfológica, e escolhemos a melhor abertura e hiper-parâmetros da rede usando um esquema de otimização Bayesiano com o pacote Optuna, do Python. Nós verificamos que nosso modelo treinado é capaz de predizer redshifts fotométricos de forma acurada e precisa, além de prover funções de densidade de probabilidade bem calibradas, através de uma análise detalhada usando diversas métricas de performance para ambos os casos. Também comparamos nossos resultados com aqueles obtidos através de outros métodos (Florestas Aleatórias, K-Vizinhos Próximos, e Regressão Bayesiana de Determinação Automática de Relevância) treinados nos mesmos dados, e com redshifts fotométricos do décimo oitavo lançamento de dados do Sloan Digital Sky Survey (SDSS) e do segundo lançamento de dados do DECam Local Volume Exploration Survey (DELVE), obtido para uma amostra de objetos na região da Stripe-82 dos quais nós também temos estimativas, e verificamos que o nosso modelo apresenta uma melhor performance tanto para estimativas de ponto único quanto para funções de densidade de probabilidade. Usando estes photo-zs como ponto de partida, e supondo que nossas estimativas correspondem à uma versão ruidosa de redshifts espectroscópicos, nós desenvolvemos outros modelos de rede neural com o objetivo de recuperar a estrutura em larga escala do Universo, como visto com dados espectroscópicos, usando apenas informação fotométrica. Para esta tarefa nós escolhemos modelos da família dos Autoencoders, geralmente utilizados para reduzir dimensionalidade e ruído, Modelos Probabilísticos de Redução de Ruído (DDPMs), que se tornaram o estado-da-arte para remoção de ruído em imagens, e Redes Neurais em Grafos (GNNs), que são capazes de aproveitar informação espacial e conexões entre amostras para obter estimativas mais precisas. Esta fase do nosso trabalho encontra-se atualmente em andamento. Para trabalhos futuros, nós planejamos continuar desenvolvendo os modelos de recuperação da LSS, implementar uma etapa de ajuste de templates durante o processo de treino do nosso modelo, efetivamente tornando-o um modelo "híbrido", tomando vantagem da maior precisão de modelos de aprendizado de máquina e a melhor capacidade de generalização do ajuste de templates, e usar as incertezas das magnitudes como entrada para o modelo, de forma que este seria treinado usando distribuições de magnitude ao invés de valores únicos. Além disso, também pretendemos fornecer nosso código em um formato customizável e de fácil utilização para a comunidade.
Palavras-chave: estrutura em larga escala, distâncias e redshifts, galáxias: fotometria, métodos: análise de dados, técnicas: fotométrica, catálogos, mapeamentos