Um método de controle de semáforo baseado em multi

Scientific Reports volume 13, Número do artigo: 9396 (2023) Citar este artigo

Detalhes das métricas

Os algoritmos de controle inteligente de semáforos (ITLC) são muito eficientes para aliviar o congestionamento do tráfego. Recentemente, muitos algoritmos de controle de semáforos multiagentes descentralizados foram propostos. Essas pesquisas se concentram principalmente em melhorar o método de aprendizado por reforço e o método de coordenação. Mas, como todos os agentes precisam se comunicar enquanto se coordenam, os detalhes da comunicação também devem ser aprimorados. Para garantir a eficácia da comunicação, dois aspectos devem ser considerados. Em primeiro lugar, um método de descrição de condições de tráfego precisa ser projetado. Ao usar este método, a condição do tráfego pode ser descrita de forma simples e clara. Em segundo lugar, a sincronização deve ser considerada. Como interseções diferentes têm comprimentos de ciclo diferentes e o evento de envio de mensagens ocorre no final de cada ciclo do semáforo, cada agente receberá mensagens de outros agentes em horários diferentes. Portanto, é difícil para um agente decidir qual mensagem é a mais recente e a mais valiosa. Além dos detalhes de comunicação, o algoritmo de aprendizado por reforço usado para temporização do sinal de trânsito também deve ser aprimorado. Nos algoritmos ITLC tradicionais baseados em aprendizado por reforço, o comprimento da fila de carros congestionados ou o tempo de espera desses carros é considerado ao calcular o valor da recompensa. Mas, ambos são muito importantes. Portanto, um novo método de cálculo de recompensa é necessário. Para resolver todos esses problemas, neste artigo, um novo algoritmo ITLC é proposto. Para melhorar a eficiência da comunicação, este algoritmo adota um novo método de envio e processamento de mensagens. Além disso, para medir o congestionamento de tráfego de forma mais razoável, um novo método de cálculo de recompensa é proposto e utilizado. Esse método leva em consideração o tempo de espera e o comprimento da fila.

O Controle Inteligente de Semáforos (ITLC) é um bom método para aliviar o congestionamento do tráfego. Um algoritmo ITLC deve detectar a condição de tráfego da interseção e ajustar a duração do ciclo do semáforo automaticamente. Como o algoritmo de aprendizado por reforço1 funciona muito bem no controle automático2,3, muitos algoritmos ITLC baseados em aprendizado por reforço foram propostos recentemente. Esses algoritmos podem ser classificados em duas categorias, incluindo métodos tabulares4,5,6 e métodos de aproximação7,8,9. Em métodos de aproximação, o valor Q de cada par estado-ação deve ser calculado por um modelo específico. Dado um estado, se uma ação obtiver o maior valor Q, ela será selecionada pelo agente e executada no ambiente externo. Geralmente, um controlador de semáforo é tratado como um agente. Eles são responsáveis por coletar estados do ambiente externo, calcular o valor da recompensa e selecionar a ação. Atualmente, muitos modelos diferentes são propostos para cumprir a tarefa de cálculo do valor Q, incluindo modelo baseado em redes neurais feed-forward7, modelo linear10, modelo probabilístico11, modelo baseado em redes neurais convolucionais8, modelo RAIM12, modelo baseado em redes convolucionais gráficas9, modelo FRAP13,14, Modelo MetaLight15 etc. Os algoritmos de aprendizado por reforço que usam modelos de aprendizado profundo16 para calcular o valor Q são chamados de algoritmos de aprendizado por reforço profundo. Como os algoritmos de aprendizado por reforço profundo funcionam muito bem, eles são aplicados em muitos campos, incluindo detecção de tráfego anormal de rede17,18, comunicações e redes19 etc.

Com base na descrição acima, os algoritmos de controle de semáforos podem ser classificados em dois tipos, que são algoritmos baseados em agente único20,21 e algoritmos baseados em agentes múltiplos22,23,24. Em algoritmos baseados em multiagentes, todos os controladores de semáforos de uma grade de tráfego devem se coordenar para lidar com o congestionamento do tráfego. Os algoritmos baseados em multiagentes também podem ser classificados em dois tipos, incluindo algoritmos centralizados25,26,27 e algoritmos descentralizados28,29,30. Em algoritmos centralizados, um executor é aproveitado para aprender a ação conjunta de todos os agentes. Como todos os agentes são controlados por um executor central, a escalabilidade do algoritmo centralizado não é tão boa quanto o esperado. Algoritmos descentralizados são a melhor opção para resolver este problema. Em algoritmos descentralizados, cada controlador de sinal de trânsito será tratado como um agente independente e ele próprio seleciona uma ação. Atualmente vários algoritmos descentralizados são propostos. O algoritmo CGB-MATSC28 é um algoritmo de controle de sinal de tráfego baseado em cluster. Neste algoritmo, todos os agentes serão agrupados em diferentes clusters e cada cluster é controlado por um executor. O algoritmo NAQL29 é um algoritmo descentralizado que emprega lógica difusa para otimizar o modelo. O algoritmo MA2C30 é um algoritmo de controle de sinal de tráfego baseado em vários agentes, baseado no método ator-crítico. O algoritmo Co-DQL31 é proposto com base no método Q-learning duplo. Estimadores duplos são usados neste algoritmo. O algoritmo MPLight32 é proposto para controlar mil semáforos. É baseado no algoritmo de aprendizado por reforço e nas teorias de transporte. O algoritmo EMVLight33 pode executar roteamento dinâmico e controle de semáforo simultaneamente. O algoritmo MARDDPG34 é proposto com base no algoritmo de gradiente de política determinístico profundo. O algoritmo ATSC35 é um algoritmo de controle de sinal adaptativo descentralizado em nível de rede e um aprendizado de reforço profundo é usado neste algoritmo. A partir da descrição acima, podemos descobrir que todos esses algoritmos se concentram principalmente em melhorar o efeito do modelo e o método de coordenação. Mas detalhes de comunicação são negligenciados. Como, quando os agentes tentam se coordenar entre si, a comunicação acontecerá entre eles, um método de comunicação deve ser proposto para garantir a eficiência da coordenação. Em primeiro lugar, é necessário um método eficaz de descrição das condições de tráfego. Ao usar este método, a condição de tráfego de uma interseção pode ser descrita por uma mensagem de forma simples e clara. Esta mensagem será enviada para outros agentes. Em segundo lugar, a sincronização dos algoritmos descentralizados deve ser melhorada. Todos os controladores de semáforos precisam enviar mensagens para outros no final de cada ciclo. Mas, como a duração do ciclo de diferentes semáforos é diferente, não é fácil para um agente decidir qual mensagem é a mais recente e a mais valiosa. Para resolver esses problemas, um novo método de envio e processamento de mensagens é proposto. Neste método, a condição do tráfego pode ser descrita por uma mensagem simples e clara. E, ao mesmo tempo, uma estrutura de dados é utilizada pelo método proposto para registrar as mensagens mais recentes e valiosas para processamento posterior. Além dos detalhes de comunicação, o algoritmo de aprendizado por reforço usado para controle de semáforo também deve ser aprimorado. Nos algoritmos tradicionais, o comprimento da fila ou o tempo de espera dos veículos congestionados é considerado ao calcular o valor da recompensa. Mas esses dois fatores são importantes para julgar o congestionamento do tráfego. Assim, um novo método de cálculo do valor da recompensa que leva em consideração esses dois fatores é proposto neste artigo. Assim, a contribuição deste artigo é a seguinte: