No benchmark CVTG-2K, que mede a precisão na colocação de texto em vários locais de imagem, o GLM-Image obteve uma pontuação de precisão de palavras de 0,9116, ficando em primeiro lugar entre os modelos de código aberto. O modelo também liderou o teste LongText-Bench para renderização de passagens de texto estendidas, pontuando 0,952 para inglês e 0,979 para chinês em oito cenários, incluindo placas, pôsteres e caixas de diálogo.
O modelo suporta nativamente múltiplas resoluções de 1024×1024 a 2048×2048 pixels sem necessidade de retreinamento, acrescentou o relatório.
Estratégia de otimização de hardware
O treinamento do GLM-Image no hardware Ascend exigiu que a Zhipu desenvolvesse técnicas de otimização personalizadas para a arquitetura de chips da Huawei. A empresa construiu um conjunto de treinamento que implementa implantação em pipeline multinível de gráficos dinâmicos, permitindo que diferentes estágios do processo de treinamento sejam executados simultaneamente e reduzindo gargalos.
Fonte: Computer World




