A empresa chinesa de IA Deepseek revelou um novo método de treinamento, Manifold-Constrained Hyper-Connections (mHC), que tornará possível treinar grandes modelos de linguagem de forma mais eficiente e com menor custo, relata. o South China Morning Post.
O método é um desenvolvimento adicional das chamadas Hyper-Connections, que foi originalmente desenvolvida pela Bytedance em 2024. Essa tecnologia, por sua vez, baseia-se na arquitetura ResNet clássica da Microsoft Research Asia.
Deepseek afirma que o mHC oferece treinamento mais estável e escalonável sem aumentar os custos computacionais, graças a otimizações específicas no nível da infraestrutura. Os pesquisadores testaram a tecnologia em modelos com até 27 bilhões de parâmetros com resultados positivos.
Fonte: Computer World




