O diferencial é a abertura
Para enfatizar seu compromisso com o código aberto, Nvidia está revelando alguns dos funcionamentos internos do Nemotron 3, lançando um conjunto de dados com telemetria do mundo real para avaliações de segurança e 3 trilhões de tokens de conjuntos de dados de pré-treinamento, pós-treinamento e RL do Nemotron 3.
Além disso, a Nvidia está abrindo o código-fonte de seus Ginásio NeMo e NeMo RL bibliotecas, que fornecem ambientes de treinamento e base pós-treinamento do Nemotron 3, e NeMo Evaluator, para ajudar os construtores a validar a segurança e o desempenho do modelo. Todos já estão disponíveis no GitHub e no Hugging Face. Destes, observou Mayham, o NeMo Gym pode ser a peça mais “estrategicamente significativa” deste lançamento.
O pré-treinamento ensina modelos a prever tokens, não a concluir tarefas específicas de domínio, e o RL tradicional de feedback humano (RLHF) não é escalonável para comportamentos de agente complexos, explicou Mayham. NeMo Gym permite RL com recompensas verificáveis – essencialmente verificação computacional da conclusão da tarefa, em vez de classificações humanas subjetivas. Ou seja, o código passou nos testes? A matemática está correta? As ferramentas foram chamadas corretamente?
Fonte: Computer World



