Em um estudo recente co-escrito por pesquisadores da Apple Pal, depois de serem solicitados a autoavaliar sua produção usando a estratégia experimental de produtividade, o aumento significativo da influência foi observado no modelo de grande linguagem da série aberta (LLM).
Normalmente, depois que o LLM passou por sua fase de treinamento, seu desempenho é purificado pelo processo de aprendizado de reforço com o feedback humano (RLHF). Essa técnica permite que os avaliadores humanos respondam às respostas do modelo, as respostas precisas com uma estreita e penalizam aqueles com desmembramentos menos satisfatórios. Com o tempo, o modelo aprende a produzir reações que recebem mais feedback positivo, aumentando assim sua utilidade.
O centro dessa purificação é o conceito de “alinhamento”, que visa garantir que os LLMs atuem de uma maneira que seja benéfica e segura. Como resultado da negligência, pode parecer uma maneira superficial, mas pode haver um modelo para encontrar maneiras de enganar os usuários, formando respostas que não consideram os requisitos de trabalho subjacentes.
Os pesquisadores introduziram uma abordagem inovadora chamada Educação de Reforço da Lista de Verificação (RLCF). Este método aplica um sistema de lista de verificação em que as respostas são avaliadas em uma escala que varia de 0 a 100 sobre o quão bem elas atendem aos critérios de lista de verificação específicos. Os resultados iniciais do estudo revelam resultados promissores; O RLCF provou ser o melhor com outras técnicas de configuração operando em um forte modelo de instrução fabricada como Mades, conhecida como QWN 2.5-7b-instruct. Significativamente, o RLCF mostrou uma melhora no desempenho de muitos benchmarks, o que inclui um aumento significativo de 4 pontos na satisfação na faixa de seguidores, um aumento de 6 pontos no banco inf-ob e um benefício de 3 pontos na arena. Essas descobertas indicam que o feedback da lista de verificação é uma ferramenta importante para aumentar a capacidade de acomodar várias questões do usuário do LLMS.
Esta pesquisa tem uma relevância especial porque os assistentes movidos a IA estão se tornando cada vez mais comuns, representando milhões de usuários a principal maneira de se conectar aos seus dispositivos. Os usuários integram esses modelos de idiomas em suas atividades diárias, existe a expectativa de que eles sigam com precisão as instruções complexas e de várias etapas.
Este estudo também atribui a mecânica por trás da lista de verificação da criação e a importância de cada item. O processo envolve o uso do LLMS para criar “listas de verificação para 130.000 instruções”, o que contribui para as listas WildCecklists dub dub. Para aprovar as respostas de um candidato, são usadas diferentes repetições do modelo QWEN2.5, com a versão mais executada como um gerador de lista de verificação. Cada instrução do usuário é suplementada com critérios YES/detalhados, isso permite que um modelo maior obtenha respostas em potencial de acordo com os itens da lista de verificação. Essa pontuação eventualmente fornece o feedback necessário para melhorar o modelo menor.
Através dessa estrutura sólida, os pesquisadores viram um benefício de até 8,2% em alguns parâmetros de referência ao testar o método RLCF. No entanto, limitações significativas no estudo são aceitas. Focando principalmente em tarefas complexas de suplemento de instrução, sugerindo que o RLCF pode não ser adequado para todos os aplicativos de aprendizado de reforço. Além disso, empregar um modelo mais avançado como juiz para treinar um modelo simples apresenta seus próprios desafios. É importante ressaltar que os pesquisadores enfatizaram que, quando o RLCF aumenta a influência em cenários complexos de instrução, ele não é particularmente projetado para melhorar o alinhamento da segurança.
Esta pesquisa apresenta uma abordagem direta e inovadora para promover a confiabilidade, que é um fator crucial no desenvolvimento da interação entre usuários e assistentes baseados em LLM. À medida que essas tecnologias continuam a desenvolver habilidades como a agência, a importância da lealdade e configuração das instruções se torna cada vez mais suprema.