intelligenza artificiale

Cosa succede quando si cerca di integrare i valori sociali nei chatbot? Si rompono. L’RLHF (Reinforcement Learning Human Feedback) utilizzato per creare un chatbot allineato ai valori umani ha bloccato il vero potenziale della piattaforma. Il fenomeno è chiamato “tassa sull’allineamento dei modelli di IA“. Lo sostiene un articolo intitolato “Scaling Laws for Reward Model Overoptimisation” che analizza il fenomeno per cui le preferenze di RLHF portano a modelli distorti che impediscono le vere prestazioni dei modelli. Di conseguenza, ogni volta che un LLM viene messo a punto, ostacola la sua funzionalità complessiva e perde le sue prestazioni. Questo mese, un nuovo sviluppo ha messo in discussione la posizione di ChatGPT ed è antitetico all’idea di RLHF. Un creatore di nome Eric Hartford ha rilasciato un modello LLM chiamato WizardLM-7B-Uncensored su Hugging Face. Il modello si è fatto notare per l’intelligenza e la creatività migliorate grazie all’eliminazione della censura dai dati di addestramento.

I modelli non censurati o privi di allineamento sembrano avere prestazioni migliori rispetto ai modelli allineati come GPT-4, PaLM e altri. Inoltre, WizardLM-7B-Uncensored ha dimostrato la necessità di modelli non censurati per l’esplorazione scientifica, la libertà di espressione, la componibilità, la narrazione e persino l’umorismo. L’idea di LLM senza censura sembra sorprendente, ma non è priva di errori. Il dibattito sull’esercizio della libertà di parola e di espressione e sulla necessità di non offendere qualcuno fa parte dei chatbot tanto quanto della nostra società.

I catastrofisti sollevano sempre obiezioni all’uso di chatbot non censurati per scopi malevoli e gridano al pericolo che cadano nelle mani dei distruttori della Terra. Insomma: il dibattito tra LLM allineati e non censurati continuerà.