Evaluation e Valutazione dei Sistemi AI

Descrizione del corso

  • Perché valutare un sistema AI è critico quanto costruirlo
  • La differenza tra metriche offline ( Benchmark ) e valutazione online ( Produzione )
  • Metriche classiche per la classificazione
  • Accuracy, Precision, Recall ed F1 Score
  • Matrice di Confusione
  • ROC-AUC
  • Metriche per la generazione di testo
  • BLEU Score
  • ROUGE Score
  • BERTScore e metriche semantiche
  • Limiti delle metriche automatiche per gli LLM
  • Il paradigma LLM-as-Judge
  • Usare un LLM per valutare l’output di un altro LLM
  • Progettare prompt di valutazione efficaci
  • Punteggi su dimensioni: correttezza, coerenza, completezza e tono
  • Costruire un sistema di Evals strutturato
  • Creare un Dataset di test ( Golden Dataset )
  • Automatizzare l’esecuzione degli Evals
  • Tracciare i risultati nel tempo ed il Regression Testing
  • Strumenti pratici per gli Evals
  • OpenAI Evals
  • Langfuse Evaluation
  • RAGAS per sistemi RAG
  • Evals per sistemi RAG: valutare Faithfulness, Answer Relevancy e Context Recall
  • A/B Testing tra modelli e versioni di prompt
  • Come decidere quando un modello è abbastanza buono per andare in produzione
  • Best practice per mantenere la qualità di un sistema AI nel tempo
  • Esercizio 65.01 – Costruire una pipeline di Evals automatica per un sistema RAG con RAGAS e Langfuse

Codice:ET-AI-0001_65

Durata:0 giorni

Categorie:,

Moduli del corso