Risorsa

Valutazione dell'accuratezza dell'Copyleaks Rilevatore di intelligenza artificiale

Una metodologia passo dopo passo

Data del test: 25 maggio 2024

Modello testato: V5

Riteniamo che sia più importante che mai essere completamente trasparenti riguardo all'AI Detector accuratezza, i tassi di falsi positivi e falsi negativi, aree di miglioramento e altro ancora per garantire un uso e un'adozione responsabili. Questa analisi completa mira a garantire la piena trasparenza sulla metodologia di test del modello V5 del nostro AI Detector.

I team di Data Science e QA di Copyleaks hanno eseguito test in modo indipendente per garantire risultati imparziali e accurati. I dati dei test differivano dai dati di training e non contenevano alcun contenuto precedentemente inviato ad AI Detector per il rilevamento AI.

I dati di test consistevano in testo scritto da esseri umani proveniente da set di dati verificati e testo generato dall'IA da vari modelli di IA. Il test è stato eseguito con l'API Copyleaks.

Le metriche includono l'accuratezza complessiva basata sul tasso di identificazione del testo corretto e non corretto, oltre a ROC-AUC (Receiver Operating Characteristic – Area Under the Curve), che esamina i tassi di veri positivi (TPR) e falsi positivi (FPR). Ulteriori metriche includono punteggio F1, tasso di veri negativi (TNR), accuratezza e matrici di confusione.

I test verificano che l'AI Detector mostri un'elevata precisione di rilevamento nel distinguere tra testo scritto da esseri umani e testo generato dall'intelligenza artificiale, mantenendo al contempo un basso tasso di falsi positivi. 

Processo di valutazione

Utilizzando un sistema a doppio reparto, abbiamo progettato il nostro processo di valutazione per garantire qualità, standard e affidabilità di alto livello. Abbiamo due reparti indipendenti che valutano il modello: i team di data science e QA. Ogni reparto lavora in modo indipendente con i propri dati e strumenti di valutazione e non ha accesso al processo di valutazione dell'altro. Questa separazione garantisce che i risultati della valutazione siano imparziali, oggettivi e accurati, catturando al contempo tutte le possibili dimensioni delle prestazioni del nostro modello. Inoltre, è essenziale notare che i dati di test sono separati dai dati di training e testiamo i nostri modelli solo su nuovi dati che non hanno visto in passato.

Metodologia

I team di QA e Data Science di Copyleaks hanno raccolto in modo indipendente una varietà di set di dati di test. Ogni set di dati di test è costituito da un numero finito di testi. L'etichetta prevista, un marcatore che indica se un testo specifico è stato scritto da un essere umano o da un'IA, di ogni set di dati è determinata in base alla fonte dei dati. I testi umani sono stati raccolti da testi pubblicati prima dell'avvento dei moderni sistemi di IA generativa o in seguito da altre fonti attendibili che sono state nuovamente verificate dal team. I testi generati dall'IA sono stati generati utilizzando una varietà di modelli e tecniche di IA generativa.

I test sono stati eseguiti sull'API Copyleaks. Abbiamo verificato se l'output dell'API fosse corretto per ogni testo in base all'etichetta di destinazione, quindi abbiamo aggregato i punteggi per calcolare la matrice di confusione.

Risultati: Team di Data Science

Il team di Data Science ha condotto il seguente test indipendente: 

  • La lingua dei testi era l'inglese e sono stati testati in totale 250.030 testi scritti da esseri umani e 123.244 testi generati dall'intelligenza artificiale provenienti da vari LLM.. 

  • La lunghezza del testo varia, ma i set di dati contengono solo testi con lunghezze superiori a 350 caratteri, il minimo accettato dal nostro prodotto.

Metriche di valutazione

Le metriche utilizzate in questa attività di classificazione del testo sono:

1. Matrice di confusione: una tabella che mostra i TP (veri positivi), FP (falsi positivi), TN (veri negativi) e FN (falsi negativi).

2. Precisione: la proporzione di risultati veri (sia veri positivi che veri negativi) tra il numero totale di testi che sono stati controllati.

3. TNR: La proporzione delle previsioni negative accurate in tutte le previsioni negative.

Nel contesto del rilevamento dell'intelligenza artificiale, il TNR è l'accuratezza del modello sui testi umani.

4. TPR (noto anche come Recall): la percentuale di veri risultati positivi in tutte le previsioni effettive.

Nel contesto del rilevamento dell'intelligenza artificiale, il TPR è l'accuratezza del modello sui testi generati dall'intelligenza artificiale.

5. Punteggio F-beta: Il media armonica ponderata tra precisione e recall, favorendo maggiormente la precisione (poiché vogliamo favorire un tasso di falsi positivi inferiore).

6. ROC-AUC: Valutazione del scambio tra TPR e FPR.

Insiemi di dati combinati di intelligenza artificiale e umani

Risultati: Team QA

Il team QA ha condotto il seguente test indipendente:

  • La lingua del testo era l'inglese e sono stati testati in totale 320.000 testi scritti da esseri umani e 172.500 testi generati dall'intelligenza artificiale provenienti da vari LLM..

     

  • La lunghezza del testo varia, ma i set di dati contengono solo testi con lunghezze superiori a 350 caratteri, il minimo accettato dal nostro prodotto.

Set di dati solo umani

Grafico dati per set di dati solo umani

Set di dati solo AI

Grafico dei set di dati solo AI

*Le versioni del modello potrebbero cambiare nel tempo. I testi sono stati generati utilizzando una delle versioni disponibili dei modelli di IA generativa di cui sopra.

Analisi degli errori di testo umani e AI

Durante il processo di valutazione, identifichiamo e analizziamo gli errori commessi dal modello e produciamo un report dettagliato che consentirà al team di data science di correggere le cause sottostanti di questi errori. Ciò avviene senza esporre gli errori stessi al team di data science. Tutti gli errori vengono sistematicamente registrati e categorizzati in base al loro carattere e alla loro natura in un "processo di analisi delle cause profonde", che mira a comprendere le cause sottostanti e identificare schemi ripetuti. Questo processo è sempre in corso, garantendo il miglioramento e l'adattabilità del nostro modello nel tempo.

Un esempio di tale test è la nostra analisi di dati Internet dal 2013 al 2024 utilizzando il nostro modello V4. WAbbiamo campionato 1 milione di testi ogni anno, a partire dal 2013, utilizzando tutti i falsi positivi rilevati dal 2013 al 2020, prima del rilascio dei sistemi di intelligenza artificiale, per contribuire a migliorare ulteriormente il modello.

Simile a come ricercatori in tutto il mondo abbiamo e continuiamo a testare diverse piattaforme di rilevamento AI per valutarne le capacità e i limiti, incoraggiamo vivamente i nostri utenti a condurre test nel mondo reale. In definitiva, man mano che vengono rilasciati nuovi modelli, continueremo a condividere le metodologie di test, l'accuratezza e altre considerazioni importanti di cui essere consapevoli.