Dov’è la “tossicologia del XXI° secolo”

Spesso le associazioni animaliste citano il lavoro del Prof. Hartung (Toxicology for the twenty-first century). Come abbiamo sempre detto il principio di autorità non esiste nella scienza: quello che contano sono i dati e come questi dati vengono analizzati. Oggi abbiamo il piacere di pubblicare un’interessante (e referenziata) analisi di questo lavoro, fatta dal Dr. Massimo Silvetti, ricercatore universitario che si occupa proprio di metodi alternativi. Vi invitiamo a leggerlo con attenzione, perché scopriremo che il lavoro di Hartung non è così impeccabile come ci si potrebbe aspettare all’inizio (tutt’altro…).

[Dario]

Where is the toxicology for the twenty-first century?

Massimo Silvetti 

L’articolo di Thomas Hartung publicato su Nature (Hartung, 2009 ) è ormai uno dei cavalli di battaglia nelle campagne antivivisezioniste. Pubblicato nella sezione “Horizons”, e quindi non peer reviewed(cioè non giudicato o revisionato da altri scienziati), tale articolo rimane comunque una voce che si leva da un journal prestigioso, e viste le critiche che solleva contro l’uso dei modelli animali in tossicologia, si può considerare una pietra miliare della critica alla sperimentazione animale (SA). Il lavoro di Hartung potrebbe rappresentare una concreta sfida alla posizione maggioritaria nella comunità scientifica, che ritiene valido l’uso della SA in tossicologia. Lo scopo di questo commento è di condurre un’analisi dettagliata di tale articolo, soprattutto in relazione alla critica rivolta alla SA.

  1. Il lavoro di Hartung

Hartung apre il proprio articolo introducendo il protocollo europeo REACH (Registration,

Evaluation, Authorisation and Restriction of Chemicals), volto a determinare la sicurezza e il possibile impiego umano di qualsiasi sostanza chimica. Secondo l’autore, il principale punto debole di tale protocollo starebbe nel fatto che si basi largamente sulla SA. L’autore suggerisce che l’uso della SA in tossicologia (sia in chimica che in farmacologia) genera tipicamente dati poco affidabili a causa delle differenze nella fisiologia delle specie testate (inclusa quella umana). Per ottimizzare la sicurezza, i protocolli attuali prevedono il testing su più specie animali, con il monitoraggio di un grande numero di “endpoints”, cioè di variabili cliniche che vengono valutate per rilevare una possibile tossicità (es. funzionalità renale, cardiaca etc.). L’autore stima che tale procedura possa essere troppo conservativa e generare un’enorme quantità di falsi positivi: cioè possa classificare come tossiche moltissime sostanze in realtà innocue per l’uomo. L’uso di tali procedure da parte del REACH potrebbe avere conseguenze serie, poiché potrebbe suggerire la messa al bando di sostanze chimiche in commercio da più di trent’anni, che testate seguendo le nuove direttive, risulterebbero erroneamente tossiche. Nell’ultima parte dell’articolo, Hartung suggerisce che il maggior uso e il miglioramento di tecniche alternative alla SA, come la tossicogenomica (in vitro) e le simulazioni al calcolatore (in silico), potrebbe migliorare l’affidabilità dei test tossicologici, risolvendo i problemi sopra descritti.

  1. Gli argomenti contro la SA

Uno dei pilastri su cui si basa l’articolo di Hartung è la valutazione dell’affidabilità della SA in campo tossicologico. Questo aspetto è di particolare rilevanza non solo rispetto alle normative REACH, ma anche nel dibattito con i gruppi antivivisezionisti, che sostengono l’inutilità scientifica della SA. Hartung basa la propria critica sui risultati derivanti da cinque differenti lavori (referenze da 3 a 7 nell’articolo originale). Segue un’analisi comparativa dei risultati riportati da Hartung e i risultati riportati nelle fonti originali.

Il primo lavoro citato consiste in un documento edito dal NIEHS (National Institute of Environmental Health Sciences) (NIEHS, 2006) in cui vengono valutati dei metodi in vitro per determinare le dosi iniziali per i test tossicologici in vivo (in particolare Lethal Dose 50%, LD50: la dose necessaria di un composto per determinare il 50% di decessi nel campione testato). Hartung fa notare che lacorrelazione media tra LD50 nei ratti e la concentrazione ematica letale dello stesso composto negli umani è scarsa, riportando il valore di 0.56. Leggendo il documento originale, si scopre che in realtà tale valore è 0.75, ben superiore di quello riportato da Hartung. In particolare, nel documento della NIEHS è riportata la correlazione tra i test di LD50 nei ratti e di LC50 nell’uomo (Lethal Concentration 50%, ossia la concentrazione nel sangue di un composto che determina il 50% di decessi). Poiché le due variabili non indicano esattamente gli stessi processi (es. la LC50 non è influenzata dall’assorbimento), una correlazione pari a 0.56 sarebbe in teoria difficile da valutare come soddisfacente o meno. Questa considerazione, però, non è la più rilevante. Infatti, leggendo il report originale, si nota che il valore di 0.56 riportato da Hartung è in realtà il coefficiente di determinazione (R2), cioè il quadrato della correlazione (pagg. ix, 21 e 35 del documento originale). Quindi la correlazione di cui parla Hartung è 0.75 e non 0.56. Il che significa, considerate anche le differenze tra i due tipi di misura, che è molto alta.

Il secondo lavoro citato da Hartung (Basketter et al., 2004) consiste nella valutazione del potere d’irritazione cutanea di 65 sostanze testate nel coniglio e nell’uomo. Hartung evidenzia come ben il 40% dei composti irritanti per il coniglio non lo siano per l’uomo. Nell’affermare ciò, l’autore tralascia un importante aspetto: il protocollo umano riportato nell’articolo (4-h patch test) è appositamente progettato per non creare serie reazioni infiammatorie nei volontari, mentre il protocollo animale era ottimizzato per aumentare la sensibilità del test (per non sottovalutare il potere irritante di una sostanza per l’uomo), quindi molto severo. Analizzando la Tabella 2 dello studio originale (pag.3), che riporta i risultati di tossicità dei 65 composti sull’uomo e sul coniglio, si nota come la sensibilità del test sul coniglio sia del 97%, ossia la probabilità di un falso negativo (pericoloso per la salute umana) è del 3%. Quella cui si riferisce implicitamente Hartung è la specificità, indicante la percentuale di falsi positivi (irritante nel coniglio ma non nell’uomo). Da quanto detto si può dedurre che il test dermatologico sul coniglio risulta efficiente per salvaguardare la salute umana (perché sensibile) ma può generare dei falsi positivi. Questi ultimi, d’altro canto, sono perfettamente spiegabili dalla differenza tra i due protocolli confrontati: esposizione moderata all’agente chimico in quello sui volontari umani, esposizione intensa in quello sui conigli.

Il terzo articolo (Gottmann et al., 2001) è citato da Hartung per mostrare la scarsa generalizzabilità di risultati tossicologici da una specie alle altre. L’articolo citato tratta della riproducibilità in vivo della valutazione sul potenziale carcinogenico di 121 sostanze, comparando i risultati provenienti dalla letteratura scientifica generale con quelli del National Cancer Institute/National Toxicology Program (NCI/NTP). Gli autori rilevano il 57% di concordanza (abstract e pag. 511 del documento originale). Non discuto qui il risultato per sé, per inciso gli stessi autori dichiarano che altri studi hanno rilevato una riproducibilità degli effetti carcinogenici compresa tra il 93% e il 76% (pag. 513 del documento originale). Il punto è che questo lavoro non investiga la generalizzabilità dei risultati da una specie all’altra, ma da un database (NCI/NTP) all’altro (letteratura generale), a parità di specie (topi e ratti, si veda l’Introduzione, pag. 509, del lavoro originale ). Quindi l’uso che fa Hartung di questa citazione è semplicemente improprio.

Il quarto articolo (Schardein et al., 1985) è citato dall’autore come ulteriore corroborazione della tesi per cui i dati ricavati da una specie non possono essere generalizzati. Questo lavoro (assai datato) compara i risultati sulla teratogenicità (tossicità fetale) di molti composti in specie differenti, compresa quella umana. Hartung, citando quest’articolo, riporta una concordanza del 53-60%, evidenziando come i risultati ottenuti su una specie siano difficilmente generalizzabili alle altre. Leggendo il lavoro originale, il primo dato che emerge è l’altissima sensibilità dei test condotti sugli animali: ossia quando una sostanza non mostra effetti teratogeni in SA, è alquanto sicura anche nell’uomo (Discussione nell’articolo originale, pag. 65). Al contrario, gli autori evidenziano un considerevole numero di falsi positivi (teratogenicità nell’animale ma non nell’uomo, ibidem). Tale risultato, in analogia con quanto detto sopra per i test dermatologici, viene spiegato dagli autori stessi come dipendente dal fatto che i test teratogenici in SA consistono in somministrazioni in dosi massicce del composto, condizione che raramente si verifica negli umani (ibidem). Passiamo ora ad analizzare la concordanza interspecifica dei risultati. Non sono riuscito a trovare nel testo il dato riportato da Hartung (53-60%), quindi ho analizzato le tabelle riportate nella fonte, che mostrano la teratogenicità di molte decine di composti in varie specie non umane. In particolare, le tabelle mostrano i risultati dei test in vari modelli animali per le seguenti classi di composti: a) composti teratogeni per l’uomo (Tabella 3, pag. 60); b) composti finora non risultati teratogeni per l’uomo (Tabella 6, pag. 63); c) composti probabilmente teratogeni per l’uomo (Tabella 7, pag. 64). In base alla mia analisi, la concordanza interspecifica nei test di teratogenicità è del 56-75% *. Tale range di valori è molto conservativo (ossia tende a sottostimare), tenendo in considerazione la variabilità introdotta dalle differenti metodiche sperimentali adottate nelle decine di studi riportati nelle tabelle. Va infine sottolineata anche l’obsolescenza dello studio citato (pubblicato nel 1985), che ne limita la generalizzabilità dei sui risultati ai protocolli sperimentali tossicologici correntemente in uso.

Il quinto ed ultimo articolo (Olson et al., 2000, purtroppo non ne esiste una versione open access) viene citato da Hartung per supportare la tesi secondo cui i test tossicologici in farmacologia non sono predittivi per l’uomo. In base a tale studio, l’autore riporta che solo il 43% di effetti tossici negli umani viene predetto da test sui roditori. La percentuale rimane piuttosto bassa (63%) anche quando vengono inclusi i risultati provenienti da altre specie. La prima cosa da rilevare è l’errore nel dato riportato da Hartung per i dati aggregati multispecie: il valore è 71% e non 63% (Abstract articolo originale). Questa però è l’osservazione meno importante. Il punto principale è che tale lavoro, come specificato dagli autori stessi (primo paragrafo della Discussione), non è volto a misurare il valore predittivo degli studi animali sull’uomo. Riporto di seguito le parole degli autori:

This study did not attempt to assess the predictability of preclinical experimental data to humans. What it evaluated was the concordance between adverse findings in clinical data with data which had been generated in experimental animals (preclinical toxicology).”(pag. 65, Discussione)

Lo studio in questione, infatti, riporta le percentuali di true positive concordance, ossia la concordanza tra effetti tossici trovati in fase preclinica (SA) dello sviluppo di un farmaco, e la successiva fase clinica (su soggetti umani). Il presupposto che deve essere compreso per leggere correttamente i risultati è che i dati tossicologici preclinici e i dati clinici non sono indipendenti. Solo i composti che hanno superato i test preclinici (i più sicuri ed efficaci) passano poi alla fase clinica della sperimentazione, quindi i dati di tossicità rilevati durante la fase clinica sono condizionati dal fatto di derivare da composti già classificati come sicuri sugli animali. Questo comporta una sovrastima del numero di falsi negativi (cioè sicurezza nell’animale ma tossicità nell’uomo), con conseguente riduzione della concordanza tra dati preclinici e clinici. Per questo motivo, i risultati riportati nello studio vengono giudicati dagli autori più che soddisfacenti.

  1. Conclusione

Gli argomenti proposti da Hartung, contrari all’uso della SA in tossicologia, si sono mostrati basati su una discutibile (in alcuni punti, palesemente errata) citazione della letteratura considerata dallo stesso autore. Va sottolineato che in questo commento è stata considerata esclusivamente la letteratura citata dallo stesso Hartung per supportare la propria tesi. Dato che i successivi passaggi nel suo articolo sono basati dalle considerazioni tratte da tali citazioni, la robustezza dell’intero lavoro qui commentato ne risulta compromessa. Tale articolo ha avuto una discreta risonanza tra gli esperti del settore, ed una notevole risonanza in ambito divulgativo, essendo citato molto spesso da associazioni animaliste per suffragare l’ipotesi dell’inutilità della SA. Dall’analisi emersa in questo commento, risulta evidente la necessità di rivalutare criticamente il lavoro di Hartung, sia per quanto riguarda il giudizio sul protocollo REACH, sia soprattutto per ciò che riguarda la valutazione sulla SA, che, dall’analisi delle fonti citate, e risultata errata. Per concludere vorrei sfatare un mito animalista che riguarda l’articolo di Hartung. Quando si legge di tale articolo da fonti di divulgazione animalista, ci si imbatte spesso nell’affermazione che Hartung abbia definito la SA “cattiva scienza”, tra virgolette, come da citazione del testo originale. In realtà, l’autore non critica mai così duramente la SA, e tale espressione (o similare) è inesistente nel testo. Al contrario, Hartung afferma che le tecniche alternative alla SA sono attualmente insufficienti:

Even if the use of alternatives to animal studies, such as cell-culturebased testing, were feasible, such methods do not have fewer limitations, except for ethical ones.”

(p. 210, primo paragrafo). Infine, l’autore raccomanda un rifinimento dei modelli animali in tossicologia, piuttosto che una completa sostituzione:

The solution to using fewer animals and making better predictions in the mid-term is to design integrated testing strategies.” (p. 210, secondo paragrafo).

Bibliografia

 

Basketter DA, York M, McFadden JP, Robinson MK, Determination of skin irritation potential in the human 4-h patch test. Contact Dermatitis, 51, 1–4, 2004.

Gottmann E, Kramer S, Pfahringer B, Helma C, Data quality in predictive toxicology: reproducibility of rodent carcinogenicity experiments. Environmental Health Perspectives, 109, 509-514, 2001.

Harung T., Toxicology for the twenty-first century. Nature 460, 208–212, 2009.

NIEHS (National Institute of Environmental Health Sciences), The Use of In Vitro Basal Cytotoxicity Test Methods For Estimating Starting Doses For Acute Oral Systemic Toxicity Testing. 2006.

Olson H et al., Concordance of the Toxicity of Pharmaceuticals in Humans and in Animals. Regulatory Toxicology and Pharmacology, 32, 56–67, 2000

Schardein JL, Schwetz BA, Kenel MF, Species Sensitivities and Prediction of Tetratogenic Potential. Environmental Health Perspectives, 61, 55-67, 1985.

* Algoritmo usato per calcolare la concordanza interspecifica:

per ogni tabella è stata calcolata la concordanza media dei risultati di teratogenicità tra tutte le possibili coppie delle specie animali riportate. Esempio: la Tabella 5 riporta la teratogenicità di 15 composti (righe) in 10 diverse specie (colonne). Si avranno così 45 possibili coppie di specie (coefficiente binomiale binomial (10;2) ).

È stata quindi calcolata la concordanza media delle coppie. Nella misurazione della concordanza di ogni coppia, sono state escluse le righe riportanti almeno un dato mancante (dato di teratogenicità mancante per almeno una delle due specie). Sono state escluse dall’analisi le coppie con meno di 3 dati di teratogenicità disponibili (meno di 3 righe).

1 Massimo Silvetti (Ph.D.) lavora come ricercatore a contratto per l’università di Ghent (Belgio). Si occupa di Neuroscienze, è esperto di simulazioni al calcolatore di circuiti nervosi (Neuroscienze Computazionali) e di tecniche di Neuroimmagini (risonanza magnetica funzionale). Autore di diverse pubblicazioni su riviste internazionali, ha collaborato alla scrittura di due monografie. Attualmente il suo lavoro è incentrato sullo studio dei meccanismi cerebrali della ricompensa e della neuro-patogenesi del disturbo da deficit di attenzione con iperattività (ADHD).

Potrebbero interessarti anche...