VI. Qualità quantità
relazione
L’emergenza dell’informazione
La società dell’informazione presenta un’estrema
eterogeneità di manifestazioni: utilizza infatti al contempo e ormai anche con
estrema disinvoltura sistemi di comunicazione reticolari (telefonia), versioni
digitali di media broadcast[1] tradizionali nati fuori dalla Rete
(quotidiani, radio, tv online, ecc.), strumenti di comunicazione universali
nati con la Rete (email) e sistemi distribuiti (p2p). Ma tutto questi sistemi a
ben vedere si basano su un’unica materia prima: l’informazione. All’interno
dello specifico ambito dei motori di ricerca, e quindi del reperimento di
informazioni (information
retrieval), possiamo
assumere che l’Informazione sia l’insieme delle pagine che vengono pubblicate
sul Web[2].
La crescita quantitativa, e qualitativa, di
queste pagine e dei relativi contenuti è stata smisurata e continua a essere
tale. Ciò dipende dalla facilità con cui è possibile attualmente generare nuovi
contenuti per la rete. I contenuti non sono isole di dati sconnesse, ma si
costituiscono nella varietà delle relazioni e dei link che legano tra di loro
le pagine, i siti, gli argomenti, i documenti, i contenuti stessi.
L’accesso diretto, senza mediazione, a
questa mole di informazioni è assolutamente impossibile, anche solo in via
ipotetica: sarebbe come sostenere di poter sfogliare il Web “a mano”. Per
questo esistono i motori di ricerca, strumenti studiati per filtrare la
complessità della rete e fungere da interfaccia fra noi e l’informazione,
risolvendo delle ricerche.
Nei capitoli precedenti abbiamo passato in
rassegna gli strumenti fondamentali per il funzionamento di un motore di
ricerca, ovvero come Google e gli altri riescano a divorare le pagine Web, come
queste vengano analizzate e catalogate in base ad algoritmi di ranking, infine
archiviate su appositi supporti hardware e mostrate all’utente in base alle sue
ricerche.
La quantità di pagine memorizzate assume
quindi un valore centrale per valutare la potenza tecnica ed economica di un
motore di ricerca. Maggiore sarà l’ampiezza del patrimonio delle pagine
esaminate, maggiore sarà la potenziale completezza e affidabilità delle
ricerche compiute, ovviamente nel limite di quel contesto specifico.
Tuttavia, se l’estensione del patrimonio di
un motore di ricerca può essere enorme, non potrà mai essere completa e totale,
indipendentemente da quanto tempo, denaro e tecnologie si investano. È assurdo pensare di poter conoscere, o più
banalmente copiare e catalogare, tutto Internet: sarebbe come pretendere di
conoscere l’interezza di un mondo vivo e in costante mutamento.
I dispositivi di stoccaggio delle
informazioni dei motori di ricerca come Google sono come dei vasi. Immaginiamo
di dover riempire un vaso enormemente capiente con delle minuscole gocce ovvero
le pagine Web che costituiscono le informazioni delle Rete. Se riteniamo che il
vaso sia capace di contenere la totalità delle gocce (la totalità della rete)
il nostro compito consisterà nel cercare di catturarle tutte in modo
sistematico e ripetitivo.
Ma se invece pensiamo che le gocce siano
troppe rispetto al nostro vaso e che la loro raccolta non sarà prevedibile
secondo algoritmi, né rapida, ma potenzialmente potrebbe addirittura rivelarsi
un compito illimitato, dovremo cambiare tattica: anche perché le informazioni
cambiano nel tempo, le pagine vengono modificate, le risorse cambiano
indirizzo....
Potremmo magari decidere di scegliere solo
le gocce più grandi, o concentrare i nostri sforzi di raccolta nei punti in cui
ne cadono di più, o ancora, semplicemente, potremmo raccogliere solo le gocce
che ci interessano maggiormente, e poi cercare di collegarle nella maniera che
riteniamo più interessante.
Nonostante i motori di ricerca continuino a
porsi l’obiettivo di catalogare ogni cosa, è più corretto applicare al Web un approccio localizzato,
ovvero assumere che per ogni “intenzione di ricerca” esistano molte risposte
plausibili, fra le quali alcune sono “migliori” perché soddisfano determinati
requisiti di rapidità e completezza. Dobbiamo sempre ricordare che la qualità
delle risposte dipende dalla nostra soggettiva percezione dell’accettabilità
del risultato. Per poter accettare o rifiutare un elaborato di ricerca risulta
essenziale l’esercizio della capacità critica, la consapevolezza della soggettività
del proprio punto di vista. Per generare il percorso che davvero ci interessa
analizzare è necessario ipotizzare l’esistenza di una rete finita e limitata,
un mondo chiuso solo dalle nostre esigenze personali, sapendo tuttavia che si
tratta di una localizzazione soggettiva, non assoluta né costante nel tempo.
Dal punto di vista analitico, esplorare una rete implica la capacità di
dividere le reti in sottoreti di analisi e corrisponde alla creazione di
piccoli mondi localizzati e temporanei (LCW, Localized Closed World), nei quali esiste almeno una risposta
alle ricerche eseguite. In caso contrario, molte ricerche sarebbero senza fine,
anche perché i dati che possono essere analizzati sono molto superiori alle
capacità di elaborazione di un soggetto umano.
Tale risposta può non essere soddisfacente: cambiare o specificare la
ricerca, arricchire il proprio punto di vista potrà allora generare un percorso
più consono alle esigenze. Considerare il Web un mondo chiuso localizzato
significa anche riconoscere che la dinamica stessa con cui le informazioni
nascono, germinano e si distribuiscono in Rete (e magari vengono abbandonate a
sé stesse, non più aggiornate) è un fenomeno “emergente”, non causale né
casuale. L’emergenza[3] è un comportamento descrivibile in termini
matematici, un’esplosione di complessità inaspettata e imprevedibile, ma
soprattutto è un evento in grado di determinare situazioni non descrivibili in
maniera esaustiva. Analizzare e percorrere un “universo emergente” come il Web
implica dunque un continuo riposizionamento personale che determina un “mondo
chiuso localizzato” di competenze e aspettative, ma anche l’apertura a nuove
possibilità di esplorazione (altri mondi sono sempre possibili, fuori dal
proprio mondo chiuso) e dunque la consapevolezza di poter raggiungere risultati
sempre e solo parziali.
Quantità e qualità
L’indicizzazione per accumulo di pagine è
un fenomeno quantitativo, ma in sé non determina la qualità delle informazioni
del Web: l’obiettivo è raccogliere tutte le pagine e non scegliere fra di esse.
Le relazioni fra le pagine, pur essendo generate in base a un criterio
semplice, il sistema dei link, generano fenomeni di emergenza. Quindi la
qualità delle informazioni, a prescindere dalla loro tipologia, è determinata
dalla capacità di tracciare percorsi, senza preoccuparsi di coprire la “totalità”
delle informazioni. La qualità dipende soprattutto dall’esplicitazione del
proprio punto di vista attraverso un percorso di ricerca: insomma, sono i
naviganti, i pirati, gli utenti del Web che determinano e migliorano la qualità
delle informazioni, tessendo relazioni fra le pagine. La potenza di accumulo
degli algoritmi di Google è utile, ma insufficiente.
La valutazione del contenuto delle pagine e
le loro relazioni è delegata ad algoritmi e, soprattutto, alle società che li
controllano. Il fenomeno Google è il risultato di questa delega: una potenza
apparentemente senza limiti, in grado di offrici la possibilità di trovare “qualcosa”
di utile e interessante tra le molte risorse contenute nel suo patrimonio, che
viene spacciato per la “totalità” del Web. Vengono però completamente taciuti i
limiti di queste luccicanti offerte: ciò che è assente dal patrimonio, o ciò
che è presente solo in parte, e, soprattutto, tutto quello che è stato
scartato.
Rimane di stringente attualità uno spinoso
problema etico e politico sulla gestione e il controllo delle informazioni:
quale soggetto può garantire la correttezza di un’azienda che, per quanto “buona”,
ha come obiettivo primario il profitto?
Se da una parte ingenti risorse economiche
e un’ottima infrastruttura tecnica possono migliorare continuamente lo
stoccaggio e il recupero dei dati, le questioni politiche derivanti dall’accumulo
di informazioni non sono in alcun modo modo superabili, perché Google
rappresenta nei fatti un’inedita concentrazione di informazioni, riservate o
meno, in ogni caso fonte di un potere enorme senza alcuna trasparenza.
Ovviamente nessuna legge sulla privacy potrà migliorare questa situazione, né
tantomeno la creazione di istituzioni nazionali o internazionali ad hoc per il controllo delle informazioni personali e dei dati sensibili.
Una risposta sensata alla questione della riservatezza delle informazioni può
venire solo da una maggiore responsabilità e consapevolezza da parte degli
individui che creano la Rete, attraverso scelte di formazione individuale, per
quanto sia una strada difficile e faticosa da realizzare.
Il
mito della ricerca istantanea
Chiarito che l’enorme patrimonio di Google
non potrà mai corrispondere alla totalità della Rete, è ingenuo, o furbo,
proporsi come interfaccia “istantanea” fra le istanze di ricerca degli utenti e
il risultato cosiddetto “esatto”.
Ogni volta che si effettua una navigazione
visitando pagine Web si seguono dei link che creano percorsi analizzabili
secondo i modelli matematici della teoria dei grafi. Il Web è composto infatti
da nodi (le pagine e siti Internet) e da archi (i link che li uniscono).
Per quanto possano crescere le dimensioni
del Web, le direttrici proposte dai motori di ricerca saranno sempre efficaci
nel portarci all’oggetto “giusto”. Infatti, attraverso l’applicazione di
criteri di efficacia/efficienza, il percorso ricavato dall’interrogazione di un
motore di ricerca sarà ottimizzato, cioè il numero di nodi visitati sarà molto
basso e il tempo per raggiungere il risultato sarà quasi istantaneo. Google si
spinge ad auspicare un solo passaggio, tanto da offrire il bottone “mi sento
fortunato” nella pagina principale.
Questa ottimizzazione limita la ricerca a
uno schema sequenziale articolato in tre punti: utente-algoritmo-obiettivo. Alla lunga questa dinamica conduce a un
atteggiamento di passività digitale, per cui “aspettiamo” che ci vengano
forniti dei risultati per poi “scegliere” fra di essi.
Inoltre, questa efficacia/efficienza si
fonda paradossalmente non sull’ampliamento del bacino di dati sui quali
effettuare ricerche, bensì sulla riduzione dell’accesso al patrimonio
informativo stesso, poiché ogni percorso proposto dal motore di ricerca non
sarà mai tracciato sulla rete “in quel momento”, ma calcolato in base al suo
patrimonio archiviato, e personalizzato sull’utente in base a filtri
algoritmici e cookies.
L’accesso alle informazioni proposto da
Google è rapido, anzi, nelle sue intenzioni tende a essere immediato, ad
annullare la dimensione del tempo, a prescindere dall’enorme estensione delle
basi di dati consultate. La mediazione della tecnica (interfacce, algoritmi,
ricerche preconfezionate, ecc.) consente questo “annullamento” temporale e
rende l’accesso praticamente istantaneo[4]. Ma la qualità della ricerca viene
negativamente influenzata dalla rapidità nel raggiungimento del risultato.
Infatti, chiunque abbia provato a compiere una ricerca, sa bene che il tempo
impiegato è un fattore determinante nella composizione dell’esperienza: creare
un proprio percorso, compiere delle scelte differenti in momenti diversi genera
senso di partecipazione e soddisfazione. Google ci permette di “localizzare”
nello spazio (nel suo spazio multidimensionale) ciò che vogliamo; ma, per
quanto breve possa essere il tempo di attesa del risultato, stiamo pur sempre
assumendo un atteggiamento passivo nei confronti di un oracolo tecnologico.
Nel quadro dell’esplorazione attiva, l’obiettivo
non è invece “accedere” ai dati, ma compiere una navigazione ricca e
diversificata, costruire percorsi complessi attraverso la ricerca. Il concetto
di efficienza decade. Maggiore sarà il numero dei nodi che visitiamo e la
complessità dell’intreccio che costruiamo, maggiore sarà l’opportunità di
ampliare i nostri campi di interesse, le possibilità di operare scelte
significative, di raffinare le nostre ricerche. Questo approccio consente un
arricchimento cognitivo al di là della prestazione immediata. Ad esempio,
quando visitiamo i link proposti da un sito di nostro interesse, e proseguiamo
nei siti segnalati come amici, creiamo un percorso unico; magari prendendo
spunto da un nostro segnalibro. A livello visivo un procedimento simile si
oppone alla linearità della sequenza utente-algoritmo-obiettivo e crea invece un percorso ricco di biforcazioni, ramificazioni, salti,
giri tortuosi, rispondendo a un desiderio cognitivo non lineare[5].
In definitiva, i motori di ricerca sono
strumenti eccellenti per quanto riguarda la soddisfazione degli aspetti
quantitativi della ricerca, quando ci si muove all’interno di risorse già
completamente strutturate, come vocabolari, enciclopedie, ecc. La quantità è
direttamente proporzionale alla potenza di calcolo e di accumulo: l’estensione
di Google è decisamente superiore a quella di qualunque altro concorrente, ma
per rimanere tale necessita di una costante espansione, sia essa intesa in
risorse, algoritmi, macchine, utenti, ecc.
La macchina dell’accumulo è alimentata
dalla ricerca dell’efficienza e dell’eccellenza a livello di prestazioni, a
prescindere da una valutazione dei contesti di ricerca: l’interesse principale
di un motore di ricerca è l’incremento del proprio patrimonio, e di conseguenza
della propria offerta. Una logica esclusivamente quantitativa si limita all’idea
che maggiori sono le informazioni disponibili, maggiore sia la possibilità di
accedere ad informazioni coerenti con l’intenzione di ricerca; tesi che di
nuovo conferma l’approccio lineare sotteso al business dei motori di ricerca.
La qualità invece non risiede
necessariamente nella potenza tecnico-economica. Non è scontato che a vastità
di bacini informativi disponibili corrisponda la pertinenza dei risultati
forniti: l’emergenza del percorso migliore non si prevede, non si calcola, ma
si costruisce un passo dopo l’altro.
Dietro
il velo del mito
I valori di posizionamento del ranking di
Google non rispondono ad alcun criterio trasparente di valutazione; tuttavia,
le risposte fornite nella stragrande maggioranza dei casi sono esaustive, o
meglio, per noi è impossibile valutare se qualcosa è sfuggito al suo spider, a
meno che non siamo esperti di un dato settore e conosciamo una risorsa che non
risulta indicizzata.
La diffusione capillare degli strumenti di
ricerca di Google lo rendono uno standard de facto. Il box
bianco (blank box) dove inseriamo le parole chiave (keywords) delle nostre ricerche è per l’utente una sorta di weltanschaaung, o vision, insomma
propaganda una ben precisa “visione del mondo”, poiché incarna l’idea di “servizio
totale” (total service): il motore di ricerca è capace di
rispondere a qualsiasi domanda, di soddisfare tutte le esigenze di fronte allo
strumento Internet.
In termini epistemologici, il blank box rappresenta un modello cognitivo di organizzazione della conoscenza:
chiediamo infatti allo spazio bianco la risposta per tutte le nostre intenzioni
di ricerca, sia quando ci servono documenti, approfondimenti, informazioni, sia
quando vogliamo semplicemente “navigare”. Ormai lo utilizziamo anche quando
potremmo consultare le pagine gialle, ricordarci la nota che abbiamo segnato su
un libro, chiamare qualcuno, pensarci due minuti, ecc... ma invece Google è più
comodo. L’attività di ricerca viene interamente identificata con l’oggetto che
fornisce il servizio, Google, del quale abbiamo una percezione sovrabbondante.
L’abitudine all’utilizzo degli strumenti si
trasforma in comportamento, in coazione a ripetere: è molto difficile che
intenzionalmente gli utenti cerchino di soddisfare la propria “necessità di
input” con altre modalità, essendo ormai affezionati e rassicurati dall’efficacia/efficienza
del blank box.
Essere in movimento sulla rete e avere
quindi bisogno di interfacce di accesso, di strumenti per il reperimento delle
informazioni e la costruzione di percorsi è un’attività differenziata e
profondamente contestuale. L’attività di ricerca non è affatto omogenea e non
può dunque essere ridotta all’utilizzo della blank box. Ciò che
chiediamo e ciò che desideriamo dipende non solo da una necessità esprimibile
in termini analitici di informazione quantitativa, ma anche dal modo in cui
affrontiamo la ricerca, dal contesto nel quale cerchiamo l’informazione, dal
nostro bagaglio culturale e dall’attitudine al confronto con la novità, con
nuovi territori, con la diversità. È impossibile esaurire le richieste
informazionali attraverso una soluzione univoca.
Poiché l’indicizzazione delle pagine è
parziale, ovvero una selezione basata sul ranking, quello che Google ci propone
è banalmente la possibilità di trovare “qualcosa” per noi utile e interessante
tra le molte cose che sono raccolte nel suo patrimonio di interesse. Un’intenzione
di ricerca sottintende però in ultima istanza il desiderio di trovare, anzi
scoprire, “tutto ciò che non si sa ma che è possibile sapere”. Il gigante ci
appare allora così com’è, enorme, esteso, ramificato, ma non necessariamente
adatto per le nostre ricerche.
Modelli
di ricerca
L’ambiguità suggerita dai motori di ricerca
secondo cui “ricerchiamo in un ambiente infinito”, invece che in un mondo
chiuso localizzato in base alle nostre intenzioni di ricerca, dipende dalla
sovrapposizione formale tra il livello dell’interfaccia[6] e quello dell’organizzazione. L’interfaccia,
in questo specifico contesto, è l’elemento tecnologico attraverso cui si accede
alle informazioni e si esegue l’attività di ricerca; l’organizzazione è invece
l’architettura, il modello tecnologico con cui le informazioni sono ordinate e
archiviate. I due livelli si influenzano a vicenda, infatti le scelte in
termini di organizzazione determinano l’utilizzo di specifiche interfacce, e a
loro volta le informazioni visualizzate per mezzo delle interfacce rispecchiano
la forma con cui vengono conservate.
Il problema di questa sovrapposizione è che
le informazioni vengono presentate sotto forma di dati identificabili in
maniera univoca, separati tra di loro. L’utente di Google si muove in maniera
lineare nella lista dei risultati del ranking; per passare da un risultato all’altro
deve tornare all’elenco originario, senza collegamenti trasversali al livello dell’interfaccia.
Infatti con i motori di ricerca si
rintracciano informazioni senza che il percorso realizzato venga tenuto in
considerazione. L’interfaccia che determina la nostra interazione è il campo
delle keywords, dove si inseriscono le parole o le formule
per cominciare la ricerca; a questo primo livello di accesso tutte le
informazioni si trovano sul medesimo piano e omogenee, ma nello stesso tempo
separate e frammentate, rendendo possibile un elenco di risultati ordinati da
un algoritmo in base alla loro pertinenza.
Tuttavia nelle ricerche che si compiono
quotidianamente i risultati stessi possono essere collegati fra loro in diversi
modi, senza necessariamente ritornare all’elenco ordinato dei risultati, e non
vi è un solo risultato corretto; anzi, una ricerca che non sia indirizzata a
dati strutturati in enciclopedie, dizionari e simili (che pure mutano nel
tempo), potrebbe non avere alcuna soluzione, ma necessitare invece di sforzi
creativi, di miscela e ricombinazione.
Quando si verifica identità formale tra il
livello dell’interfaccia e quello dell’organizzazione si ottiene un modello
riduttivo: nel caso di Google, la rappresentazione di una potenza di ricerca
infinita, ovvero l’attività di ricerca che si confonde con uno degli strumenti
per realizzarla.
Ad esempio: se cerchiamo “Penna” attraverso
l’interfaccia di Google.com troviamo, fra oltre sei milioni settecentomila
risultati: “Sandro Penna”, il poeta; “Penna d’autore”, il concorso letterario;
il “Comune di Penna San Giovanni”, provincia di Macerata e così via. Non
troviamo nei primi risultati (top
ranking) né risorse
relative alle “penne degli uccelli”, né alle “penne per scrivere”, due concetti
molto lontani fra loro, di cui volevamo approfondire eventuali legami. Una
prospettiva più ampia sul reperimento delle informazioni, che tenga conto
criticamente del potenziale cognitivo sotteso a ogni patrimonio informativo,
spinge a considerare la funzione accesso-ricerca non come un processo di
localizzazione, ma di esplorazione e creazione. L’accento si sposta dunque dall’epistemologia
all’ontologia: non solo conoscere delle informazioni, ma essere consapevoli del
proprio ruolo di creatori di informazioni[7]. I motori di ricerca agiscono sull’accesso
ma non sono di alcun supporto per l’esplorazione, poiché si limitano a
intervenire sul primo livello di presentazione delle informazioni.
La navigazione è il momento di reale
dinamismo nella messa in relazione fra gli oggetti digitali, che possono così
esprimere il massimo delle loro potenzialità comunicative ed euristiche. Si
impara facendo, e si cambia mentre si impara, mentre si è presi nell’esplorazione.
Esiste una profonda distinzione tra cercare
e trovare: Google ci fa trovare le cose, provoca soddisfazione, sensazione di
accumulo. Ma potrebbe anche non essere interessante il “trovare”, quanto
piuttosto invece l’atto stesso di “cercare”; forse è interessante anzi non
trovare affatto, perché se non si riesce a trovare significa che si è impegnati
a cercare[8].
Il motore di ricerca è un modello
strumentale attraverso il quale le informazioni si dispongono: è interessante
invece immaginare modelli per combinare le informazioni, e creare conoscenza.
[1] Un sistema trasmittente broadcast invia informazioni a molti sistemi riceventi in maniera unidirezionale (comunicazione uno-molti). In una rete di computer, una trasmissione broadcast invia informazioni a tutti i computer connessi a quella rete; altri sistemi di trasmissione sono unicast (un solo ricevente), multicast (molti riceventi), anycast (qualsiasi ricevente all’interno di un gruppo). I sistemi p2p, proprio come i sistemi telefonici, sono l’esatto opposto dei sistemi broadcast, perché determinano una comunicazione di tipo molti-molti.
[2] Non è questo il luogo per una disamina esaustiva del concetto di “informazione”,
ma certo questa definizione è volutamente semplificata. Non tiene conto ad
esempio del fatto che motori di ricerca come Google indicizzano anche altri
contenuti che non sono Web, come l’archivio dei messaggi Usenet oppure il
contenuto dei computer di chi utilizza Google Desktop; tuttavia, poiché questa
massa di informazioni viene presentata attraverso un’interfaccia Web di
mediazione, riteniamo accettabile la definizione adottata.
[3] L’emergenza è un principio che descrive il comportamento dei sistemi complessi. Può essere definita come il processo di formazione ed emersione di comportamenti e schemi complessi a partire da regole più semplici. Le scienze cognitive utilizzano il concetto di emergenza per descrivere “l’esplosione” della complessità tipica dell’intelligenza: a partire da elementi semplici di per sé incoscienti (i neuroni), si generano il pensiero, la coscienza manifesta dei processi cerebrali. http://it.wikipedia.org/wiki/Emergenza
[4] La soddisfazione degli utenti per i risultati ottenuti con questo metodo “immediato” è tutt’altro affare: si veda in proposito Jean Véronis, A Comparative study of six search engines, Université de Provence, http://www.up.univ-mrs.fr/veronis http://aixtal.blogspot.com
[5] Il testo base per avvicinarsi
alle dinamiche cognitive non-lineari rimane Humberto R. Maturana, Francisco J. Varela, Autopoiesi e Cognizione -
La realizzazione del vivente, Marsilio, Venezia, 1985 (ed. or.: Autopoiesis and
Cognition. The realization of the Living).
[6] L’interfaccia è il punto, l’area, il territorio che mette in
collegamento elementi qualitativamente differenti; nel caso dei motori di
ricerca, l’interfaccia permette la relazione fra il soggetto che interroga e il
bacino di informazioni.
[7] Esplorare le reti significa creare le reti: in questo senso, estendendo
l’approccio di Maturana e Varela, possiamo parlare di “autopoiesi delle reti”,
reti che si costruiscono attraverso il nostro fare.
[8] :-)