// Capitoli //
// Informazioni //

VI. Qualità quantità relazione

 

L’emergenza dell’informazione

La società dell’informazione presenta un’estrema eterogeneità di manifestazioni: utilizza infatti al contempo e ormai anche con estrema disinvoltura sistemi di comunicazione reticolari (telefonia), versioni digitali di media broadcast[1] tradizionali nati fuori dalla Rete (quotidiani, radio, tv online, ecc.), strumenti di comunicazione universali nati con la Rete (email) e sistemi distribuiti (p2p). Ma tutto questi sistemi a ben vedere si basano su un’unica materia prima: l’informazione. All’interno dello specifico ambito dei motori di ricerca, e quindi del reperimento di informazioni (information retrieval), possiamo assumere che l’Informazione sia l’insieme delle pagine che vengono pubblicate sul Web[2].

La crescita quantitativa, e qualitativa, di queste pagine e dei relativi contenuti è stata smisurata e continua a essere tale. Ciò dipende dalla facilità con cui è possibile attualmente generare nuovi contenuti per la rete. I contenuti non sono isole di dati sconnesse, ma si costituiscono nella varietà delle relazioni e dei link che legano tra di loro le pagine, i siti, gli argomenti, i documenti, i contenuti stessi.

L’accesso diretto, senza mediazione, a questa mole di informazioni è assolutamente impossibile, anche solo in via ipotetica: sarebbe come sostenere di poter sfogliare il Web “a mano”. Per questo esistono i motori di ricerca, strumenti studiati per filtrare la complessità della rete e fungere da interfaccia fra noi e l’informazione, risolvendo delle ricerche.

Nei capitoli precedenti abbiamo passato in rassegna gli strumenti fondamentali per il funzionamento di un motore di ricerca, ovvero come Google e gli altri riescano a divorare le pagine Web, come queste vengano analizzate e catalogate in base ad algoritmi di ranking, infine archiviate su appositi supporti hardware e mostrate all’utente in base alle sue ricerche.

La quantità di pagine memorizzate assume quindi un valore centrale per valutare la potenza tecnica ed economica di un motore di ricerca. Maggiore sarà l’ampiezza del patrimonio delle pagine esaminate, maggiore sarà la potenziale completezza e affidabilità delle ricerche compiute, ovviamente nel limite di quel contesto specifico.

Tuttavia, se l’estensione del patrimonio di un motore di ricerca può essere enorme, non potrà mai essere completa e totale, indipendentemente da quanto tempo, denaro e tecnologie si investano. È  assurdo pensare di poter conoscere, o più banalmente copiare e catalogare, tutto Internet: sarebbe come pretendere di conoscere l’interezza di un mondo vivo e in costante mutamento.

I dispositivi di stoccaggio delle informazioni dei motori di ricerca come Google sono come dei vasi. Immaginiamo di dover riempire un vaso enormemente capiente con delle minuscole gocce ovvero le pagine Web che costituiscono le informazioni delle Rete. Se riteniamo che il vaso sia capace di contenere la totalità delle gocce (la totalità della rete) il nostro compito consisterà nel cercare di catturarle tutte in modo sistematico e ripetitivo.

Ma se invece pensiamo che le gocce siano troppe rispetto al nostro vaso e che la loro raccolta non sarà prevedibile secondo algoritmi, né rapida, ma potenzialmente potrebbe addirittura rivelarsi un compito illimitato, dovremo cambiare tattica: anche perché le informazioni cambiano nel tempo, le pagine vengono modificate, le risorse cambiano indirizzo....

Potremmo magari decidere di scegliere solo le gocce più grandi, o concentrare i nostri sforzi di raccolta nei punti in cui ne cadono di più, o ancora, semplicemente, potremmo raccogliere solo le gocce che ci interessano maggiormente, e poi cercare di collegarle nella maniera che riteniamo più interessante.

Nonostante i motori di ricerca continuino a porsi l’obiettivo di catalogare ogni cosa, è più corretto  applicare al Web un approccio localizzato, ovvero assumere che per ogni “intenzione di ricerca” esistano molte risposte plausibili, fra le quali alcune sono “migliori” perché soddisfano determinati requisiti di rapidità e completezza. Dobbiamo sempre ricordare che la qualità delle risposte dipende dalla nostra soggettiva percezione dell’accettabilità del risultato. Per poter accettare o rifiutare un elaborato di ricerca risulta essenziale l’esercizio della capacità critica, la consapevolezza della soggettività del proprio punto di vista. Per generare il percorso che davvero ci interessa analizzare è necessario ipotizzare l’esistenza di una rete finita e limitata, un mondo chiuso solo dalle nostre esigenze personali, sapendo tuttavia che si tratta di una localizzazione soggettiva, non assoluta né costante nel tempo. Dal punto di vista analitico, esplorare una rete implica la capacità di dividere le reti in sottoreti di analisi e corrisponde alla creazione di piccoli mondi localizzati e temporanei (LCW, Localized Closed World), nei quali esiste almeno una risposta alle ricerche eseguite. In caso contrario, molte ricerche sarebbero senza fine, anche perché i dati che possono essere analizzati sono molto superiori alle capacità di elaborazione di un soggetto umano.  Tale risposta può non essere soddisfacente: cambiare o specificare la ricerca, arricchire il proprio punto di vista potrà allora generare un percorso più consono alle esigenze. Considerare il Web un mondo chiuso localizzato significa anche riconoscere che la dinamica stessa con cui le informazioni nascono, germinano e si distribuiscono in Rete (e magari vengono abbandonate a sé stesse, non più aggiornate) è un fenomeno “emergente”, non causale né casuale. L’emergenza[3] è un comportamento descrivibile in termini matematici, un’esplosione di complessità inaspettata e imprevedibile, ma soprattutto è un evento in grado di determinare situazioni non descrivibili in maniera esaustiva. Analizzare e percorrere un “universo emergente” come il Web implica dunque un continuo riposizionamento personale che determina un “mondo chiuso localizzato” di competenze e aspettative, ma anche l’apertura a nuove possibilità di esplorazione (altri mondi sono sempre possibili, fuori dal proprio mondo chiuso) e dunque la consapevolezza di poter raggiungere risultati sempre e solo parziali.

Quantità e qualità

L’indicizzazione per accumulo di pagine è un fenomeno quantitativo, ma in sé non determina la qualità delle informazioni del Web: l’obiettivo è raccogliere tutte le pagine e non scegliere fra di esse. Le relazioni fra le pagine, pur essendo generate in base a un criterio semplice, il sistema dei link, generano fenomeni di emergenza. Quindi la qualità delle informazioni, a prescindere dalla loro tipologia, è determinata dalla capacità di tracciare percorsi, senza preoccuparsi di coprire la “totalità” delle informazioni. La qualità dipende soprattutto dall’esplicitazione del proprio punto di vista attraverso un percorso di ricerca: insomma, sono i naviganti, i pirati, gli utenti del Web che determinano e migliorano la qualità delle informazioni, tessendo relazioni fra le pagine. La potenza di accumulo degli algoritmi di Google è utile, ma insufficiente.

La valutazione del contenuto delle pagine e le loro relazioni è delegata ad algoritmi e, soprattutto, alle società che li controllano. Il fenomeno Google è il risultato di questa delega: una potenza apparentemente senza limiti, in grado di offrici la possibilità di trovare “qualcosa” di utile e interessante tra le molte risorse contenute nel suo patrimonio, che viene spacciato per la “totalità” del Web. Vengono però completamente taciuti i limiti di queste luccicanti offerte: ciò che è assente dal patrimonio, o ciò che è presente solo in parte, e, soprattutto, tutto quello che è stato scartato.

Rimane di stringente attualità uno spinoso problema etico e politico sulla gestione e il controllo delle informazioni: quale soggetto può garantire la correttezza di un’azienda che, per quanto “buona”, ha come obiettivo primario il profitto?

Se da una parte ingenti risorse economiche e un’ottima infrastruttura tecnica possono migliorare continuamente lo stoccaggio e il recupero dei dati, le questioni politiche derivanti dall’accumulo di informazioni non sono in alcun modo modo superabili, perché Google rappresenta nei fatti un’inedita concentrazione di informazioni, riservate o meno, in ogni caso fonte di un potere enorme senza alcuna trasparenza. Ovviamente nessuna legge sulla privacy potrà migliorare questa situazione, né tantomeno la creazione di istituzioni nazionali o internazionali ad hoc per il controllo delle informazioni personali e dei dati sensibili. Una risposta sensata alla questione della riservatezza delle informazioni può venire solo da una maggiore responsabilità e consapevolezza da parte degli individui che creano la Rete, attraverso scelte di formazione individuale, per quanto sia una strada difficile e faticosa da realizzare.

Il mito della ricerca istantanea

Chiarito che l’enorme patrimonio di Google non potrà mai corrispondere alla totalità della Rete, è ingenuo, o furbo, proporsi come interfaccia “istantanea” fra le istanze di ricerca degli utenti e il risultato cosiddetto “esatto”.

Ogni volta che si effettua una navigazione visitando pagine Web si seguono dei link che creano percorsi analizzabili secondo i modelli matematici della teoria dei grafi. Il Web è composto infatti da nodi (le pagine e siti Internet) e da archi (i link che li uniscono).

Per quanto possano crescere le dimensioni del Web, le direttrici proposte dai motori di ricerca saranno sempre efficaci nel portarci all’oggetto “giusto”. Infatti, attraverso l’applicazione di criteri di efficacia/efficienza, il percorso ricavato dall’interrogazione di un motore di ricerca sarà ottimizzato, cioè il numero di nodi visitati sarà molto basso e il tempo per raggiungere il risultato sarà quasi istantaneo. Google si spinge ad auspicare un solo passaggio, tanto da offrire il bottone “mi sento fortunato” nella pagina principale.

Questa ottimizzazione limita la ricerca a uno schema sequenziale articolato in tre punti: utente-algoritmo-obiettivo. Alla lunga questa dinamica conduce a un atteggiamento di passività digitale, per cui “aspettiamo” che ci vengano forniti dei risultati per poi “scegliere” fra di essi.

Inoltre, questa efficacia/efficienza si fonda paradossalmente non sull’ampliamento del bacino di dati sui quali effettuare ricerche, bensì sulla riduzione dell’accesso al patrimonio informativo stesso, poiché ogni percorso proposto dal motore di ricerca non sarà mai tracciato sulla rete “in quel momento”, ma calcolato in base al suo patrimonio archiviato, e personalizzato sull’utente in base a filtri algoritmici e cookies.

L’accesso alle informazioni proposto da Google è rapido, anzi, nelle sue intenzioni tende a essere immediato, ad annullare la dimensione del tempo, a prescindere dall’enorme estensione delle basi di dati consultate. La mediazione della tecnica (interfacce, algoritmi, ricerche preconfezionate, ecc.) consente questo “annullamento” temporale e rende l’accesso praticamente istantaneo[4]. Ma la qualità della ricerca viene negativamente influenzata dalla rapidità nel raggiungimento del risultato. Infatti, chiunque abbia provato a compiere una ricerca, sa bene che il tempo impiegato è un fattore determinante nella composizione dell’esperienza: creare un proprio percorso, compiere delle scelte differenti in momenti diversi genera senso di partecipazione e soddisfazione. Google ci permette di “localizzare” nello spazio (nel suo spazio multidimensionale) ciò che vogliamo; ma, per quanto breve possa essere il tempo di attesa del risultato, stiamo pur sempre assumendo un atteggiamento passivo nei confronti di un oracolo tecnologico.

Nel quadro dell’esplorazione attiva, l’obiettivo non è invece “accedere” ai dati, ma compiere una navigazione ricca e diversificata, costruire percorsi complessi attraverso la ricerca. Il concetto di efficienza decade. Maggiore sarà il numero dei nodi che visitiamo e la complessità dell’intreccio che costruiamo, maggiore sarà l’opportunità di ampliare i nostri campi di interesse, le possibilità di operare scelte significative, di raffinare le nostre ricerche. Questo approccio consente un arricchimento cognitivo al di là della prestazione immediata. Ad esempio, quando visitiamo i link proposti da un sito di nostro interesse, e proseguiamo nei siti segnalati come amici, creiamo un percorso unico; magari prendendo spunto da un nostro segnalibro. A livello visivo un procedimento simile si oppone alla linearità della sequenza utente-algoritmo-obiettivo e crea invece un percorso ricco di biforcazioni, ramificazioni, salti, giri tortuosi, rispondendo a un desiderio cognitivo non lineare[5].

In definitiva, i motori di ricerca sono strumenti eccellenti per quanto riguarda la soddisfazione degli aspetti quantitativi della ricerca, quando ci si muove all’interno di risorse già completamente strutturate, come vocabolari, enciclopedie, ecc. La quantità è direttamente proporzionale alla potenza di calcolo e di accumulo: l’estensione di Google è decisamente superiore a quella di qualunque altro concorrente, ma per rimanere tale necessita di una costante espansione, sia essa intesa in risorse, algoritmi, macchine, utenti, ecc.

La macchina dell’accumulo è alimentata dalla ricerca dell’efficienza e dell’eccellenza a livello di prestazioni, a prescindere da una valutazione dei contesti di ricerca: l’interesse principale di un motore di ricerca è l’incremento del proprio patrimonio, e di conseguenza della propria offerta. Una logica esclusivamente quantitativa si limita all’idea che maggiori sono le informazioni disponibili, maggiore sia la possibilità di accedere ad informazioni coerenti con l’intenzione di ricerca; tesi che di nuovo conferma l’approccio lineare sotteso al business dei motori di ricerca.

La qualità invece non risiede necessariamente nella potenza tecnico-economica. Non è scontato che a vastità di bacini informativi disponibili corrisponda la pertinenza dei risultati forniti: l’emergenza del percorso migliore non si prevede, non si calcola, ma si costruisce un passo dopo l’altro.

Dietro il velo del mito

I valori di posizionamento del ranking di Google non rispondono ad alcun criterio trasparente di valutazione; tuttavia, le risposte fornite nella stragrande maggioranza dei casi sono esaustive, o meglio, per noi è impossibile valutare se qualcosa è sfuggito al suo spider, a meno che non siamo esperti di un dato settore e conosciamo una risorsa che non risulta indicizzata.

La diffusione capillare degli strumenti di ricerca di Google lo rendono uno standard de facto. Il box bianco (blank box) dove inseriamo le parole chiave (keywords) delle nostre ricerche è per l’utente una sorta di weltanschaaung, o vision, insomma propaganda una ben precisa “visione del mondo”, poiché incarna l’idea di “servizio totale” (total service): il motore di ricerca è capace di rispondere a qualsiasi domanda, di soddisfare tutte le esigenze di fronte allo strumento Internet.

In termini epistemologici, il blank box rappresenta un modello cognitivo di organizzazione della conoscenza: chiediamo infatti allo spazio bianco la risposta per tutte le nostre intenzioni di ricerca, sia quando ci servono documenti, approfondimenti, informazioni, sia quando vogliamo semplicemente “navigare”. Ormai lo utilizziamo anche quando potremmo consultare le pagine gialle, ricordarci la nota che abbiamo segnato su un libro, chiamare qualcuno, pensarci due minuti, ecc... ma invece Google è più comodo. L’attività di ricerca viene interamente identificata con l’oggetto che fornisce il servizio, Google, del quale abbiamo una percezione sovrabbondante.

L’abitudine all’utilizzo degli strumenti si trasforma in comportamento, in coazione a ripetere: è molto difficile che intenzionalmente gli utenti cerchino di soddisfare la propria “necessità di input” con altre modalità, essendo ormai affezionati e rassicurati dall’efficacia/efficienza del blank box.

Essere in movimento sulla rete e avere quindi bisogno di interfacce di accesso, di strumenti per il reperimento delle informazioni e la costruzione di percorsi è un’attività differenziata e profondamente contestuale. L’attività di ricerca non è affatto omogenea e non può dunque essere ridotta all’utilizzo della blank box. Ciò che chiediamo e ciò che desideriamo dipende non solo da una necessità esprimibile in termini analitici di informazione quantitativa, ma anche dal modo in cui affrontiamo la ricerca, dal contesto nel quale cerchiamo l’informazione, dal nostro bagaglio culturale e dall’attitudine al confronto con la novità, con nuovi territori, con la diversità. È impossibile esaurire le richieste informazionali attraverso una soluzione univoca.

Poiché l’indicizzazione delle pagine è parziale, ovvero una selezione basata sul ranking, quello che Google ci propone è banalmente la possibilità di trovare “qualcosa” per noi utile e interessante tra le molte cose che sono raccolte nel suo patrimonio di interesse. Un’intenzione di ricerca sottintende però in ultima istanza il desiderio di trovare, anzi scoprire, “tutto ciò che non si sa ma che è possibile sapere”. Il gigante ci appare allora così com’è, enorme, esteso, ramificato, ma non necessariamente adatto per le nostre ricerche.

Modelli di ricerca

L’ambiguità suggerita dai motori di ricerca secondo cui “ricerchiamo in un ambiente infinito”, invece che in un mondo chiuso localizzato in base alle nostre intenzioni di ricerca, dipende dalla sovrapposizione formale tra il livello dell’interfaccia[6] e quello dell’organizzazione. L’interfaccia, in questo specifico contesto, è l’elemento tecnologico attraverso cui si accede alle informazioni e si esegue l’attività di ricerca; l’organizzazione è invece l’architettura, il modello tecnologico con cui le informazioni sono ordinate e archiviate. I due livelli si influenzano a vicenda, infatti le scelte in termini di organizzazione determinano l’utilizzo di specifiche interfacce, e a loro volta le informazioni visualizzate per mezzo delle interfacce rispecchiano la forma con cui vengono conservate.

Il problema di questa sovrapposizione è che le informazioni vengono presentate sotto forma di dati identificabili in maniera univoca, separati tra di loro. L’utente di Google si muove in maniera lineare nella lista dei risultati del ranking; per passare da un risultato all’altro deve tornare all’elenco originario, senza collegamenti trasversali al livello dell’interfaccia.

Infatti con i motori di ricerca si rintracciano informazioni senza che il percorso realizzato venga tenuto in considerazione. L’interfaccia che determina la nostra interazione è il campo delle keywords, dove si inseriscono le parole o le formule per cominciare la ricerca; a questo primo livello di accesso tutte le informazioni si trovano sul medesimo piano e omogenee, ma nello stesso tempo separate e frammentate, rendendo possibile un elenco di risultati ordinati da un algoritmo in base alla loro pertinenza.

Tuttavia nelle ricerche che si compiono quotidianamente i risultati stessi possono essere collegati fra loro in diversi modi, senza necessariamente ritornare all’elenco ordinato dei risultati, e non vi è un solo risultato corretto; anzi, una ricerca che non sia indirizzata a dati strutturati in enciclopedie, dizionari e simili (che pure mutano nel tempo), potrebbe non avere alcuna soluzione, ma necessitare invece di sforzi creativi, di miscela e ricombinazione.

Quando si verifica identità formale tra il livello dell’interfaccia e quello dell’organizzazione si ottiene un modello riduttivo: nel caso di Google, la rappresentazione di una potenza di ricerca infinita, ovvero l’attività di ricerca che si confonde con uno degli strumenti per realizzarla.

Ad esempio: se cerchiamo “Penna” attraverso l’interfaccia di Google.com troviamo, fra oltre sei milioni settecentomila risultati: “Sandro Penna”, il poeta; “Penna d’autore”, il concorso letterario; il “Comune di Penna San Giovanni”, provincia di Macerata e così via. Non troviamo nei primi risultati (top ranking) né risorse relative alle “penne degli uccelli”, né alle “penne per scrivere”, due concetti molto lontani fra loro, di cui volevamo approfondire eventuali legami. Una prospettiva più ampia sul reperimento delle informazioni, che tenga conto criticamente del potenziale cognitivo sotteso a ogni patrimonio informativo, spinge a considerare la funzione accesso-ricerca non come un processo di localizzazione, ma di esplorazione e creazione. L’accento si sposta dunque dall’epistemologia all’ontologia: non solo conoscere delle informazioni, ma essere consapevoli del proprio ruolo di creatori di informazioni[7]. I motori di ricerca agiscono sull’accesso ma non sono di alcun supporto per l’esplorazione, poiché si limitano a intervenire sul primo livello di presentazione delle informazioni.

La navigazione è il momento di reale dinamismo nella messa in relazione fra gli oggetti digitali, che possono così esprimere il massimo delle loro potenzialità comunicative ed euristiche. Si impara facendo, e si cambia mentre si impara, mentre si è presi nell’esplorazione.

Esiste una profonda distinzione tra cercare e trovare: Google ci fa trovare le cose, provoca soddisfazione, sensazione di accumulo. Ma potrebbe anche non essere interessante il “trovare”, quanto piuttosto invece l’atto stesso di “cercare”; forse è interessante anzi non trovare affatto, perché se non si riesce a trovare significa che si è impegnati a cercare[8].

Il motore di ricerca è un modello strumentale attraverso il quale le informazioni si dispongono: è interessante invece immaginare modelli per combinare le informazioni, e creare conoscenza.

 



[1]              Un sistema trasmittente broadcast invia informazioni a molti sistemi riceventi in maniera unidirezionale (comunicazione uno-molti). In una rete di computer, una trasmissione broadcast invia informazioni a tutti i computer connessi a quella rete; altri sistemi di trasmissione sono unicast (un solo ricevente), multicast (molti riceventi), anycast (qualsiasi ricevente all’interno di un gruppo). I sistemi p2p, proprio come i sistemi telefonici, sono l’esatto opposto dei sistemi broadcast, perché determinano una comunicazione di tipo molti-molti.

[2]              Non è questo il luogo per una disamina esaustiva del concetto di “informazione”, ma certo questa definizione è volutamente semplificata. Non tiene conto ad esempio del fatto che motori di ricerca come Google indicizzano anche altri contenuti che non sono Web, come l’archivio dei messaggi Usenet oppure il contenuto dei computer di chi utilizza Google Desktop; tuttavia, poiché questa massa di informazioni viene presentata attraverso un’interfaccia Web di mediazione, riteniamo accettabile la definizione adottata.

[3]              L’emergenza è un principio che descrive il comportamento dei sistemi complessi. Può essere definita come il processo di formazione ed emersione di comportamenti e schemi complessi a partire da regole più semplici. Le scienze cognitive utilizzano il concetto di emergenza per descrivere “l’esplosione” della complessità tipica dell’intelligenza: a partire da elementi semplici di per sé incoscienti (i neuroni), si generano il pensiero, la coscienza manifesta dei processi cerebrali. http://it.wikipedia.org/wiki/Emergenza

[4]              La soddisfazione degli utenti per i risultati ottenuti con questo metodo “immediato” è tutt’altro affare: si veda in proposito Jean Véronis, A Comparative study of six search engines, Université de Provence, http://www.up.univ-mrs.fr/veronis http://aixtal.blogspot.com

[5]              Il testo base per avvicinarsi alle dinamiche cognitive non-lineari rimane Humberto R. Maturana, Francisco J. Varela, Autopoiesi e Cognizione - La realizzazione del vivente, Marsilio, Venezia, 1985 (ed. or.: Autopoiesis and Cognition. The realization of the Living).

[6]              L’interfaccia è il punto, l’area, il territorio che mette in collegamento elementi qualitativamente differenti; nel caso dei motori di ricerca, l’interfaccia permette la relazione fra il soggetto che interroga e il bacino di informazioni.

[7]              Esplorare le reti significa creare le reti: in questo senso, estendendo l’approccio di Maturana e Varela, possiamo parlare di “autopoiesi delle reti”, reti che si costruiscono attraverso il nostro fare.

[8]              :-)