Per chi cerca l'ago nel Grande Pagliaio

In principio era il motore di ricerca. Dopo, venne il searchbot. Poi fu la volta del portale. Ma è già iniziata una nuova era: quella del document clustering engine. Chi cerca, ha ora nuove possibilità per trovare.



[ZEUS News - www.zeusnews.it - 17-07-2001]

Internet è una fonte inesauribile di informazioni; tuttavia, queste sono spesso destrutturate e disperse nei milioni e milioni di pagine web a disposizione dei "naviganti". Proprio a causa dell'immensità dell'orizzonte virtuale e della modalità di indicazione della rotta, trovare in Rete una qualsiasi informazione è praticamente impossibile senza l'aiuto di un meccanismo che prescinda dall'indirizzo al quale essa si trova e sia in grado di rintracciarla in base a qualche criterio di ricerca.

Per rispondere a tale esigenza nascono, alcuni anni fa, siti che mettono a disposizione del pubblico potenti programmi dotati di tre componenti: un crawler, cioè un software in grado di navigare in modo asincrono nella Rete seguendo ricorsivamente i links rilevati nelle pagine visitate; un database destinato a raccogliere i collegamenti ai siti esplorati dal crawler indicizzandoli in base al testo in essi contenuto; una interfaccia web per l'interrogazione della base dati. Si tratta dei motori di ricerca.

Se stiamo cercando un manuale sulla programmazione in C++ è sufficiente specificare attraverso detta interfaccia, ad esempio, le parole "tutorial" e "C++" per ottenere un elenco di siti ove esse compaiono. Il limite evidente di tale approccio è che parole piuttosto comuni possono comparire in pagine web che, dal punto di vista del contenuto, hanno ben poco a che fare con il nostro oggetto del desiderio.

Si giunge così all'introduzione di nuove tag HTML, appositamente concepite per consentire allo sviluppatore del sito di elencare le parole chiave da associare a ciascuna pagina web. Diventa possibile contribuire alla correttezza dell'indicizzazione dei propri siti, fornendo una indicazione di massima della logica sottostante al testo. Nonostante le interessanti potenzialità, detto sistema ha poco successo (chi sviluppa siti spesso ignora addirittura l'esistenza del meccanismo descritto o, nel migliore dei casi, non si preoccupa di utilizzarlo).

Un ulteriore tentativo di facilitare la ricerca in Rete è rappresentato dai searchbots, programmi (da installare sul nostro computer) che implementano la form in cui devono essere specificate le parole da cercare e si preoccupano di "passarle" a più motori di ricerca, per poi presentare una sintesi dei risultati offerti da ciascuno di essi. I searchbots rappresentano certamente un valido sistema di espansione degli orizzonti, ma, generalmente, sono di poco aiuto nella definizione di efficaci criteri di ricerca. Anzi, si rischia che la troppa informazione, in quanto non utilizzabile nella pratica, equivalga a nessuna informazione.

Molti motori di ricerca, perciò, si trasformano in portali: le pagine web rilevate dal crawler vengono (in aggiunta alla consueta indicizzazione) categorizzate sulla scorta dell'argomento trattato. L'interfaccia del portale offre, oltre alla form per ricerca testuale, un elenco di categorie, ciascuna delle quali è spesso suddivisa in sottocategorie, e così via per diversi livelli di profondità. Ciò consente un approccio differente: invece di cercare l'informazione sulla base di parole che si presume compaiano nelle pagine di nostro interesse, la si raggiunge seguendo un percorso logico. Riprendendo l'esempio precedente, si può partire dalla categoria "Computer", per passare, al suo interno, a "Programmazione", poi "Linguaggi", "C++" e, infine "Manuali", ove ci aspettiamo di trovare un elenco di links a siti che propongono o sono, essi stessi, manuali di programmazione in C++.

Anche tale metodologia di ricerca ha i suoi limiti: le categorie sono generate a priori dal team di gestione del portale e può accadere che l'informazione ricercata sia di difficile collocazione in una di esse. Inoltre, persone diverse possono adottare differenti criteri di categorizzazione: ciò può costringerci ad adattare il nostro modo di ragionare a quello di chi ha definito le categorie.

Ma, in Rete, il tempo scorre veloce, ed oggi è già l'inizio di una nuova era: un gruppo di ricercatori presso la Carneige Mellon University ha sviluppato Vivisimo, dagli stessi definito un document clustering engine, cioè "motore per il raggruppamento di documenti". Vediamo, in pratica, di che si tratta.

Vivisimo riassume in sè le caratteristiche di tutti gli strumenti di ricerca descritti: si presenta come un search engine vecchio stile (solo form, niente categorie) ma, come un searchbot, interroga contemporaneamente diversi motori di ricerca; infine categorizza dinamicamente le pagine reperite presentando, quale risultato della ricerca, una sorta di portale "dedicato", nel quale i documenti sono raccolti in gruppi (clusters) costruiti in modo del tutto automatico in base a criteri di rilevanza testuale (ricorrenze di parole, posizione delle stesse nel documento o relativamente ad altre parole ricorrenti, e via dicendo).

Per ragioni di performance, Vivisimo analizza solo i risultati che i motori di ricerca interrogati restituiscono entro tempi piuttosto brevi; considerata la lentezza che spesso affligge la comunicazione in Rete, ripetendo più volte la stessa ricerca è possibile ottenere risultati differenti. Inoltre, al momento, non sono categorizzati i risultati di Google, uno dei più efficaci search engines.

Si consideri però che il motore di Vivisimo può lavorare su qualsiasi database testuale (in quest'ottica il sito è una vetrina per la commercializzazione del prodotto) e, opprtunamente configurato, su documenti in qualsiasi lingua, consentendo all'utilizzatore una "scrematura" veloce del materiale, con la possibilità di approfondire la ricerca in modo realmente mirato: esso si propone senza dubbio come valida alternativa ai metodi "tradizionali" di reperimento delle informazioni e potrebbe davvero indicare una nuova via verso la strutturazione logica dell'informazione o, forse, della Rete stessa.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Commenti all'articolo (0)


La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
A partire da quale età i bambini dovrebbero avere uno smartphone personale?
Nessuna
3 anni o meno
4-5 anni
6-7 anni
8-9 anni
10-11 anni
12-14 anni
15-17 anni

Mostra i risultati (2036 voti)
Aprile 2024
MS-DOS 4.00 diventa open source
Enel nel mirino dell'Antitrust per le bollette esagerate
TIM, altre ''rimodulazioni'' in arrivo
L'algoritmo di ricarica che raddoppia la vita utile delle batterie
Hype e Banca Sella, disservizi a profusione
Falla nei NAS D-Link, ma la patch non arriverà mai
La navigazione in incognito non è in incognito
Le tre stimmate della posta elettronica
Amazon abbandona i negozi coi cassieri a distanza
Marzo 2024
Buone azioni e serrature ridicole
Il piano Merlyn, ovvero la liquidazione di Tim
Falla nelle serrature elettroniche, milioni di stanze d'hotel a rischio
L'antenato di ChatGPT in un foglio Excel
La valle inquietante
La crisi di Tim e la divisione sindacale
Tutti gli Arretrati
Accadde oggi - 2 maggio


web metrics