Perché usare i dati Open Directory
La possibilità di offrire un servizio di ricerca di qualità,
ricco e completo ma continuamente aggiornato, praticamente esente dalla piaga dei
"dead links" (pagine non trovate - le fastidiose "404 URL Not Found" [?]),
è in fondo il sogno di qualsiasi webmaster. Dal piccolo sito amatoriale dedicato ad un
settore specifico al vortal di medie dimensioni, al grande motore di ricerca
internazionale, la qualità del prodotto finale offerto agli utenti non dipende soltanto
dalla tecnologia utilizzata per l'analisi dei risultati delle ricerche, ma anche e
soprattutto dalle caratteristiche della base dati su cui tali ricerche sono basate. La
migliore tecnologia del mondo non può infatti garantire risultati coerenti con le query
impostate se non è in grado di attingere ad un database che sia allo stesso tempo il più
vasto possibile, il più accurato possibile, il più aggiornato possibile. I costi e le
difficoltà per ottenere e mantenere un prodotto di questo genere sono evidenti, e sono da
sempre stati l'ostacolo principale per chiunque operasse nel settore della ricerca e
classificazione delle risorse Web.
Open Directory ha portato la risposta più semplice, ed allo
stesso tempo più efficace, a questo problema. Una armata di oltre 40.000 editori
volontari specializzati che continuano ad esplorare la Rete ed organizzare i siti in una
struttura logica e consistente, descrivendoli uno per uno e recensendone i contenuti,
curandone il continuo aggiornamento, e coordinandosi tra loro all'interno di una comunità
complessa ed autoregolata al motto di "Humans Do It Better", restituisce alla
comunità online un archivio di siti che è oggi considerato il più completo e meglio
organizzato del Web.
Usare i dati ODP significa quindi approfittare di questo
vantaggio inestimabile e del fatto che viene offerto gratuitamente, potendo quindi
concentrare i propri sforzi sulle caratteristiche degli algoritmi che presiedono
all'analisi delle query ed alla restituzione dei risultati di ricerca. Ogni motore di
ricerca è unico, pur essendo moltissimi quelli che utilizzano questa stessa base dati,
non più per l'estensione e la qualità del proprio archivio ma per il modo con cui
l'archivio stesso viene presentato, elaborato e messo a disposizione. Un punto di partenza
comune che lascia ampi spazi per caratterizzarsi e diversificarsi in un mercato in
continua espansione.
[^]
Come ottenere i dati ODP
La base dati Open Directory viene continuamente aggiornata dagli
editori in tempo reale sui server dmoz.org, ed oltre ad essere presentata con una
interfaccia di directory ricercabile nelle pagine del sito http://dmoz.org/, è messa a disposizione di chi desidera
utilizzarla per il proprio servizio di ricerca sotto forma di un pacchetto di file in
formato Resources Description Framework (RDF), un linguaggio implementato
in eXtensible Markup Language (XML). Informazioni sullo standard dei
formati RDF e XML e sulle loro
caratteristiche sono disponibili sul sito ufficiale W3.org.
L'ODP RDF Dump viene prodotto due volte alla settimana, ed i
singoli file sono scaricabili nella apposita pagina di download: i file che riportano nel
nome l'identificativo .u8 sono i più recenti e sono predisposti per l'encoding dei dati
in UTF-8 [?]. Informazioni aggiornate sulle caratteristiche dei
file di dati sono presenti alla pagina Open Directory RDF Dump, mentre il log delle modifiche apportate è
visibile alla pagina RDF Dump Changes. Noterete che i file dati sono diversi, ed alcuni
sono piuttosto grandi nonostante siano compressi in GZ. Una volta effettuato lo
scaricamento dei dati è possibile effettuare un parsing utilizzando le tags
identificative ODP, che sono reperibili alla pagina ODP RDF Tags. In questa
pagina viene anche indicata la data dell'ultimo aggiornamento del dump RDF.
[^]
I software di gestione
Vi sono però molti modi per utilizzare i dati ODP, ed a seconda
della strada scelta sono a disposizione software specifici che permettono di gestirli e
presentarli in modi diversi. Senza avere la pretesa di realizzare un tutorial su
"come costruire un motore di ricerca", diamo qui di seguito alcune indicazioni
sulle differenti opzioni.
Gestione della base dati sui propri server.- Alcuni servizi di ricerca
scaricano e gestiscono autonomamente sui propri server il database ODP (i file dell'RDF
Dump), utilizzandolo nella sua totalità o in alcune parti, realizzando opere derivate
anche con l'integrazione di dati propri o provenienti da altre fonti, e usando software di
gestione delle query [?] e interfacce per la presentazione dei risultati tra i più
disparati. Alcuni di essi utilizzano i dati stessi come base informativa per i propri
crawler [?], che vengono lanciati sui server dove risiedono i siti presenti in ODP
per ricavare ulteriori informazioni ed analizzare tutte le pagine dei singoli siti. E'
ovviamente necessario scaricare nuovamente l'RDF Dump tutte le volte che si desidera
aggiornare i dati. Tra i molti software disponibili per la gestione server-side, citiamo Oedipus e Senga, mentre per il parsing dei dati in file Html statici o in
database SQL è disponibile iHierarchy.
Gestione diretta di una interfaccia di ricerca.- Alcuni servizi di
ricerca si avvalgono di speciali software che consentono di presentare i dati ODP con un
interfaccia personalizzata, senza gestire direttamente il database ma collegandosi ai
server ODP o Netscape in tempo reale ad ogni ricerca o richiesta di pagina di categoria
effettuata dagli utenti. E' un sistema comodo e poco impegnativo, che se ha lo svantaggio
di non poter agire sull'ordinamento dei risultati (il risultato delle ricerche è identico
a quello ricavato effettuando la stessa ricerca sul sito ODP), offre il vantaggio di non
dover scaricare l'RDF Dump, in quanto i dati sono sempre aggiornati in tempo reale. Tra i
molti software disponibili per il live fetching dei dati citiamo phpOpen (script gratuito in
Php), ODP++
(un altro script gratuito, in Perl, che ha la capacità di emulare SSI in locale e
remoto), Personal
Open Directory (POD) (uno script gratuito in Perl) Anaconda! Open Directory
(uno script avanzato in Php).
Gestione indiretta di una interfaccia di ricerca.- Esistono molti servizi
che si propongono come interfaccia per chi non ha la possibilità o non è in grado di
installare script per la gestione dei dati. Tali servizi consentono di creare i template
delle pagine Html statiche di ricerca e presentazione dei dati, gestendo gli stessi (su
propri server o collegandosi ai server dmoz.org) ed inviandoli già formattati al sito che
si presenta all'utente come motore di ricerca. Sono normalmente gratuiti ed inseriscono
nella pagina fornita un proprio banner pubblicitario. E' un sistema comodo, rapido, e che
ha il vantaggio di non richiedere nessuna esperienza di programmazione e/o accesso ai
server dove è ospitato il proprio sito, e che normalmente fornisce risultati aggiornati
(se il servizio si collega direttamente al server dmoz.org, i risultati sono quelli
presenti in tempo reale su ODP), ma ovviamente non consente di sfruttare le pagine create
per inserire banner pubblicitari. Tra i molti software disponibili, citiamo Instant Directory
e Digital Windmill.
Realizzazione di un gateway.- I gateway sono siti che ospitano in una o
più pagine collegamenti diretti alle pagine di categoria e/o alla form di ricerca
residenti sui server ODP (ad esempio, come fa questo stesso sito nella pagina principale e
nella colonna di navigazione). E' il sistema più semplice in assoluto, in quanto si
tratta di inserire dei semplici link alle categorie ed una form che punta al server
dmoz.org per la ricerca. Le pagine restituite sono però ovviamente quelle di ODP, senza
possibilità di gestirne la grafica e le caratteristiche o di inserire banner
pubblicitari. Abbiamo preparato su questo sito una pagina con alcuni banner ed il codice
Html dei collegamenti e delle form di ricerca per collegarsi ad ODP.
Altri software utilizzabili per la gestione o l'elaborazione dei
dati, o per creare interfacce locali o in remoto, sono elencati alla pagina di categoria
ODP //Use_of_ODP_Data/Upload_Tools.
[^]
La Licenza di Utilizzo
Il database di Open Directory Project è offerto gratuitamente.
Questo significa essenzialmente che chiunque può utilizzare e pubblicare i dati della
Directory, in tutto o in parte, gratuitamente, purché venga incluso nelle pagine
pubblicate un breve riconoscimento standard (dichiarazione di attribuzione) presente in questa pagina.
In conformità con quanto stabilito nell'ODP
Social Contract, l'impegno ufficiale di Netscape con la comunità online per il
mantenimento di ODP come risorsa libera e gratuita, Netscape Communications Corporation
provvede infatti al servizio di hosting ed amministra l'Open Directory Project fornendo in
licenza gratuita i suoi contenuti a fronte del semplice riconoscimento della loro
provenienza. E' possibile leggere il testo tradotto in italiano della Licenza Ufficiale Netscape e la
sua versione originale (in inglese) in questa pagina.
Affinché ODP possa continuare a crescere come risorsa gratuita
ed aperta, è fondamentale che gli utilizzatori dei dati agiscano conformemente alla
licenza di utilizzo. Non viene infatti consentito l'utilizzo dei dati senza la necessaria
attribuzione, e viene richiesto agli utilizzatori di apporre l'attribuzione sui propri
siti o rimuovere interamente i dati se non intendono agire in conformità. Netscape
considera l'utilizzo senza attribuzione una infrazione legalmente perseguibile alla
licenza di utilizzo, contraria agli scopi di ODP quale iniziativa di ispirazione Open
Source.
[^]
|