This website is now static html (since the end of 2010). The pages you see here are a simple wget spider mode crawl of the original wordpress, thus dynamic features like commenting are not working anymore.

Laboratorio avanzato di web information retrieval (Università di Udine)


Rimettendo ordine nella /home/$MYUSER/universita ogni tanto saltano fuori delle cose che mi fanno tenerezza. Come questa: il laboratorio avanzato di WIR.

Lo metto qui per vari motivi, uno su tutti, perché mi dispiacerebbe perderlo tra un rm -r e l’altro, mi affido quindi al sistema di backup del mio hosting.

  • Codice sorgente (archivio gzippato di 30KB di pessimo codive java)
  • Relazione (pdf gzippato da 120KB in italiano stentato)

L’idea di partenza non era neanche malaccio, volevo vedere se era possibile fare un motore di ricerca onnisciente. In pratica l’utente avrebbe dovuto inserire una query su un determinato argomento e il mio motore (che avrei potuto chiamare “mootore” con lettere di colore diverso;) avrebbe dovuto restituire tutte le informazioni disponibili su quell’argomento (si noti la sottile differenza tra informazioni restituite e pagine, è qui il nocciolo!).
Per dirla in maniera contorta, un motore che non presentasse contenuti replicati e mostrasse le pagine più dissimili tra quelle simili (sempre inerenti l’argomento cercato). Il risultato doveva appunto essere quello di poter restituire TUTTE le informazioni possibili e immaginabili sull’argomento della ricerca.

Ovviamente, in un perfetto processo di tipo yin e yang, il tutto ha portato quasi al niente. Gli unici risultati apprezzabili sono stati il capire che 1) non so programmare in java neanche dopo 3 esami sull’argomento 2) nel web c’è un sacco di contenuto duplicato e ben poco contenuto originale e distinguere tra i due non è affatto semplice (soprattutto ad un livello semantico e non di puro confronto stringhe) 3) bhe, un esame di meno, il che non è poco nella lenta marcia verso la specialistica.

Devo dire che è stato comunque divertente giocare con lucene e luke.



Leave a Reply