lunes, febrero 19, 2007

Propuesta de Plan de Tesis [Versión Entregada]


Propuesta de Plan de Tesis
Selección de Recursos Distribuidos en Ambientes Dinámicos Basados en Web

Tesista: Santiago Banchero
Director: Mg. Gabriel H. Tolosa
Co-Director: Mg. Fernando R. A. Bordignon

1. Introducción

El área de Recuperación de Información ha sido pionera en la tarea de buscar y rankear documentos relevantes a partir de una necesidad de información del usuario [1,2], operando sobre grandes volúmenes de información, generalmente en documentos de texto y tradicionalmente bajo esquemas centralizados.

Con el acentuado crecimiento de las comunicaciones y la expansión de Internet como plataforma de intercambio de información surge la necesidad de integrar distintas fuentes. Nace así la Recuperación de Información Distribuida RID (también llamada Federated Search) [1] que pretende dar respuestas al problema de la Recuperación de Información en un nuevo ambiente ampliado por el crecimiento de repositorios, tanto dentro de las organizaciones FIGURA 1 (a) como de la red global de información FIGURA 1 (b). La RID tiene como objetivo principal desarrollar modelos y estrategias para obtener el mayor beneficio de estas fuentes distribuidas para responder a las distintas necesidades de información de sus usuarios, que perciben al sistema como único, independientemente del número de fuentes que existan. El proceso es totalmente transparente al usuario por lo tanto no percibe la complejidad del mismo.













La RID incluye tres subproblemas a estudiar [1, 3, 6]: a) DESCRIPCIÓN DE LOS RECURSOS, es decir, cómo se representa la información que se encuentra distribuida en repositorios, denominados corpus de documentos o bases de datos textuales, b) la SELECCIÓN DE RECURSOS, donde a partir de una necesidad de información y un conjunto de descripciones de éstos se decide cuáles serán los que tengan mayor probabilidad de satisfacer la consulta. Por último, c) la FUSIÓN DE LOS RESULTADOS consiste en la integración de los resultados retornados por las consultas a n bases de datos formando una única lista que presenta el ranking de los resultados.

El hecho que exista fuentes de información distribuidas trae consigo otros problemas con los que se debe enfrentar la RID algunos relacionados con aspectos tecnológicos. El primero, es la heterogeneidad que se manifiesta en varios aspectos, por ejemplo: la variedad de formatos que se manejan para representar la información, la frecuencia con que estos recursos son actualizados, los contenidos que estos repositorios abarcan, etc. En segundo lugar, no siempre es posible tener un conocimiento completo de los recursos (colecciones, bases de datos), es decir, no hay habitualmente una colaboración de parte de las fuentes a la hora de suministrar información referida a cantidad de documentos, de palabras u otra ayuda que pueda servir a la hora de realizar una consulta[11]. Por último, por tratarse de un ambiente distribuido soportado por una red debe afrontar todos los problemas asociados con éstas como es la disponibilidad del recurso, la latencia de los enlaces, etc.

También las soluciones que aporta la RID se encuentran altamente condicionadas por las características del ambiente, es decir, si se trata de un entorno cooperativo o no cooperativo. En el primero de los casos, se cuenta con las descripciones de los recursos – vocabulario, estadísticas del corpus – que se consultarán. Por el contrario, en el segundo, no se cuenta con la información mencionada y sólo es posible realizar consultas y retornar documentos.

En la actualidad existe un gran número de repositorios Web al alcance de todos los usuarios. Algunos de ellos son periódicos, librerías digitales, blogs, wikis, bibliotecas, repositorios universitarios, etc. También se cuenta con nuevos motores de búsqueda para distintos tipos de fuentes algunos de estos son: TECHNORATI que permite realizar búsquedas sobre blogs, SCHOLAR de Google que permite buscar documentos científicos (papers), BOOK también de Google que da la posibilidad de buscar libros, entre otros.

En este trabajo se abordará el problema de la representación y selección de recursos en ambientes dinámicos accesibles vía protocolos de sindicación de contenidos (RSS). Este es un caso particular ya que no es totalmente cooperativo ya que no entrega estadísticas ni descripciones pero publica los nuevos contenidos.


2. Antecedentes y Justificación

La RID es un tema de investigación que se ha desarrollado de manera sostenida durante los últimos años, básicamente por la masificación de las comunicaciones y el crecimiento de miles de repositorios de información diseminados por el mundo. La red de redes ha sido responsable de este movimiento de expansión tecnológica y su constante evolución obliga a buscar soluciones cada vez más ingeniosas.

El objetivo los un sistema de RID es proveer una interfaz sencilla para poder acceder a todos los recursos distribuidos, orientar cada necesidad de información del usuario hacia el recurso que mejor la satisfaga y luego fusione lo seleccionado en una única lista de resultados [10]. Un caso clásico en la Web son los metabuscadores (Metasearch , Mamma , etc). Como se ha mencionado estos sistemas tratan con la problemática fundamental de la RID [1].

La característica principal que justifica el uso de sistemas de RID es que permite realizar búsquedas más exhaustivas que los buscadores tradicionales. También reducen el tráfico en la red. Esto es posible gracias a que evita tener que realizar una consulta a todos los repositorios ya que se puede contar con una descripción mínima de este y así saber si esta en condiciones de satisfacer esa necesidad de información. De esta manera solo se consultaran aquellas que estén en condiciones de responder.

Los trabajos realizados hasta la actualidad, y los más interesantes, incluyen algoritmos para la construcción de descripciones de recursos en ambientes no cooperativos como Query Based Sampling [15], Capture-Recapture, etc. Estos algoritmos permiten obtener algunos valores que no están disponibles, por las características del entorno. Por ejemplo, el tamaño de la colección en cantidad de documentos y otros datos estadísticos de estos repositorios que son requeridos a la hora de seleccionar.

Por otro lado, los algoritmos de selección de recursos [3, 9] que utilizan modelos de espacios vectoriales de IR tradicional como gGLOSS [14], redes de inferencia bayesianas como INQUERY [12], CORI [5], ReDDE [10]. Estos últimos son los más utilizados por la comunidad de investigadores de RID. El objetivo fundamental de estos algoritmos es retornar un pequeño conjunto de bases de datos (recursos) que contengan la mayor cantidad de documentos relevantes para una consulta.

Los sistemas de RID son también una solución a los problemas de escalabilidad que presentan los motores de búsqueda tradicionales que deben manejar grandes volúmenes de información y utilizar demasiados recursos de hardware, software y ancho de banda. La solución aportada por la RID es más robusta, facilita el mantenimiento de índices ya que no utilizan un único índice central sino que se propone la utilización de un índice por cada recurso [16].

Por otro lado, existe todo un nuevo espacio de publicación que puede ser accesible a través de servicio de sindicación de contenido, que permite trabajar de manera opuesta a la idea original de publicar en un sitio web que los usuarios deban obligatoriamente visitar [13] por ejemplo, diarios como Clarín, La Nación entre otros. También existen buscadores verticales que operan sobre espacios acotados como: TECHNORATI, GOOGLE BLOG SEARCH , FEEDSTER .

En este trabajo de investigación se propone la integración de técnicas de RID y las nuevas formas de publicación de contenido. Es decir, la utilización de recursos Web existentes que presten servicio de feeds – RSS, ATOM y RDF – para publicar su contenido. Principalmente se apunta a Blogs y sitios Web personales de iguales características a la hora de publicar contenido. La utilización de estas tecnologías para construir descripciones de recursos constituye una alternativa novedosa ya que conduce a un ambiente de trabajo híbrido donde no hay una cooperación absoluta por parte de la fuente sino que es parcial, y se realiza a través de feeds. Tanto la sindicación de feeds como los Blogs son parte de la evolución de la Web y forman parte de un movimiento conocido como Web 2.0 [4] cuya filosofía es la reutilización de herramientas Web existentes y el aprovechamiento de la inteligencia colectiva.

Este trabajo se encuentra en el marco del proyecto de investigación “Modelos y Servicios de Información sobre Sistemas Complejos en Espacios Académicos y Científicos” Disposición CDD-CBNº 429-06.


3. Objetivos

El objetivo de este trabajo es integrar y adaptar distintos algoritmos pertenecientes al área de RID para que funcionen conjuntamente con fuentes de información heterogéneas en Ambientes Dinámicos Basados en Web.

Se trabajará con algoritmos que corresponden al primero y segundo subproblema de RID, descripción de los recursos y selección de recursos, respectivamente.

Se propondrá un modelo de BD textual y se adaptará un algoritmo de selección de recursos basado en los clásicos como CORI [5] y ReDDE [10].

Se desarrollará una herramienta que permita generar descripciones de recursos de fuentes heterogéneas en español y que permita el estudio de la evolución del lenguaje de cada fuente. Para poder realizar esto la aplicación deberá recuperar documentos publicados a través de sindicación de documentos.

A continuación se incluye un gráfico que ilustra la arquitectura del modelo:








4. Metodología

En una primera etapa se realizará un relevamiento bibliográfico sobre Recuperación de Información Distribuida, representación de recursos, selección de recursos, publicación de feeds a través de tecnología XML (RSS, ATOM y RDF). También se realizará un relevamiento exhaustivo de proyectos relacionados con esta propuesta.

Se estudiarán y utilizarán técnicas del área de recuperación de información para la construcción de índices que describen recursos como así también técnicas de poda de términos para hacer más eficientes estas descripciones.

En una siguiente etapa se realizará la modificación del algoritmo de selección de recursos (CORI O ReDDE) y se realizarán pruebas contrastando los resultados con los obtenidos con los conseguidos a través de un search engines opensource. Se trata de una API de desarrollo para indexar y realizar búsquedas.

Para la creación de las descripciones de recursos se diseñará y codificará una aplicación prototipo.

Se realizarán reuniones periódicas con el director del proyecto durante el transcurso del trabajo, quién guiará las tareas y aconsejará sobre los pasos metodológicos y técnicos a seguir. El trabajo será realizado en gran parte en las dependencias del Centro Regional Chivilcoy.


5. Problemas a resolver

El desarrollo del presente trabajo involucra una serie de problemas a resolver que se detallan a continuación:

- Desarrollar una aplicación que recupere y almacene documentos XML en formatos de feeds RSS, ATOM y RDF.
- Definir una estructura para almacenar el contenido de cada una de las fuentes.
- Entender y probar el funcionamiento de la API de indexación y búsqueda.
- Realizar las modificaciones al algoritmo de selección de recursos.


6. Plan de Trabajo

Fase 1 (meses 1 al 2)

Relevamiento de bibliografía y proyectos existentes en el área de Recuperación de Información Distribuida y sindicación de información mediante RSS, ATOM y RDF.
Identificación de problemas a resolver y relevamiento de técnicas y estrategias para su resolución.

Fase 2 (meses 3 al 4)

Plantear una estrategia para gestionar la información obtenida de los recursos Web distribuidos. De qué manera se obtendrán y cómo serán almacenados.
Especificación de requisitos.
Diseño de los componentes del prototipo, su interacción y modos de funcionamiento.

Fase 3 (meses 5 al 6)

Codificación y evaluación de un prototipo del sistema ideado.
Identificación, revisión y ajuste de parámetros que afecten la performance del prototipo.
Creación de documentación e informe final.

Fase 4 (meses 7 al 8)

Pruebas y comparaciones del prototipo desarrollado con los modelos clásicos utilizados en el área.
Redacción de la documentación e informe final.

7. Referencias

[1] J. Callan. Distributed Information Retrieval. In W.B. Croft, editor, Advances in information retrieval, chapter 5, pages 127-150. Kluwer Academic Publishers, 2000.

[2] Luo Si , Jamie Callan, Modeling search engine effectiveness for federated search, Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, August 15-19, 2005, Salvador, Brazil

[3] James C. French , Allison L. Powell , Jamie Callan , Charles L. Viles , Travis Emmitt , Kevin J. Prey , Yun Mou, Comparing the performance of database selection algorithms, Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, p.238-245, August 15-19, 1999, Berkeley, California, United States

[4] Tim O’ Reilly. Presidente y CEO de O’ Reilly Media, INC. Qué es web 2.0. Patrones del diseño y modelos del negocio para la siguiente generación del software.

[5] James P. Callan , Zhihong Lu , W. Bruce Croft, Searching distributed collections with inference networks, Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval, p.21-28, July 09-13, 1995, Seattle, Washington, United States

[6] James C. French , Allison L. Powell , Charles L. Viles , Travis Emmitt , Kevin J. Prey, Evaluating database selection techniques: a testbed and experiment, Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, p.121-129, August 24-28, 1998, Melbourne, Australia

[7] Jinxi Xu , Jamie Callan, Effective retrieval with distributed collections, Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, p.112-120, August 24-28, 1998, Melbourne, Australia

[8] Luo Si , Jamie Callan, Unified utility maximization framework for resource selection, Proceedings of the thirteenth ACM international conference on Information and knowledge management, November 08-13, 2004, Washington, D.C., USA

[9] Luo Si , Jamie Callan, Relevant document distribution estimation method for resource selection, Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, July 28-August 01, 2003, Toronto, Canada

[10] Si, L., & Callan, J. (2003a). Distributed information retrieval with skewed database size distributions. In Proceedings of the national conference on digital government research.

[11] Milad Shokouhi, Justin Zobel, Falk Scholer, and S. M. M. Tahaghoghi. Capturing collection size for distributed non-cooperative retrieval. In SIGIR ’06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages 316–323, New York, NY, USA, 2006. ACM Press.

[12] J. P. Callan, W. B. Croft, and S. M. Harding. The INQUERY retrieval system. In Proceedings of the Third International Conference on Database and Expert Systems Applications, pages 78{83, Valencia, Spain, 1992. Springer-Verlag

[13] Tony Hammond, Timo Hannay, and Ben Lund. The Role of RSS in Science Publishing. Syndication and Annotation on the Web.D-Lib Magazine. Volume 10 Number 12. ISSN 1082-9873. December 2004

[14] Luis Gravano and Hcctor Garcia-Molina. Generalizing GlOSS to vector-space databases and broker hierarchies. Technical Report STAN-CS-TN-95-21, Stanford University, May 1995. Available as ftp: //db. Stanford.edu/pub/gravano/-1995/stan.cs.tn.95.21.ps

[15] Callan, J. and Connell, M. (1999). Query-based sampling of text databases. Technical Report IR-180, Center for Intelligent Information Retrieval, Department of Computer Science, University of Massachusetts.

[16] Ricardo Baeza-Yates, Carlos Castillo, Flavio Junqueira, Vassilis Plachouras and Fabrizio Silvestri. 2007. Challenges in Distributed Information Retrieval (invited paper). In ICDE (Istanbul, Turkey). (April 2007)

No hay comentarios.: