SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
Recuperación de Información:
     el Modelo de Espacio Vectorial
               Alfonso E. Romero
   Departamento de Ciencias de la Computación e I. A.
aeromero@decsai.ugr.es - http://decsai.ugr.es/~aeromero
1. Introducción
Motivación


Por qué es importante saber cosas
de Recuperación de Información?

● Sapere aude
● Aplicación profesional

● Mueve mucho dinero
¿Qué es eso de la
                                “Recuperación de Información”?

                      Pero, ¿sabe usted que aún cuando
                      hace ya varios meses que mantengo
                      al día el diario [en un fonógrafo],
                      nunca me preocupé de cómo podría
                      encontrar cualquier parte en
                      especial de él que deseara examinar?

                      —Dr. Seward.
                      Drácula, de Bram Stoker, 1897.

         Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
2006-06-01                                                                           4
¿Qué es eso de la
                       “Recuperación de Información”?
El avance de la tecnología implica que cada
vez hay más información almacenada.
Estudiar Recuperación de Información es
tratar con métodos con los que un usuario
acceda eficientemente a la información, de
forma efectiva, según sus necesidades.
La Recuperación de Información trata de la
representación, almacenamiento, oganización
y acceso de ítems de ítems de información
     Gerard Salton, uno de los padres de la R.I.

 Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
¿Qué entidades aparecen en la R.I.?

                                                            Necesidad de
                                                             Información
                                        Wizard Glass          (consulta)




 Información
(documentos)

           - La Torre Oscura IV
              - “The Wizard”
                 Resultado                                  Usuarios
 Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Sistemas de Recuperación de Información


El objetivo de los Sistemas de Recuperación de Información (SRI)
es, dada una colección de documentos y una consulta formulada
por un usuario en un cierto momento, proporcionar el subconjunto
de documentos que es más relevante para la consulta del usuario.

Funcionamiento de un SRI:
1. El usuario introduce una consulta en el sistema. Esta consulta
representa sus necesidades de información.
2. El sistema procesa dicha consulta. Se buscan documentos que,
de alguna forma, sean coincidentes con los términos que aparecen
en dicha consulta.
3. El sistema muestra los documentos que son coincidentes con
la consulta, ordenándolos de mayor a menor relevancia según
el valor proporcionado por una función de ranking.


Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Modelos de Recuperación de Información

Un Modelo de Recuperación de Información [Baeza] es una
cuádrupla (D,Q,F,R(qi,dj)):

1. D es un conjunto formado por la representación de los documentos.

2. Q es un conjunto formado por consultas, es decir la representación
de la información que el usuario necesita.

3. F es un marco o modelo de representación de los documentos,
las consultas, y las relaciones existentes entre ellos.

4. R(qi,dj) es una función (ranking) que asocia un número real a
cada consulta qi de Q y representación del documento dj de D.


    Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
La representación de documentos (y consultas)

●   La representación clásica de documentos: “bag of words”.
    ● Términos índice independientes unos de otros

    ● Para cada par término documento (t d ) un peso w(i,j)
                                        i, j


●   Los documentos se indexan previamente
    ● Eliminar stopwords y signos de puntuación

    ● Case Folding

    ● Stemming



●Se disponen de estructuras (en disco) con documentos
procesados, con pesos precalculados y de acceso rápido

●   Las estructuras se crean una sola vez (indexación).


     Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
La representación de documentos (y consultas) II

       Verde que te quiero verde, verde viento, verdes ramas

       verde          quer     verde verde viento verde rama
            [ (verde, 4), (quer, 1), (viento,1), (rama, 1)]


                          4      1     1     1

       ¡Puedo representar cada documento como una n-tupla
       (vector n dimensional), donde cada casilla (dimensión)
         corresponde a cada uno de los n términos de la
        colección y cada coordenada i (número), al “peso”
               del término i-ésimo en el documento.


   Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
2. El Modelo de Espacio Vectorial
Motivación del modelo

Según la representación anterior de los documentos, una consulta
también puede representarse como un vector (con 0 en los términos
que no aparecen en ella, 1 si aparecen).
La presencia de objetos (documentos y consultas) en un “espacio”
hace preguntarse fácilmente si no hay una cierta forma de medir
distancias en dicho espacio y que sea válida para nuestro propósito.
Dicha forma debe de cumplir:
   1. Quiero que un documento relevante tenga el mayor número de
   términos coincidentes entre consulta y documento.

   2. Un documento respuesta “ideal” a una consulta es el que contiene
   todos los términos de la búsqueda.

   3. Dentro de todos los documentos ideales, preferimos aquellos en
   los que los términos buscados aparezcan más veces.

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Descripción del modelo I

                                 ● Salton y McGill en el sistema
                                  SMART (1971)
                                ● Calculan la similaridad entre

                                la consulta y cada uno de los
                                documentos como el ángulo
                                entre el vector consulta y
                                cada uno de los vectores
                                de los documentos.
                                 ● Los documentos más “paralelos” a

                                 la consulta serán aquellos que
                                 “respondan” mejor a la misma.

G. Salton, padre de la R.I.


Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Descripción del modelo II

   Gráficamente                     - En el gráfico, d1 “responde” mejor
                                    a la consulta que d2.
                                    - Las coordenadas con valor distinto
                                    de 0 para el vector consulta son
                                    muy pocas: sólo tenemos que
                                    realizar operaciones para ellas.
                                    - La forma de calcular la relevancia
                                    está expresada aquí (ángulo entre
                                    dos vectores):

                                                        n

             
                                      
                           〈 q , di 〉
                           
                                                    ∑ j=1 w j, q⋅w j, i
        R  q , di =cos q , di =           =
                                    ∣q∣ ∣d i∣
                                      ⋅            n             n
                                                        w j,q⋅∑ j=1 w2 i
                                                         2
                                                  ∑ j=1                 j,




Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Esquema de pesos

¿Cómo medir la importancia de un término en un documento?

1. A mayor frecuencia de un término en un documento, mayor
importancia. Problema, documentos extensos. Normalizar:
                                       ni , j
                          tf i , j =
                                     maxk n k , j
2. Los términos más infrecuentes en la colección son más
importantes, pues discriminan antes. Definimos la “rareza” de
un término como su frecuencia inversa documental, o idf:
                                             N
                             idf i=log
                                             Ni
3. Defino el peso de un término i en un documento j como el
producto de ambos términos (esquema TF x IDF):
                            w i , j = tf i , j⋅idf i
 Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Análisis crítico del modelo

+ Recuperación “ordenada” (si un documento se devuelve
antes que otro, es más relevante).

+ Acoplamiento “parcial” (el documento más relevante no
tiene por qué contener todos los términos de la consulta).
Incluso, no tendria por qué haber ningún documento así,
aunque hubiera documentos relevantes.

+ Comparado con otros modelos de recuperación
funciona bastante bien (difícil de superar).

- El esquema TF x IDF es intuitivo (pero no formal)

- Asume independencia de los términos (bag of words).

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
3. Implementando el modelo
Introducción a la implementación de un SRI

●Una colección de documentos (p. ej. páginas web) no está
preparada para realizar directamente operaciones de R.I.

●   Por ejemplo: encontrar la lista de páginas que contengan:
              “Fernando”, “Alonso”, “McLaren”, “Hamilton”

● No es lógico pensar que la búsqueda se haga linealmente. Las
colecciones actuales de documentos tienen GBs (¡o TBs!). Con
las tasas de transferencia actuales, despreciando el tiempo de
cómputo, y suponiendo que los datos son secuenciales, en una
colección de 10 GB habría que hacer varias búsquedas de
10 segundos (y en la realidad sería bastante más).

●Necesitamos crear estructuras persistentes que permitan acceder
eficientemente a los datos ya procesados.


Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Estructuras de Datos: el índice invertido
  ● Similar al índice terminológico de un libro.
  ● Para cada término, tenemos la lista de (páginas) identificadores

  de documentos, en los que aparece. (también puede dar la lista
  de pesos de cada término en cada documento).
   ● Se construye una sóla vez, durante el proceso llamado
   indexación.
   ● Obviamente, el índice puede no caber en memoria (tiene un

   tamaño del mismo orden que el de la colección), por lo que se
   divide en dos partes:
       - Vocabulario: que contiene la lista de términos
       - Ocurrencias: que es una tabla con las listas
       de documentos (y los pesos).
   ● Cada entrada en el vocabulario contiene la dirección en disco

   donde se encuentra su ocurrencia. Así, el vocabulario se puede
   mantener en memoria (10 MB por cada 300 MB de colección)

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Construcción de índices invertidos
 ●La construcción del índice, al no caber en memoria, no es sencilla.
 Normalmente, se realiza en dos pasos:
    1. Obtención (a disco) de las tuplas (t, d, f(t,d), w(t,d)) (todas con
    el mismo d para cada documento). Estarán ordenados por d.
    2. Utilizando un algoritmo de ordenación externa, ordenar por t.
    3. Una vez ordenado el archivo de tuplas, ir leyendo todas las
    tuplas de un mismo t y crear la ocurrencia correspondiente.

 ● Obviamente, se puede añadir información sobre la posición de las
 palabras en el texto (para hacer consultas por proximidad; con
 “comillas”).

 ● Por otra parte, el vocabulario debe permitir búsqueda O(1) por
 identificador, y O(log n), por cadena (n el número de términos).

 ●Una buena referencia para los algoritmos de indexación (y en
 general, las estructuras de datos es el libro Managing Gigabytes).

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Implementación del algoritmo de recuperación

Algoritmo:

1. A = {} (array asociativo de identificadores de doc.)
2. Para cada término t de la consulta
   Obtener la dirección de su ocurrencia L(t)
   Leer la ocurrencia L(t) de disco
   Para cada par (d, wd,t) en L(t)
      Si A[d] ∉A, iniciar A[d] a 0 y añadirlo al conjunto A
      A[d] = A[d] + wd,t
3. Para cada A[d] de A, normalizar A[d] = A[d] / Wd
4. Devolver al usuario los r mejores documentos


Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
4. Para saber más...
Libros




                                 http://www.dcs.gla.ac.uk/Keith/Preface.html
                                                   ¡GRATIS!

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
Más libros




Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
FIN
    Gracias por vuestra atención


(¿preguntas, consultas, sugerencias?)

Más contenido relacionado

La actualidad más candente

Estructura software & hardware
Estructura software & hardware Estructura software & hardware
Estructura software & hardware ChrisLag02
 
1.1 tipos de datos abstractos
1.1 tipos de datos abstractos1.1 tipos de datos abstractos
1.1 tipos de datos abstractoserwin_alexander
 
04 Servidores ws2019.ppt
04 Servidores ws2019.ppt04 Servidores ws2019.ppt
04 Servidores ws2019.pptJuanaReategui
 
Base de datos orientada a objetos vs base obje to relacion
Base de datos orientada a objetos vs base obje to relacionBase de datos orientada a objetos vs base obje to relacion
Base de datos orientada a objetos vs base obje to relacionAlfonso Triana
 
Conceptos basicos mysql
Conceptos basicos mysqlConceptos basicos mysql
Conceptos basicos mysqlkevin senior
 
Tarjetas de red
Tarjetas de redTarjetas de red
Tarjetas de redYyara2
 
Unidad2 programas while , do while y for
Unidad2 programas while , do while  y forUnidad2 programas while , do while  y for
Unidad2 programas while , do while y forMiguel Angel Peña
 
MAPEO OBJETO RELACIONAL
MAPEO OBJETO RELACIONAL MAPEO OBJETO RELACIONAL
MAPEO OBJETO RELACIONAL Poro Punk
 
Procesamiento del Lenguaje Natural
Procesamiento del Lenguaje NaturalProcesamiento del Lenguaje Natural
Procesamiento del Lenguaje Naturalmenamigue
 
Implementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlImplementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlPipe Muñoz
 

La actualidad más candente (20)

Estructura software & hardware
Estructura software & hardware Estructura software & hardware
Estructura software & hardware
 
Estructuras en c++
Estructuras en c++Estructuras en c++
Estructuras en c++
 
1.1 tipos de datos abstractos
1.1 tipos de datos abstractos1.1 tipos de datos abstractos
1.1 tipos de datos abstractos
 
04 Servidores ws2019.ppt
04 Servidores ws2019.ppt04 Servidores ws2019.ppt
04 Servidores ws2019.ppt
 
El sistema informático
El sistema informáticoEl sistema informático
El sistema informático
 
Base de datos orientada a objetos vs base obje to relacion
Base de datos orientada a objetos vs base obje to relacionBase de datos orientada a objetos vs base obje to relacion
Base de datos orientada a objetos vs base obje to relacion
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacional
 
Conceptos basicos mysql
Conceptos basicos mysqlConceptos basicos mysql
Conceptos basicos mysql
 
Conceptos Fundamentales de Base de Datos
Conceptos Fundamentales de Base de DatosConceptos Fundamentales de Base de Datos
Conceptos Fundamentales de Base de Datos
 
Encapsulamiento
EncapsulamientoEncapsulamiento
Encapsulamiento
 
Rdsi
RdsiRdsi
Rdsi
 
Tarjetas de red
Tarjetas de redTarjetas de red
Tarjetas de red
 
Unidad2 programas while , do while y for
Unidad2 programas while , do while  y forUnidad2 programas while , do while  y for
Unidad2 programas while , do while y for
 
MAPEO OBJETO RELACIONAL
MAPEO OBJETO RELACIONAL MAPEO OBJETO RELACIONAL
MAPEO OBJETO RELACIONAL
 
Procesamiento del Lenguaje Natural
Procesamiento del Lenguaje NaturalProcesamiento del Lenguaje Natural
Procesamiento del Lenguaje Natural
 
Sistema operativo de red
Sistema operativo de redSistema operativo de red
Sistema operativo de red
 
Pilas, colas, y listas estructura de datos
Pilas, colas, y listas estructura de datosPilas, colas, y listas estructura de datos
Pilas, colas, y listas estructura de datos
 
Implementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlImplementacion de bases de datos en mysql
Implementacion de bases de datos en mysql
 
Base de datos avanzado i
Base de datos avanzado iBase de datos avanzado i
Base de datos avanzado i
 
Arreglos c++
Arreglos c++Arreglos c++
Arreglos c++
 

Destacado

Sistemas de recuperación de informacion.cap 21
Sistemas de recuperación de informacion.cap 21Sistemas de recuperación de informacion.cap 21
Sistemas de recuperación de informacion.cap 21Andres Ramirez
 
Analisis de sentimiento
Analisis de sentimientoAnalisis de sentimiento
Analisis de sentimientoJose Giraldez
 
Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Sebastián Alvarado Vergara
 
Presentación de recuperación de datos
Presentación de recuperación de datosPresentación de recuperación de datos
Presentación de recuperación de datosverdugo90
 
Proceso comunicativo
Proceso comunicativoProceso comunicativo
Proceso comunicativoGiseVR
 
1.2.3 Tips Para Mejorar Nuestro Aprendizaje
1.2.3 Tips Para Mejorar Nuestro Aprendizaje1.2.3 Tips Para Mejorar Nuestro Aprendizaje
1.2.3 Tips Para Mejorar Nuestro AprendizajeGimeMora6
 
Quimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónQuimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónJairo626
 
Organizadores gráficos
Organizadores gráficos Organizadores gráficos
Organizadores gráficos ChRistian Gil
 
Taller de lectura Etapas de la escritura
Taller de lectura Etapas de la escrituraTaller de lectura Etapas de la escritura
Taller de lectura Etapas de la escrituraarturo zuñiga
 
Harold Laswell
Harold LaswellHarold Laswell
Harold Laswellacademica
 
modelo de laswell
modelo de laswellmodelo de laswell
modelo de laswellFairy
 
Recursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRecursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRaúl Larios
 
los generos literarios
los generos literarioslos generos literarios
los generos literariosmablancoperez1
 
Interpretación y conclusiones
Interpretación y conclusionesInterpretación y conclusiones
Interpretación y conclusionesAlma Rincon
 

Destacado (20)

Sistemas de recuperación de informacion.cap 21
Sistemas de recuperación de informacion.cap 21Sistemas de recuperación de informacion.cap 21
Sistemas de recuperación de informacion.cap 21
 
Analisis de sentimiento
Analisis de sentimientoAnalisis de sentimiento
Analisis de sentimiento
 
Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.
 
Presentación de recuperación de datos
Presentación de recuperación de datosPresentación de recuperación de datos
Presentación de recuperación de datos
 
Data Science
Data ScienceData Science
Data Science
 
Proceso comunicativo
Proceso comunicativoProceso comunicativo
Proceso comunicativo
 
1.2.3 Tips Para Mejorar Nuestro Aprendizaje
1.2.3 Tips Para Mejorar Nuestro Aprendizaje1.2.3 Tips Para Mejorar Nuestro Aprendizaje
1.2.3 Tips Para Mejorar Nuestro Aprendizaje
 
Quimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónQuimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificación
 
Word parte3
Word parte3Word parte3
Word parte3
 
Organizadores gráficos
Organizadores gráficos Organizadores gráficos
Organizadores gráficos
 
Taller de lectura Etapas de la escritura
Taller de lectura Etapas de la escrituraTaller de lectura Etapas de la escritura
Taller de lectura Etapas de la escritura
 
Harold Laswell
Harold LaswellHarold Laswell
Harold Laswell
 
Comprensión lectora
Comprensión lectoraComprensión lectora
Comprensión lectora
 
modelo de laswell
modelo de laswellmodelo de laswell
modelo de laswell
 
IR
IRIR
IR
 
Recursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRecursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIs
 
los generos literarios
los generos literarioslos generos literarios
los generos literarios
 
Estrategia de comprensión lectora "Idea Global"
Estrategia de comprensión lectora "Idea Global"Estrategia de comprensión lectora "Idea Global"
Estrategia de comprensión lectora "Idea Global"
 
Harold Lasswell
Harold LasswellHarold Lasswell
Harold Lasswell
 
Interpretación y conclusiones
Interpretación y conclusionesInterpretación y conclusiones
Interpretación y conclusiones
 

Similar a Recuperación de Información y el modelo de Espacio Vectorial

Webquest Para Alumnos De MéTodos óPticos
Webquest Para Alumnos De MéTodos óPticosWebquest Para Alumnos De MéTodos óPticos
Webquest Para Alumnos De MéTodos óPticosOlga Lidia Torres
 
Webquest Para Alumnos De MéTodos óPticos
Webquest Para Alumnos De MéTodos óPticosWebquest Para Alumnos De MéTodos óPticos
Webquest Para Alumnos De MéTodos óPticosOlga Lidia Torres
 
Páginas desde teoinfo(1 14)
Páginas desde teoinfo(1 14)Páginas desde teoinfo(1 14)
Páginas desde teoinfo(1 14)Santiago Acurio
 
Nuevos métodos para la investigación de la comunicación social y los medios d...
Nuevos métodos para la investigación de la comunicación social y los medios d...Nuevos métodos para la investigación de la comunicación social y los medios d...
Nuevos métodos para la investigación de la comunicación social y los medios d...J T "Tom" Johnson
 
Aula 4f51c867a6d58049e70741c9848fa829-investigación aplicada al diseño
Aula 4f51c867a6d58049e70741c9848fa829-investigación aplicada al diseñoAula 4f51c867a6d58049e70741c9848fa829-investigación aplicada al diseño
Aula 4f51c867a6d58049e70741c9848fa829-investigación aplicada al diseñoAna Maria Lebrun
 
Recuperación ideal vs. recuperación real en un SRI
Recuperación ideal vs. recuperación real en un SRIRecuperación ideal vs. recuperación real en un SRI
Recuperación ideal vs. recuperación real en un SRIMartha Ivonne Jiménez Homes
 
CONCEPTOS BASICOS DE LA INFORMATICA
CONCEPTOS BASICOS DE LA INFORMATICACONCEPTOS BASICOS DE LA INFORMATICA
CONCEPTOS BASICOS DE LA INFORMATICAdavid smith
 
Modulo seminario y proyecto de tesis cajabamba01
Modulo seminario y proyecto de tesis cajabamba01Modulo seminario y proyecto de tesis cajabamba01
Modulo seminario y proyecto de tesis cajabamba01Alex Hernandez Torres
 
Taller Centro de Documentación - 2da parte 22-08-2014
Taller Centro de Documentación - 2da parte 22-08-2014Taller Centro de Documentación - 2da parte 22-08-2014
Taller Centro de Documentación - 2da parte 22-08-2014Juan Manuel Pineda
 
1.0 centros de documentación (2)
1.0 centros de documentación (2)1.0 centros de documentación (2)
1.0 centros de documentación (2)Juan Manuel Pineda
 
Conceptos dato informacion conocimiento
Conceptos dato informacion conocimientoConceptos dato informacion conocimiento
Conceptos dato informacion conocimientoLeonardo Infante
 
Modulo seminario y proyecto de tesis cajabamba
Modulo seminario y proyecto de tesis cajabambaModulo seminario y proyecto de tesis cajabamba
Modulo seminario y proyecto de tesis cajabambaAndersonCastilloVera
 
Modeling the Retrieval Process for an Information Retrieval System using an O...
Modeling the Retrieval Process for an Information Retrieval System using an O...Modeling the Retrieval Process for an Information Retrieval System using an O...
Modeling the Retrieval Process for an Information Retrieval System using an O...Pepe
 

Similar a Recuperación de Información y el modelo de Espacio Vectorial (20)

Webquest Para Alumnos De MéTodos óPticos
Webquest Para Alumnos De MéTodos óPticosWebquest Para Alumnos De MéTodos óPticos
Webquest Para Alumnos De MéTodos óPticos
 
Webquest Para Alumnos De MéTodos óPticos
Webquest Para Alumnos De MéTodos óPticosWebquest Para Alumnos De MéTodos óPticos
Webquest Para Alumnos De MéTodos óPticos
 
Teoría y aplicación de la estructuración del conocimiento
Teoría y aplicación de la estructuración del conocimientoTeoría y aplicación de la estructuración del conocimiento
Teoría y aplicación de la estructuración del conocimiento
 
Páginas desde teoinfo(1 14)
Páginas desde teoinfo(1 14)Páginas desde teoinfo(1 14)
Páginas desde teoinfo(1 14)
 
Nuevos métodos para la investigación de la comunicación social y los medios d...
Nuevos métodos para la investigación de la comunicación social y los medios d...Nuevos métodos para la investigación de la comunicación social y los medios d...
Nuevos métodos para la investigación de la comunicación social y los medios d...
 
Aula 4f51c867a6d58049e70741c9848fa829-investigación aplicada al diseño
Aula 4f51c867a6d58049e70741c9848fa829-investigación aplicada al diseñoAula 4f51c867a6d58049e70741c9848fa829-investigación aplicada al diseño
Aula 4f51c867a6d58049e70741c9848fa829-investigación aplicada al diseño
 
9 Metadatos Y Recuperacion De La Informacion
9 Metadatos Y Recuperacion De La Informacion9 Metadatos Y Recuperacion De La Informacion
9 Metadatos Y Recuperacion De La Informacion
 
Recuperación ideal vs. recuperación real en un SRI
Recuperación ideal vs. recuperación real en un SRIRecuperación ideal vs. recuperación real en un SRI
Recuperación ideal vs. recuperación real en un SRI
 
Bdoo
Bdoo Bdoo
Bdoo
 
CONCEPTOS BASICOS DE LA INFORMATICA
CONCEPTOS BASICOS DE LA INFORMATICACONCEPTOS BASICOS DE LA INFORMATICA
CONCEPTOS BASICOS DE LA INFORMATICA
 
Modulo seminario y proyecto de tesis cajabamba01
Modulo seminario y proyecto de tesis cajabamba01Modulo seminario y proyecto de tesis cajabamba01
Modulo seminario y proyecto de tesis cajabamba01
 
Inteligencia artificial
Inteligencia artificialInteligencia artificial
Inteligencia artificial
 
T se as
T se asT se as
T se as
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Modelo E R
Modelo E RModelo E R
Modelo E R
 
Taller Centro de Documentación - 2da parte 22-08-2014
Taller Centro de Documentación - 2da parte 22-08-2014Taller Centro de Documentación - 2da parte 22-08-2014
Taller Centro de Documentación - 2da parte 22-08-2014
 
1.0 centros de documentación (2)
1.0 centros de documentación (2)1.0 centros de documentación (2)
1.0 centros de documentación (2)
 
Conceptos dato informacion conocimiento
Conceptos dato informacion conocimientoConceptos dato informacion conocimiento
Conceptos dato informacion conocimiento
 
Modulo seminario y proyecto de tesis cajabamba
Modulo seminario y proyecto de tesis cajabambaModulo seminario y proyecto de tesis cajabamba
Modulo seminario y proyecto de tesis cajabamba
 
Modeling the Retrieval Process for an Information Retrieval System using an O...
Modeling the Retrieval Process for an Information Retrieval System using an O...Modeling the Retrieval Process for an Information Retrieval System using an O...
Modeling the Retrieval Process for an Information Retrieval System using an O...
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 

Último (12)

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Recuperación de Información y el modelo de Espacio Vectorial

  • 1. Recuperación de Información: el Modelo de Espacio Vectorial Alfonso E. Romero Departamento de Ciencias de la Computación e I. A. aeromero@decsai.ugr.es - http://decsai.ugr.es/~aeromero
  • 3. Motivación Por qué es importante saber cosas de Recuperación de Información? ● Sapere aude ● Aplicación profesional ● Mueve mucho dinero
  • 4. ¿Qué es eso de la “Recuperación de Información”? Pero, ¿sabe usted que aún cuando hace ya varios meses que mantengo al día el diario [en un fonógrafo], nunca me preocupé de cómo podría encontrar cualquier parte en especial de él que deseara examinar? —Dr. Seward. Drácula, de Bram Stoker, 1897. Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial 2006-06-01 4
  • 5. ¿Qué es eso de la “Recuperación de Información”? El avance de la tecnología implica que cada vez hay más información almacenada. Estudiar Recuperación de Información es tratar con métodos con los que un usuario acceda eficientemente a la información, de forma efectiva, según sus necesidades. La Recuperación de Información trata de la representación, almacenamiento, oganización y acceso de ítems de ítems de información Gerard Salton, uno de los padres de la R.I. Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 6. ¿Qué entidades aparecen en la R.I.? Necesidad de Información Wizard Glass (consulta) Información (documentos) - La Torre Oscura IV - “The Wizard” Resultado Usuarios Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 7. Sistemas de Recuperación de Información El objetivo de los Sistemas de Recuperación de Información (SRI) es, dada una colección de documentos y una consulta formulada por un usuario en un cierto momento, proporcionar el subconjunto de documentos que es más relevante para la consulta del usuario. Funcionamiento de un SRI: 1. El usuario introduce una consulta en el sistema. Esta consulta representa sus necesidades de información. 2. El sistema procesa dicha consulta. Se buscan documentos que, de alguna forma, sean coincidentes con los términos que aparecen en dicha consulta. 3. El sistema muestra los documentos que son coincidentes con la consulta, ordenándolos de mayor a menor relevancia según el valor proporcionado por una función de ranking. Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 8. Modelos de Recuperación de Información Un Modelo de Recuperación de Información [Baeza] es una cuádrupla (D,Q,F,R(qi,dj)): 1. D es un conjunto formado por la representación de los documentos. 2. Q es un conjunto formado por consultas, es decir la representación de la información que el usuario necesita. 3. F es un marco o modelo de representación de los documentos, las consultas, y las relaciones existentes entre ellos. 4. R(qi,dj) es una función (ranking) que asocia un número real a cada consulta qi de Q y representación del documento dj de D. Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 9. La representación de documentos (y consultas) ● La representación clásica de documentos: “bag of words”. ● Términos índice independientes unos de otros ● Para cada par término documento (t d ) un peso w(i,j) i, j ● Los documentos se indexan previamente ● Eliminar stopwords y signos de puntuación ● Case Folding ● Stemming ●Se disponen de estructuras (en disco) con documentos procesados, con pesos precalculados y de acceso rápido ● Las estructuras se crean una sola vez (indexación). Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 10. La representación de documentos (y consultas) II Verde que te quiero verde, verde viento, verdes ramas verde quer verde verde viento verde rama [ (verde, 4), (quer, 1), (viento,1), (rama, 1)] 4 1 1 1 ¡Puedo representar cada documento como una n-tupla (vector n dimensional), donde cada casilla (dimensión) corresponde a cada uno de los n términos de la colección y cada coordenada i (número), al “peso” del término i-ésimo en el documento. Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 11. 2. El Modelo de Espacio Vectorial
  • 12. Motivación del modelo Según la representación anterior de los documentos, una consulta también puede representarse como un vector (con 0 en los términos que no aparecen en ella, 1 si aparecen). La presencia de objetos (documentos y consultas) en un “espacio” hace preguntarse fácilmente si no hay una cierta forma de medir distancias en dicho espacio y que sea válida para nuestro propósito. Dicha forma debe de cumplir: 1. Quiero que un documento relevante tenga el mayor número de términos coincidentes entre consulta y documento. 2. Un documento respuesta “ideal” a una consulta es el que contiene todos los términos de la búsqueda. 3. Dentro de todos los documentos ideales, preferimos aquellos en los que los términos buscados aparezcan más veces. Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 13. Descripción del modelo I ● Salton y McGill en el sistema SMART (1971) ● Calculan la similaridad entre la consulta y cada uno de los documentos como el ángulo entre el vector consulta y cada uno de los vectores de los documentos. ● Los documentos más “paralelos” a la consulta serán aquellos que “respondan” mejor a la misma. G. Salton, padre de la R.I. Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 14. Descripción del modelo II Gráficamente - En el gráfico, d1 “responde” mejor a la consulta que d2. - Las coordenadas con valor distinto de 0 para el vector consulta son muy pocas: sólo tenemos que realizar operaciones para ellas. - La forma de calcular la relevancia está expresada aquí (ángulo entre dos vectores): n      〈 q , di 〉   ∑ j=1 w j, q⋅w j, i R  q , di =cos q , di = = ∣q∣ ∣d i∣ ⋅ n n w j,q⋅∑ j=1 w2 i 2 ∑ j=1 j, Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 15. Esquema de pesos ¿Cómo medir la importancia de un término en un documento? 1. A mayor frecuencia de un término en un documento, mayor importancia. Problema, documentos extensos. Normalizar: ni , j tf i , j = maxk n k , j 2. Los términos más infrecuentes en la colección son más importantes, pues discriminan antes. Definimos la “rareza” de un término como su frecuencia inversa documental, o idf: N idf i=log Ni 3. Defino el peso de un término i en un documento j como el producto de ambos términos (esquema TF x IDF): w i , j = tf i , j⋅idf i Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 16. Análisis crítico del modelo + Recuperación “ordenada” (si un documento se devuelve antes que otro, es más relevante). + Acoplamiento “parcial” (el documento más relevante no tiene por qué contener todos los términos de la consulta). Incluso, no tendria por qué haber ningún documento así, aunque hubiera documentos relevantes. + Comparado con otros modelos de recuperación funciona bastante bien (difícil de superar). - El esquema TF x IDF es intuitivo (pero no formal) - Asume independencia de los términos (bag of words). Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 18. Introducción a la implementación de un SRI ●Una colección de documentos (p. ej. páginas web) no está preparada para realizar directamente operaciones de R.I. ● Por ejemplo: encontrar la lista de páginas que contengan: “Fernando”, “Alonso”, “McLaren”, “Hamilton” ● No es lógico pensar que la búsqueda se haga linealmente. Las colecciones actuales de documentos tienen GBs (¡o TBs!). Con las tasas de transferencia actuales, despreciando el tiempo de cómputo, y suponiendo que los datos son secuenciales, en una colección de 10 GB habría que hacer varias búsquedas de 10 segundos (y en la realidad sería bastante más). ●Necesitamos crear estructuras persistentes que permitan acceder eficientemente a los datos ya procesados. Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 19. Estructuras de Datos: el índice invertido ● Similar al índice terminológico de un libro. ● Para cada término, tenemos la lista de (páginas) identificadores de documentos, en los que aparece. (también puede dar la lista de pesos de cada término en cada documento). ● Se construye una sóla vez, durante el proceso llamado indexación. ● Obviamente, el índice puede no caber en memoria (tiene un tamaño del mismo orden que el de la colección), por lo que se divide en dos partes: - Vocabulario: que contiene la lista de términos - Ocurrencias: que es una tabla con las listas de documentos (y los pesos). ● Cada entrada en el vocabulario contiene la dirección en disco donde se encuentra su ocurrencia. Así, el vocabulario se puede mantener en memoria (10 MB por cada 300 MB de colección) Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 20. Construcción de índices invertidos ●La construcción del índice, al no caber en memoria, no es sencilla. Normalmente, se realiza en dos pasos: 1. Obtención (a disco) de las tuplas (t, d, f(t,d), w(t,d)) (todas con el mismo d para cada documento). Estarán ordenados por d. 2. Utilizando un algoritmo de ordenación externa, ordenar por t. 3. Una vez ordenado el archivo de tuplas, ir leyendo todas las tuplas de un mismo t y crear la ocurrencia correspondiente. ● Obviamente, se puede añadir información sobre la posición de las palabras en el texto (para hacer consultas por proximidad; con “comillas”). ● Por otra parte, el vocabulario debe permitir búsqueda O(1) por identificador, y O(log n), por cadena (n el número de términos). ●Una buena referencia para los algoritmos de indexación (y en general, las estructuras de datos es el libro Managing Gigabytes). Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 21. Implementación del algoritmo de recuperación Algoritmo: 1. A = {} (array asociativo de identificadores de doc.) 2. Para cada término t de la consulta Obtener la dirección de su ocurrencia L(t) Leer la ocurrencia L(t) de disco Para cada par (d, wd,t) en L(t) Si A[d] ∉A, iniciar A[d] a 0 y añadirlo al conjunto A A[d] = A[d] + wd,t 3. Para cada A[d] de A, normalizar A[d] = A[d] / Wd 4. Devolver al usuario los r mejores documentos Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 22. 4. Para saber más...
  • 23. Libros http://www.dcs.gla.ac.uk/Keith/Preface.html ¡GRATIS! Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 24. Más libros Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial
  • 25. FIN Gracias por vuestra atención (¿preguntas, consultas, sugerencias?)