La matemática cuántica podría sacudir a Google?

Una técnica matemática para el estudio de sistemas cuánticos podría mejorar las búsquedas de palabras clave en Internet. Es capaz de detectar patrones significativos en los grandes conjuntos de datos tales como páginas Web y documentos de texto, e incluso pueden ser adaptables para el análisis del genoma.

Los buscadores Standard hacen la búsqueda de palabras clave, comparando las frecuencias en un solo documento con las frecuencias desde muchas fuentes. Si una palabra en el documento que se produce con más frecuencia que la media, se considera importante.

El nuevo método para medir la importancia de las palabras en un documento esta basado en donde aparecen, y no simplemente en la frecuencia con que se produzcan. “Usted debe ser capaz de detectar una propiedad intrínseca de un libro sin necesidad de compararlo con diferentes libros”, dice Pedro Carpena, un físico de la Universidad de Málaga en España.

“La importancia de las palabras en un documento puede basarse en donde aparecen, en lugar cuantas veces aparece”

Carpena utilizado previamente un campo de las matemáticas llamada teoría de la matriz al azar para analizar sistemas cuánticos. Ahora dice que la misma técnica puede utilizarse para identificar palabras en los documentos más destacados (Physical Review E, vol 79, p 035102).

Las palabras importantes tienden a ser agrupadas juntas, dice Carpena, mientras que parece menos importante palabras más distribuidas al azar. Esto da un sentido intuitivo, añade: los autores desarrollan ideas importantes, es probable que utilicen las palabras muchas veces en el mismo párrafo o una página antes de pasar a otras ideas. Palabras menos importantes como”y”, “pero” tienden a aparecer más uniformemente a través del texto.

La técnica ha funcionado bien en las pruebas de Carpena. Uso de la teoría matriz azar para extraer las palabras clave de un libro de Albert Einstein, llamado Relatividad: La teoría especial y general, se encontró con “universo”, “campo”, “gravitacional” y “energía” entre los 10 primeros resultados.

El método podría incluso generar resultados útiles cuando Carpena haya eliminado los espacios de un documento de texto y pedirle a la computadora determinar las combinaciones de letras de entre 2 y 35 caracteres de longitud. Esto sugiere que podría trabajar también en los conjuntos de datos más abstractos. Carpena y sus colegas están probando actualmente la idea sobre el genoma humano para ver si se puede extraer información útil acerca de los genes.

No es claro si el método de búsqueda es realmente superior a los ya existentes, dice Oren Etzioni, un científico de computación de la Universidad de Washington en Seattle. Señala que aún Carpena no ha comparado sus resultados con los métodos existentes.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s


%d bloggers like this: