lunes, marzo 28, 2011

Los Ngrams: Cómo medir la guerra de los sexo y de las ideas

¿Los hombres o las mujeres?; matemáticos, psicólogos, ingenieros y biólogos crearon una herramienta que se sumerge, según explicaron a lanacion.com, en millones de libros para responder, entre otras preguntas, quiénes ganan esa batalla
La pregunta lleva al principio de los tiempos de la lucha por el poder: ¿quienes ganan en la guerra de los sexos?, ¿los hombres o las mujeres?


Si se busca la respuesta en una muestra de los libros publicados desde la invención de Gutenberg, este será el resultado desde el año 1800 hasta el 2000:



El gráfico muestra que los "hombres" tienen éxito casi absoluto hacia el año 1820 mientras que las "mujeres" comienzan a avanzar con posterioridad al año 1830 y luego de un impresionante ascenso a partir de 1980 les ganan, cerca de 2000. Puede parecer superficial, pero los científicos buscan poder detectar con esta herramienta el modus operandi de la censura y hasta sueñan con que sea capaz de quebrar el proceso de la creación de las ideas.

La medición toma el pulso del interés dentro de los libros publicados en ese período con la ayuda de una nueva herramienta, el Ngram Viewer , ideada por decenas de matemáticos, psicólogos, biólogos, ingenieros y lexicógrafos de la Universidad de Harvard, del Instituto Tecnológico de Massachusetts (MIT), de la Encyclopaedia Britannica, del diccionario The American Heritage apoyados en la enorme estructura de Google Books, que busca digitalizar todos los libros alguna vez publicados en el planeta.

Hasta el momento, la empresa lleva escaneado más de 10%, unos 50 millones de libros, aunque para el Ngram -por las debilidades de la tecnología OCR (Optical Character Recognition, reconocimiento óptico de caracteres)- se tomó un 4%
"Funciona casi como una encuesta. Lo que esta empresa busca no es saber quién es el líder de mayor influencia en los Estados Unidos sino preguntárselo a la gente al azar. Y en cierto sentido, ese es nuestro acercamiento [de investigación]. Es como si tratáramos de llevar la encuesta a la gente que ha escrito en determinado período [de la historia]", explicó a lanacion.com Erez Lieberman Aiden, uno de los mentores de la idea, en una conversación telefónica desde Boston, Estados Unidos.

Lieberman Aiden y Jean-Baptiste Michel, originarios de Nueva York y de la isla de Mauricio, les propusieron un cambio a los ingenieros de Google en 2007 que implicaba "quebrar" la unidad del libro para dividirlo en una unidad mínima de contenido, llamada ngramas por las palabras o frases en la que puede decodificarse un texto, que transformara la biblioteca digitalizada de Google en millones de esos ngramas con los que se pudieran llevar a cabo distintas investigaciones.

Entonces, ¿cómo saber si la prevalencia la tienen los hombres o las mujeres? Según estos científicos, con la combinación de la matemática y la biología en una nueva disciplina llamada Culturomics: "Algunos la confunden con Economía (Economics, en inglés), pero en realidad está vinculada con la biología. Específicamente a la genómica, que utiliza datos de la matemática aplicada para estudiar ciertos fenómenos. Y ese es el verdadero sentido con el que usamos el término culturomics", explica Lieberman Aiden.

Parten del presupuesto de que los cambios culturales canalizan las ideas sobre las que hablamos (y sobre las que escribimos) y que el cambio lingüístico, que tiene sus raíces en la cultura, afecta las palabras que elegimos para referirnos a esos conceptos. El que se elija hablar de los hombres o las mujeres, entonces, habla de las variaciones en la evolución de las ideas humanas.
Para conocer esas variaciones la nueva herramienta funciona en forma similar a las búsquedas online de Google, salvo que el resultado no es un listado de sitios web, sino una curva de ocurrencia de las palabras ingresadas. Lo mismo que sucede con la consulta sobre la guerra de los sexos, tiene lugar con otras preguntas.

Si Newton y Leibniz no hubiesen estado ahí [para inventar el cálculo], alguien más podría haber llegado a la misma idea sumando un infinito número de pequeñas cosas, porque básicamente eso es a lo que el cálculo se reduce.Me gustaría que el Ngram permitiera en el futuro próximo hacer un test -tomando una serie de palabras- poder traducirlas a diferentes idiomas y hacer búsquedas para saber si antes de Newton y Leibniz la gente ya tenía ideas que las hubieran conducido inevitablemente al descubrimiento del cálculo


Parten del presupuesto de que los cambios culturales canalizan las ideas sobre las que hablamos (y sobre las que escribimos) y que el cambio lingüístico, que tiene sus raíces en la cultura, afecta las palabras que elegimos para referirnos a esos conceptos. El que se elija hablar de los hombres o las mujeres, entonces, habla de las variaciones en la evolución de las ideas humanas.
Para conocer esas variaciones la nueva herramienta funciona en forma similar a las búsquedas online de Google, salvo que el resultado no es un listado de sitios web, sino una curva de ocurrencia de las palabras ingresadas. Lo mismo que sucede con la consulta sobre la guerra de los sexos, tiene lugar con otras preguntas.

En realidad, todo empezó como un estudio lingüístico. "Para un investigación que iniciamos sobre la forma en que evolucionaron los verbos irregulares en inglés armamos un registro en el que asentábamos cómo un verbo se iba haciendo regular. Para eso abríamos distintos libros de gramática dedicados al inglés medio y antiguo y buscábamos los verbos irregulares manualmente. Nos tomó un año y medio obtener los datos, que volcamos en una plantilla Excel de unas 200 o 300 líneas, y lo publicamos. Sin embargo, nos dimos cuenta de que si queríamos acometer el estudio de los adjetivos u otros verbos, teníamos que hacer todo de nuevo otra vez. Así fue cómo surgió la idea del Ngram", recordó Michel.

La herramienta muestra los datos, o la evidencia tal como la definen. Saber qué fue lo que sucedió para que las mujeres ganaran la batalla de los sexos hacia el siglo XXI, es decir la interpretación de lo que muestran las curvas de ngramas, es algo que dejan -todavía- en manos de otros investigadores. El sueño del ingeniero que tuvo a su cargo el desarrollo de Ngram en Google es poder refinarla para que sea capaz de quebrar la génesis del proceso creativo de las grandes ideas de la humanidad.
"Me gustaría poder ampliar la herramienta en algo que sea más que el conteo de palabras o frases. Un día, que hablaba con Steven Pinker, un profesor de Harvard coautor del paper, le pregunté: «En un mundo ideal, ¿qué es lo que querrías hacer con todos los libros que existen?» Y él me dijo: «Testear las teorías de los grandes hombres». Por ejemplo, el cálculo, la matemática, fue inventada por dos personas simultáneamente, Newton y Leibniz. Podrías argumentar que «el cálculo estaba en el aire», que si Newton y Leibniz no hubiesen estado ahí, alguien más, podría haber llegado a la misma idea sumando un infinito número de pequeñas cosas, porque básicamente eso es a lo que el cálculo se reduce. Podrías testearlo tomando una serie de palabras, traducirlas a diferentes idiomas y hacer búsquedas para saber si antes de Newton y Leibniz la gente tenía ideas que inevitablemente las podrían haber conducido al descubrimiento del cálculo", explicó.
Un poco antes de tratar de materializar ese sueño su idea es ampliar el porcentaje de libros que integra el corpus, algo que podría estar listo antes de que termine el año. Michel, por su parte, desea poder lograr que el buscador sea capaz de reconocer qué función cumple cada palabra dentro de la oración. Y opina Lieberman Aiden: "Lo que creo que el Ngram ya hizo es cambiar completamente la discusión sobre cuál es la relación entre la ciencia y las humanidades."

Científicos famosos y twitteros eruditos
Como el código de la herramienta está disponible para todo el público, ya hay varios desarrollos que se pueden visitar en la red. El periodista científico John Bohannon lo utilizó para crear lo que él llamó El Salón de la Fama de la Ciencia . Tomó todos los nombres de los científicos en Wikipedia y decidió medir su fama en una unidad que llamó millidarwins (mD, que es la milésima parte del Darwin, la unidad que describe la frecuencia promedio anual en la que la palabra "Charles Darwin" aparece en los libros escritos en inglés entre el año 1839 -cuando el científico tenía 30 años- y 2000), el resultado fue publicado en la revista Science .



Basado en el trabajo de Bohannon, Jonathan Feinberg -en Google- decidió animar la evolución de la fama científica dando tamaño a los nombres de los famosos según la frecuencia con que aparecen en los libros publicados entre 1850 y 2000.

Otro de los desarrollos disponibles lo tomó el diario británico The Times que también recurrió a Twitter para proponer un juego que arma un ránking, pero de eruditos twitteros. Se llama Word Nerd, y lo que mide es el léxico que utilizan quienes mensajean en 140 caracteres.

No hay comentarios.: