Sobre la revisión de la ley de Zipf y la comunicación eficiente

[divider_flat] Durante muchos años, los lingüistas han mantenido que la longitud de las palabras está relacionada con su frecuencia de uso. Las más cortas tienden a ser las más habituales, y viceversa. Pensemos en los “de”, “a”, “y”, “el”, “que” y en tantos otros cortísimos vocablos que pueblan un texto cualquiera o una conversación. Y reparemos en la rareza de las palabras que tienen más de 15 o 20 letras. Tetrametildiaminodifenilsulfonas, con sus 32 letras, una detrás de otra, pasa por ser la más larga en español, como nos contaba Eumanista en su muy recomendable post Cómo de larga la tenemos, la palabra.

Está claro que utilizamos mucho más las palabras cortas que las largas, pero el primero en darse cuenta –y formularlo matemáticamente– de que existía una asociación entre la frecuencia de uso y la longitud de las palabras fue George K. Zipf. Este lingüista y filólogo de Harvard, que enunció en 1935 la ley empírica que lleva su nombre, sostenía que tendemos a acortar las palabras más usadas para ahorrar tiempo al hablar y al escribir.

El lenguaje es sin duda un buen ejemplo de este principio del mínimo esfuerzo de Zipf , “un principio que –como él decía y sabemos por experiencia– gobierna toda nuestra vida individual y colectiva”.

Quizá por eso durante los últimos 75 años nadie ha cuestionado (con pruebas científicas, se entiende) la ley de Zipf. El año pasado, sin embargo, un grupo de investigadores del Massachusetts Institute of Technology (MIT) publicó un trabajo que mostraba que la longitud de una palabra está más estrechamente relacionada con la cantidad de información que contiene que con su frecuencia de uso.

La publicación de este artículo (Word lengths are optimized for efficient communication) en la prestigiosa revista científica Proceedings of the National Academy of Sciences (PNAS) es todo un aval para el planteamiento de Steven T. Piantadosi, Harry Tily y Edward Gibson, aunque el cálculo de la “cantidad de información” es posiblemente su punto más cuestionable.

¿Cómo se puede medir la “cantidad de información” que contiene una palabra? Los autores asumen que una palabra es tanto más informativa cuanto más impredecible resulta, y utilizan una fórmula matemática para calcular la predictibilidad de las palabras en una decena de idiomas, entre ellos el español.

Los resultados de esta investigación indican que las palabras más cortas no son simplemente las más frecuentes, sino –lo que es más importante– las menos informativas y las más predecibles. El tamaño de las palabras parece estar optimizado para garantizar una comunicación más eficiente. Esto deberá ser estudiado por otros investigadores, pero de momento lo que ya conseguido el grupo de Piantadosi es cuestionar la ley de Zipf y obligarnos a pensar sobre el tamaño de las palabras.

Foto: Andrés Nieto Porras / Flickr