15.1.12

La Ley de Zipf, Aragón y nosotros

Conocí la Ley de Zipf hará unos 4 años. Por aquel entonces me parecía una estúpidez que daba la casualidad de ser elegante. Puede que siga siéndolo, pero más lecturas y una pequeña profundización por los recovecos de su historia han hecho que la vea cada vez con mejores ojos.

Habría muchas formas de describir el cumplimiento de la Ley de Zipf.

La más fácil: Haciendo una ordenación de mayor o menor de una serie (población de una región, número de empleados en un conjunto de empresas…), y multiplicando el número de ordenación que le haya tocado a cada elemento por su variable (población, empleados…), da siempre la misma constante.
Fue originalmente descubierta por George Kingsley Zipf que se definia a su mismo como “estadístico de la ecología humana”. Al observar que las palabras más pequeñas aparecían más frecuentemente que las palabras grandes (haciendo la contabilización de todas las palabras del libro Ulises como uno de sus últimos trabajos).
De esta forma, si la palabra que más veces salía en el libro lo hiciera, (por ejemplo) 2000 veces, la segunda palabras que más veces saldría lo haría en 1000, la tercera en 667, la cuarta en 500… de forma que 1*2000=2*1000=3*667=4*500=2000.
No es que salga exactamente claro, sino que poco a poco, tomando en cuenta un gran número de palabras, sale una regla estadística que más o menos viene a indicar lo arriba expuesto.

¿De qué demonios sirve esto?

En realidad importa lo que está detrás, es decir, si existe una función de distribución o no. En el caso económico, al hablar, por ejemplo, del tamaño de las ciudades, se utiliza para ver si la distribución del tamaño de las ciudades y pueblos a lo largo de una región es aleatoria o no, puesto que si no lo es, y por tanto existe una función de distribución que, empíricamente, es replicable en una gran cantidad de regiones, debe existir algún hecho teórico que lo explique.
Más concretamente, lo que quiere decir esta ley es que:
Que quiere decir que la probabilidad de que una ciudad (cualquiera) tenga un tamaño superior a un S es inversamente proporcional a S.

¿Y se cumple?

Una vez que nos ponemos con datos reales hay que tener varias cosas en cuenta. ¿Qué datos utilizamos? Si es cierto que existe un hecho teórico que explique esta regla hay que tener mucho cuidado en donde ponemos los bordes, límites, de nuestro estudio. En mi caso he cogido Aragón, sin ninguna pretensión más que la curiosidad por ver que salía (por mi mismo, estudios hechos ya hay). En segundo lugar, los pueblos abandonados no entran en la ecuación ya que, en si mismos no son “núcleos urbanos”, pero ¿Y un pueblo con 1 persona? ¿Con dos?
Una gran cantidad de estudios americanos dan esta regla por buena básicamente porque no tienen una gran cantidad de pueblos semiabandonados como en el caso de un país o una región con muchísima más historia y vaivenes demográficos. Hay que definir por tanto hasta qué punto o tamaño vamos a observar (normalmente se suelen coger los 100 primeros, los 200 o los 500, también depende de los datos totales que tengas).

Demonios, pon los gráficos y acaba de una vez

En el primer gráfico están todas las ciudades y pueblos de Aragón, con la población censada de 2010 (me dan un total de 1492 núcleos urbanos). Lo que se hace para comprobar la ley es hacer un gráfico de dispersión de los logaritmos del tamaño y el rango. La pendiente debe ser la unidad (1).
Lo que estamos estimando es: Ln(Rango)=A – B Ln(Tamaño), esperando que el parámetro B valga 1.
 No, no Se parece mucho, ¿qué esperabais? Y el problema no es que la pendiente no sea igual a la unidad, sino que simplemente no es recta, sino curva. Esto implica que la regla es cuadrática, complicando mucho las cosas. ¿Y por qué sale esto? Por los pueblos pequeños y porque Zaragoza sobredimensiona mucho el gráfico (no es difícil creer que de haber una explicación teórica, la determinación del tamaño de Zaragoza dependería mucho más de otras ciudades de España que del resto de pueblos a su alrededor, de ahí que dijera que es difícil establecer los límites).
Vamos a volver a intentarlo, esta vez vamos a hacer algo de trampa, considerando solo a los pueblos con una población superior a los 60 habitantes y eliminando a Zaragoza del mapa:
Ha aumentado mucho el poder explicativo, ahora la línea ya es recta y el parámetro B es casi 0,8 (entraría por poco en el margen de error que consideraría válida la regla, entre el 0,8 y el 1,2).
Y ahora vamos a hacer lo que se suele hacer, considerando únicamente a los 100 primeros (sin Zaragoza):
Ahora sí que sí. La pendiente es igual a la unidad. Si metemos Zaragoza sale 0,9 en vez de 1, igualmente entraría dentro de los “aceptable”.

Vale muy bien, ¿Y qué?

¿Esta regla es casual, viene determinada por la propia estadística o hay un modelo teórico detrás que lo respalde?
Pues quizás un poco de las tres.
Vamos a echar un vistazo a como sería el gráfico si la distribución del tamaño de las ciudades fuera totalmente aleatoria para el caso anterior (las 100 primeras):
Esta claro que hay algo que impide que la distribución de las ciudades sea aleatoria, al menos en las ciudades grandes, pues los gráficos son muy diferentes. Conforme las ciudades se hacen más pequeñas, su distribución sí que se hace más aleatoria.
Se dice que “las colas” de la distribución son más pesadas (hacen que la línea recta tienda a caerse), y estadísticamente se arregla añadiendo otras distribuciones especiales para las mismas.
En cuanto al proceso teórico que puede derivar en este hecho empírico, del que se habrán hecho estudios en cualquier lugar del planeta, hay pocos y aunque satisfactorios, no completamente ilustrativos.
Espero que os haya gustado este pequeño paréntesis estadístico / curioso, que os hayáis enterado de algo (me cuesta explicarlo sin ponerme técnico) y que os haya parecido menos estúpido de lo que a mi, la primera vez, me pareció.
Por si os lo preguntáis, cogiendo los doscientos primeros, en Teruel la pendiente sale igual a 0,9, en Huesca 0,87, en Zaragoza 0,78.

PD: Este análisis es meramente anecdótico, se ha intentado no matar al rigor estadístico por el camino, pero todo está hecho mediante excel. Fuente (nuestra) aquí