Análsis de texto automatizado para captura de lugares en libros
Este experimento nace con la idea de ayudar a los lectores a indentificar los lugares en los que van sucediendo las escenas de sus libros favoritos. Personalmente cuando un lugar no sé donde está accedo a google maps y listo. Si el libro tiene muchas localizaciones desconocidas uno debe acceder tantas veces como necesite. Entonces surge la pregunta, ¿por qué los libros no llevan todos un mapa impreso?
Mapbook - Un mapa de libros
La respuesta es sencilla y ya fue expresada hace mucho por el gran editor Eduard McMilanen, artífice de novelas como ‘La Biblia 2’ y ‘El Poder del Suricata’. Cito textualmente: “¿Un mapa en los libros? Ridículo. No sirve para nada y cuesta dinero”.
En cualquier caso, este es solo un esbozo de lo que podría ser un mapa interactivo en el que seleccionar la novela leída, leyendo o por leer y ver (de momento) qué ciudades se citan. En un futuro deberían poderse encontrar todos los lugares, sean cuales sean, una calle, un arroyo, y así.
Esta obra podría hacerse de forma perfecta con el siguiente mecanismo: apuntar las localizaciones mientras se lee y después crear una base de datos con ella. Demasiado trabajo y dificultaría el disfrute de la lectura. Como no tengo tanto tiempo ni me gusta leer como trabajo, será mejor encargar el trabajo a una máquina R
. Si falla, pues que falle.
La base de datos creada para la elaboración de este mapa es por tanto fruto de un proceso desarrolado R con la siguiente dinámica:
- Crear un directorio de libros en formato ‘.epub’.
- Leer de forma secuencial los libros (utilizando la librería epub) y separar las frases que los componen.
- Buscar (grepl) de forma secuencial si las frases (hablamos de miles por libro), contienen alguna de las ciudades en world.cities[1].
- Crear una base de datos con la frase, la ciudad encontrada (una misma frase podría contener varias localizciones), las coordenadas de la ciudad y la población.
- Crear la shiny app con los puntos identificados en cada novela.
He aquí el resultado: MAPBOOK
Cuando haga un poco de limpieza debería poder publicar el repositorio en github con las funciones principales para la extracción del texto.
La evolución natural de esta herramienta pasaría por:
- Identificar todos los lugares y limpiar las NO localizaciones.
- Ofrecer resultados en distintos idiomas.
- Añadir filtros y más criterios de selección.
[1] Librería con nombres y atributos de las principales ciudades del mundo disponibles de forma abierta en R.