Moretti, Franco (coord.). Literatura en el laboratorio: canon, archivo y crítica literaria en la era digital. Trad., Antonio Rojas Castro. Barcelona: Gedisa, 2018. 236 p. (Herramientas universitarias. Literatura; 18). ISBN 978-84-16919-83-3. 23,90 €.
En julio de 2018 se lanzaba, con cierto adanismo informativo, la noticia de cómo un laboratorio de investigación de IBM había analizado las obras seleccionadas para uno de los más prestigiosos premios literarios, el Man Booker, entre 1969 y 2017, con objeto de evaluar la existencia de patrones estilísticos y temáticos en el mismo. Se analizaron 275 obras, con el fin de descubrir las características de los personajes, su desarrollo y el contexto en la evolución de los mismos. El resultado de esta investigación fue el diseño de un mapa de palabras frecuentes asociadas a determinados rasgos psicológicos, de los léxicos privativos de los personajes, de las personalidades vinculadas, de los oficios por géneros y, en definitiva, de todo un conjunto de informaciones cuya visibilidad y consistencia estaba determinada no tanto por el ojo incisivo del crítico, sino por una adecuada combinación de cálculos computacionales y diseños algorítmicos.
La estilometría estadística y las métricas semánticas, que permiten identificar obras con conexiones a un nivel de profundidad mayor que la crítica convencional, a partir de redes o de metadatos ligeros, ha cobrado una importancia fundamental en el ámbito de la investigación literaria, gracias a los trabajos de una gran cantidad de estudiosos que, con bastante precocidad, vislumbraron las posibilidades que ofrecían las tecnologías de la información y la comunicación en el análisis de grandes corpus de datos. Entre estos pioneros se encuentra Franco Moretti que, desde fines de los años noventa, comenzó a experimentar con diversos programas para la elaboración de una metodología consistente, robusta, para la exploración de nuevos derroteros en el análisis literario.
El desarrollo de algoritmos vinculados a los elementos estructurales de un libro constituye una de las líneas de trabajo más interesantes para la conformación de sistemas de revisión basados en la naturaleza y forma del discurso que articula las obras. El enriquecimiento de los metadatos implícitos en el mismo ha sido la vía tradicional para resolver las limitaciones de los procedimientos inherentes a las percepciones externas, vinculadas a sistemas formalizados, de categorizaciones rígidas. Pero los metadatos, con ser importantes, por cuanto estructuran los elementos consustanciales a la representación formal y conceptual de las obras, no dejan de situarse en el umbral de estas, determinando recorridos periféricos, que pueden ser muy sugestivos, pero que eluden la disección en profundidad del texto. En este sentido son interesantes las formulaciones desarrolladas por Moretti, creador del Stanford Literary Lab, y otros investigadores sobre el concepto de «lectura distante». Un concepto que apunta a la necesidad de comprender las obras no a partir del análisis particular de un texto, sino mediante el análisis de cantidades masivas de datos.
El concepto de «distant reading» se opone al de «close reading», implícito en la indagación individualizada acometida tradicionalmente, cuyo desarrollo no permite vislumbrar la naturaleza y alcance de las obras consideradas contextualmente. Moretti argumenta, por ejemplo, que alguien puede aproximarse a la literatura victoriana, y que puede llegar a gestionar hasta 200 obras conformando parte del canon de esta. Pero ¿qué es esto frente a las 60.000 novelas publicadas en el siglo XIX, solo en el Reino Unido? Moretti formula una sentencia absolutamente provocadora: para comprender la literatura tenemos que dejar de leer los libros «individualmente» para descubrir las relaciones profundas que existen entre ellos.
La obra de Moretti ya había tenido acogida en el panorama editorial español de la mano de Trama Editorial que, en 2001, publicó la obra Atlas de la novela europea: 1800-1900, en la que se mantiene la teoría de que la geografía es una fuerza activa, concreta, que deja huellas profundas sobre la invención literaria, explorándose las relaciones entre formas simbólicas y formas políticas, al tiempo que estudia el modo en que se sitúan los personajes, los grupos sociales, en lugares específicos y cómo se crean los campos de poder en la obra literaria.
En 2007 Marbot Ediciones, publicó La literatura vista desde lejos (publicado originalmente en italiano por Einaudi en 2005). Moretti analiza en ella, con una perspectiva diacrónica, algunas facetas de la historia literaria, como la periodicidad en la aparición y caída de diferentes géneros literarios, la distribución narrativa espacial en determinadas formas de novela o la evolución del estilo indirecto libre en los últimos doscientos años de narrativa europea. Se trata de otra plasmación de su teoría de la distancia con respecto al texto literario, que presupone una mirada no individualizada del mismo, como habían postulado las corrientes más canónicas. Una parte de esta obra, y de sus teorías subyacentes, se publicó posteriormente por el Fondo de Cultura Económica, en el año 2015, bajo el título de Lectura distante.[1] En ella se recogen 10 ensayos («Literatura europea moderna: un esbozo geográfico»; «Conjeturas sobre la literatura mundial»; «El matadero de la literatura»; «Planeta Hollywood»; «Más conjeturas»; «Evolución, sistemas-mundo, Weltliteratur»; «El fin del principio: una respuesta a Christopher Prendergast»; «La novela: historia y teoría»; «Estilo, S.A.: reflexiones sobre siete mil títulos (novelas británicas, 1740-1850)» y «Teoría de redes, análisis de la trama».)
El título publicado por Gedisa, Literatura en el laboratorio, constituye una buena introducción para aquellos interesados en los trabajos de este pionero de las Humanidades Digitales, en su vertiente literaria. No se trata de una obra nueva, ni siquiera actual, al menos en su totalidad, y esto es algo que se debería de advertir al lector. En realidad, lo que se incluye son algunos de los «pamphlets» (folletos) que el Stanford Literary Lab, dirigido en la actualidad por Mark Algee-Hewitt, publica en abierto, y que pueden consultarse y descargar, en su versión inglesa, en el sitio web del laboratorio.
Aunque el hilo conductor de todos los estudios incluidos, que se pueden leer independientemente, sea la aplicación de métodos computacionales al estudio de corpus de datos abundantes, la génesis separada de cada uno de ellos debilita la pretendida visión de conjunto que se podría conjeturar a la vista del título, en el que Moretti oficia de coordinador, de una manera vicaria. Y es que el capítulo que sirve de introducción a la obra es el folleto 12 («Literature, measured», de abril de 2016), en que Moretti traza una revisión de los trabajos desarrollados hasta entonces, pero publicado con anterioridad a los folletos 13 («The emotions of London», octubre 2016), y 15 («Patterns and Interpretation», septiembre 2017) que, por lo tanto, no se incluyen en los comentarios introductorios, aunque formen parte de la obra publicada por Gedisa.
Resumiendo, y como guía de la obra, las correspondencias serían las siguientes:
Correspondencias entre Literatura en el laborario y los «Pamphlets» y otras publicaciones |
||
Capítulo |
Pamphlet |
Fecha publicación |
|
12. Literature, measured |
Abril 2016 |
|
1. Quantitative formalism: an experiment |
Enero 2011 |
|
5. Style at the scale of the sentence |
Junio 2013 |
|
10. On paragraphs: scale, themes, and narrative form |
Octubre 2015 |
|
11. Canon/archive: large-scale dynamics in the literary field |
Enero 2016 |
|
13. The emotions of London |
Octubre 2016 |
|
15. Patterns and interpretation |
Septiembre 2017 |
De los 16 «Pamphlets» publicados hasta ahora (el último, de noviembre de 2017: «Totentanz: operationalizing Aby Warburg’s Pathosformeln») en el título reseñado se recogen 7, poco menos de la mitad. A pesar de ello, constituyen un buen ejemplo de los trabajos desarrollados por Moretti y su equipo a lo largo de los últimos años, y sobre todo de sus esfuerzos por conciliar la tradición con la innovación introduciendo nuevas metodologías de estudio y análisis.
En el primer capítulo de la obra se da cuenta de ellas, explicitando Moretti cuáles son sus deudas epistemológicas. En primer lugar, cita la tradición formalista, en tanto que «la forma es elemento repetible de la literatura, es también el lugar hacia el cual nos dirigimos para poner en marcha el proceso de cuantificación», explica el autor. Las Ciencias Naturales constituyen el segundo eslabón metodológico importante. De ellas ha espigado sistemas propicios para su indagación estadística como la teoría de redes, las teorías entrópicas, o diferentes sistemas de medición tomados de la física y las matemáticas. Finalmente invoca como fundamento científico las teorías sociológicas de Bourdieu, en tanto que aporta una perspectiva de campo, globalizadora, al estudio de los fenómenos culturales.
Los siguientes capítulos ilustran, de una manera muy pormenorizada, diferentes experimentos emprendidos por los miembros del Literary Lab en la senda de la aplicación de métodos estadísticos a los fenómenos literarios. El primero de ellos, analizado en el capítulo 2, intenta descubrir si mediante algoritmos se pueden detectar géneros literarios. Para ello se emplea un programa que analiza las agrupaciones de palabras y su frecuencia de aparición para vincularlas con diferentes géneros y autores, de tal manera que se pueda trazar un mapa de las diferentes ocurrencias para delimitar la aparición-desaparición de determinadas formas literarias.
La fase siguiente en las tareas exploratorias, ejemplificada en el capítulo 3, fue la de analizar estructuras lingüísticas de complejidad creciente con el objetivo de captar el momento en el que el estilo deviene visible. Para ello se decidió estudiar el estilo a la escala de la frase, diferenciando entre categorías tales como OP (frase compuesta por una sola oración principal), OP-OS (oración principal seguida de una oración subordinada), OP-OI (oración principal seguida de una oración impersonal), OP-OP (oración principal seguida de una oración principal), y OS-OP (oración subordinada seguida de una oración principal). La pretensión era la de constituir una suerte de genoma narrativo, basado en las diferentes fases de intensidad, atenuación y estabilidad de las frases, detectables a través de la cuantificación de las categorías establecidas. En realidad, a lo que apuntaba esta investigación es a la posibilidad o no de establecer una vinculación entre sintaxis y semántica. La investigación permitió demostrar que es posible detectar determinadas formas estilísticas a partir del análisis de las frases, en tanto que es el resultado de la combinación de elementos originalmente separados, y que por lo tanto pueden ser formalizados de manera independiente, reconocidos y analizados mediante sistemas computacionales.
Moretti y su grupo juegan con las diferentes escalas de análisis, yendo de lo particular a lo general y de lo micro a lo macro. Si en su primera investigación se centraron en las palabras, y en la segunda en las frases, en la tercera (capítulo 4) se centran en el párrafo, con objeto de descubrir estructuras temáticas que no aparecen claramente visibles a través de las frases. En realidad, lo que descubren a través de todas estas experiencias es que en Literatura las diferentes escalas activan elementos estructurales diferentes, que la escala está directamente correlacionada con la diferenciación de las funciones textuales.
Los conceptos de Publicación, Archivo, Corpus y Canon son analizados y estudiados en el capítulo 5, en relación con un contexto literario y sociológico y las teorías bourdianas de «campo». Son muy interesantes las formulaciones teóricas efectuadas en esta parte por cuanto explicitan una serie de categorías que son extrapolables a otro tipo de casos. Para los estudios del Laboratory Lab, los textos publicados son todos los libros que han visto la luz a lo largo de la historia. El Archivo está constituido por todos los que se han conservado en bibliotecas y otros centros, y que recientemente han sido objeto de digitalización, y el Corpus es un segmento del archivo seleccionado por diversas razones para realizar un proyecto de investigación específico. El Canon, por su parte, remite a una consideración académica, refiriéndose a las obras que por razones de calidad se recogen en una base de datos o en una bibliografía. A partir de esta delimitación conceptual se efectúa una investigación basada en 4.000 novelas en inglés, del periodo de 1750 a 1880.
La investigación acomete, por una parte, la dicotomía popularidad-prestigio, tomando como referencia a Bourdieu y sus estudios sobre el mercado literario francés. Se trata de una aproximación sociológica mediante la cual se sitúan los textos en los circuitos del consumo y de la valoración canónica. Y por otra, las características morfológicas de los textos, con objeto de delimitar si los niveles de popularidad se correspondían con alguna característica de carácter formal. Para ello se midieron los niveles de redundancia (en términos de información predecible, esto es, la asociación más o menos frecuente entre determinados términos) y de información de las obras. La hipótesis de partida era que una posición social privilegiada en el canon estuviera en relación con un privilegio lingüístico, los autores canónicos deberían de utilizar un lenguaje mucho más variado que los autores olvidados. La investigación no concluyó con resultados significativos, pero sirvió para articular un modelo conceptual diferenciado de lo meramente sociológico, en el sentido de que no se puede entender la investigación de los fenómenos literarios si no es mediante una aproximación morfo-sociológica.
Uno de los capítulos más interesantes de la obra es el relacionado con la creación de una semántica del espacio a través del estudio de una geografía o un lugar mediante sus menciones en diferentes obras literarias. «Las emociones de Londres» da fe de la existencia de la dicotomía entre la geografía real y la geografía de ficción, determinada por el contexto de la creación, influida por percepciones subjetivas que generan entornos paralelos cuya proximidad o lejanía con los reales están determinados por la historia y por el discurso. Las polaridades narratológicas arbitradas en el estudio constituyen una buena muestra de las posibilidades que encierra una cartografía literaria que aprovecha las técnicas estadísticas para la conformación de eventos.
«Patrones e interpretación» constituye el último capítulo de la obra, una suerte de reflexión sobre la investigación por escalas que permiten las nuevas herramientas digitales. En opinión de Franco Moretti, los estudios literarios se han basado hasta ahora en un reducido número de obras y autores, «el canon» de cada época y lugar, en virtud del cual el estudioso ha podido proponer su propio y apenas contrastado relato de la historia literaria. Contra esta tendencia, que convierte la literatura en «la más atrasada de las disciplinas académicas», el remedio de Moretti consiste en aplicar a esta disciplina técnicas importadas de las Ciencias Naturales. En definitiva, se trata de cambiar el estudio de lo excepcional por el estudio de lo ordinario, o de sustituir el «close reading» por un análisis más distanciado del texto, capaz de poner al descubierto aspectos hasta ahora devaluados en la historiografía literaria. Los algoritmos, sostiene Moretti, han modificado nuestro objeto de estudio, el qué, y también el método empleado, el cómo. La lectura tal y como la concibe Moretti y su equipo se desplaza del texto como tal, como objeto de significado individual, al texto como banco de datos, en el que lo importante no es tanto la interpretación como la búsqueda de patrones, de tendencias, de series, de flujos, que acaban transformándose en diagramas, esquemas y diversas formas de representación masiva de datos.
Los estudios de Moretti han tenido una influencia decisiva en el desarrollo de metodologías de investigación novedosas en el ámbito literario, muchas de ellas aplicadas en otras disciplinas como la historia, la sociología o la economía desde hace años, con éxito probado. El desarrollo de la estilometría estadística es deudora de estas iniciativas que, por ejemplo, han generado la creación de software específico como Signature Stylometric System v 2.0, UAM Corpus Tool, o SAUTEE: sistema automático para el estudio estilométrico.
Pero también ha tenido una derivada más comercial, como la de predecir el éxito de un libro, en tasas que rondan el 84 % de aciertos. Científicos de la Universidad de Stony Brook de Nueva York, basándose en cerca de 50.000 obras clásicas pertenecientes al catálogo del Proyecto Gutenberg, y otras más recientes, han medido el grado de éxito de las mismas mediante un algoritmo específico. Lo singular del experimento es que se ha aplicado a diferentes estilos como la poesía, la ciencia ficción, las novelas, etc., poniendo el acento en la presencia de elementos tales como conjunciones, adjetivos, nombres, estructura de las frases, verbos, adverbios o emociones presentes, entre otros componentes analizados. Frente al análisis de personajes y situaciones propio de los estudios vinculados a la consideración individualizada en estos estudios, se contempla el descubrimiento de esquemas léxicos, sintácticos y discursivos que caracterizan la articulación de determinados patrones comunes en las obras.
Las técnicas de investigación desarrolladas al hilo de la explotación de los big data, forman ya parte consustancial de un contingente importante de propuestas provenientes de las diferentes ramas científicas. Las aportaciones de Moretti tienen el mérito de haber empezado a desbrozar el terreno para su consolidación en el campo literario. Se trata de un ámbito rico en posibilidades y oportunidades de innovación, de un terreno abonado para las Humanidades Digitales, en las que los estudios sobre las nuevas formas de lectura constituyen uno de sus fundamentos. La obra de Moretti representa una buena aproximación a las mismas, más al tratarse de un proyecto vivo, cuyas novedades se pueden seguir en las publicaciones que van apareciendo en el sitio de Literary Lab.
Literatura en el laboratorio, pero también lectura en el laboratorio, donde se da fe de procesos donde lo cuantitativo se yuxtapone con lo cualitativo, donde la lectura literaria se ve desplazada por metodologías de representación que empujan los significados latentes en las frecuencias, las repeticiones y las tendencias, pero también en las ausencias y en los silencios. Lectura de lo oculto que emerge a través de la larga duración.
José Antonio Cordón
Universidad de Salamanca
[1] Esta obra fue reseñada previamente en este blog: https://fima.ub.edu/edl/ca/lectura-distante-de-franco-moretti (N. de los E.)
Afegeix un nou comentari