¿Cuántas referencias de Wikipedia están disponibles para leer? Medimos la proporción de fuentes de acceso abierto a través de idiomas y temas


Porcentaje de citas abiertas

Las citas son el puente entre los artículos de Wikipedia y un panorama más amplio de fuentes secundarias confiables. Las citas no solo permiten a los lectores verificar la confiabilidad de los hechos que encuentran en Wikipedia; a través de las citas, los lectores también pueden sumergirse en cualquier tema mediante la exploración de libros, publicaciones académicas e historias de noticias a las que se hace referencia en un artículo.

El uso que hace Wikipedia de las fuentes de acceso abierto (publicaciones a las que cualquier persona en línea puede acceder de forma gratuita) desempeña un papel fundamental en el apoyo de la verificación de datos y en el fomento de la alfabetización digital. Iniciativas como las asociaciones de la Biblioteca de Wikipedia permiten a los editores obtener acceso gratuito a la literatura de pago, mientras que las herramientas automatizadas como OAbot ayudan a los editores a encontrar versiones de acceso público que se pueden agregar a las referencias de artículos de Wikipedia. Sin embargo, Wikipedia no tiene políticas que explícitamente favorezcan el acceso abierto a través de fuentes basadas en suscripciones al citar información. En realidad, Wikipedia aún enlaza tanto fuentes de acceso abierto como de pago.

¿Cómo afecta esto a los lectores?

Recientemente lanzamos un conjunto de datos de todas las citas con identificadores en Wikipedia. Esto no representa todos los libros, artículos y sitios web a los que se hace referencia en Wikipedia (más análisis de lo que vendrá), sino el subconjunto sustancial de fuentes que tienen un código que identifica de manera única el trabajo, como un identificador de objeto digital (DOI) en el caso de artículos académicos, o un número de libro estándar internacional (ISBN) para libros. Se podría pensar que este gran subconjunto de citas representa aproximadamente las fuentes académicas de Wikipedia. Para estimar la proporción de estas fuentes académicas que son de lectura libre, estamos lanzando un nuevo conjunto de datos que arroja luz sobre estas citas por su nivel de accesibilidad y tema.

Para crear este conjunto de datos, hicimos referencias cruzadas con datos proporcionados por Unpaywall, una base de datos que recopila información de accesibilidad de más de 19 millones de artículos, y asociamos el identificador de objeto digital (DOI) de cada publicación académica citado en Wikipedia con una etiqueta de accesibilidad: «Abrir» si el editor (fuente) proporciona una copia gratuita, «Cerrado» si es una publicación de pago, o «Disponible» si la versión oficial está pagada pero existe una copia abierta disponible en otra parte de la web (por ejemplo, depositada legalmente por el autor en un depósito de la universidad). En total, reunimos valores de accesibilidad para alrededor de 450,000 publicaciones académicas citadas en 300 idiomas de Wikipedia.

Encontramos que menos de la mitad de las versiones oficiales de publicaciones académicas citadas con un identificador en Wikipedia están disponibles de forma gratuita en la web: el 29% son de lectura gratuita en la fuente, mientras que un 10% adicional tiene una lectura gratuita.

Accesibilidad del tema

La fracción de contenido gratuito que se puede leer depende en gran medida del tema que le interese. Para explorar hasta qué punto los lectores pueden acceder al contenido sin tocar un muro de pago según sus intereses, caracterizamos cada publicación con una categoría de tema mirando en el tema principal de las páginas de Wikipedia que citan una publicación. Luego usamos la herramienta draftópica para asignar una página de Wikipedia con un tema de la Jerarquía de Wikiproject. Como la herramienta solo funciona para la Wikipedia en inglés, asignamos temas a páginas de Wikipedias que no están en inglés al encontrar su correspondiente versión de Wikipedia en inglés a través de Wikidata.

Si le apasiona el espacio, tendrá muchas más oportunidades de acceder libremente a las fuentes de los artículos de Wikipedia que lee: alrededor del 55% de las publicaciones en artículos relacionados con el espacio están abiertas. Por el contrario, si está interesado en la química, es muy probable que tenga que pagar para leer las publicaciones citadas en sus artículos favoritos de la Wikipedia o confiar en una suscripción institucional: el 83% de las publicaciones en artículos de química en todos los idiomas están pagados.

La accesibilidad también varía significativamente entre los idiomas. Si lees Wikipedia en bielorruso, estarás vinculado a una gran cantidad de publicaciones académicas gratuitas (alrededor del 45% están abiertas). Por el contrario, si solo hablas jemer, solo se puede acceder libremente a alrededor del 20% de las publicaciones académicas citadas en tu edición de Wikipedia.

Más allá de las diferencias entre los temas y los idiomas, nuestros datos también permiten descubrir áreas de contenido de Wikipedia que pueden ser «sin pago», es decir, temas sobre los cuales podemos mejorar la apertura de las publicaciones mencionadas. Por ejemplo, mientras que los artículos en matemáticas pueden no tener una gran cantidad de fuentes oficialmente disponibles libremente (solo 15%), encontramos que una mayor proporción de publicaciones en este campo (25%) tienen una copia gratuita disponible en la web. Del mismo modo, Wikipedia en Punjabi es una edición en lenguaje que cita muchas fuentes de pago (solo el 17% están abiertas); sin embargo, alrededor del 24% de los artículos académicos a los que se hace referencia en este idioma tienen una versión que no tiene pagos.

Explorando los datos

A principios de este año, un equipo de desarrolladores de la Fundación Wikimedia, eLife y SAGE Publishing utilizó el conjunto de datos para crear un prototipo de una herramienta web llamada WikiCiteVis para buscar y visualizar el mundo de las citas de Wikipedia. Durante el eLife Innovation Sprint 2018, el equipo comenzó a trabajar en la herramienta, y desde entonces han producido una aplicación web que permite a los usuarios consultar la base de datos de citas actualizada de Wikipedia en un navegador, incluyendo enlaces a artículos de Wikipedia y artículos citados subyacentes. Ahora se  puede ver cómo se cita un artículo o libro académico en Wikipedia usando WikiCiteVis. Los usuarios también pueden enviar sus comentarios y sugerir nuevas funciones a través de GitHub, o considerar la creación de estas funciones por sí mismos.

Puede acceder al conjunto de datos completo de citas por tema y accesibilidad en https://doi.org/10.6084/m9.figshare.6819710. Para nuestra versión anterior de los datos y el análisis de las fuentes más citadas en Wikipedia, consulte esta publicación en el blog o lea más en Wired and Nature.

También estamos realizando investigaciones para comprender cómo los lectores de Wikipedia usan citas (y por qué) e identificar cuándo las declaraciones individuales necesitan citas adicionales. Estén atentos para más actualizaciones sobre estos proyectos.

Expresiones de gratitud

Nos gustaría agradecer a Heather Piwowar y Jason Priem de ImpactStory por poner a disposición del público los datos de Unpaywalled.

También nos gustaría dar las gracias a David Moulton, desarrollador front-end senior en eLife, sus colaboradores Sean Wiseman y Chris Wilkinson, junto con Sam Walton de la Fundación Wikimedia e Ian Mulvany de SAGE, por trabajar en WikiCiteVis durante y después del eLife Innovation Sprint .

 

Miriam Redi, científica investigadora

Dario Taraborelli, Director, Jefe de Investigación

Jake Orlowitz, The Wikipedia Library, Programas comunitarios

Fundación Wikimedia

 

 

Fuente consultada: https://wikimediafoundation.org/2018/08/20/how-many-wikipedia-references-are-available-to-read/

Deja un comentario