Le partenariat Folha et Google indexe 2,5 millions de photographies – 19/01/2021 – Folha 100 années
👨💻
un projet de feuille en partenariat avec Google, il a indexé environ 2,5 millions d’images de la collection du journal qui n’étaient pas facilement accessibles pour la recherche.
Les fichiers étaient hébergés dans des dossiers sur le serveur du feuille, ce qui a rendu la recherche et l’accès difficiles et, en pratique, a gardé la collection obscure. L’indexation a permis aux équipes du journal de disposer progressivement de ces images rares.
Une partie de la rédaction utilise déjà ce nouveau système, et les autres journalistes y auront accès dans les prochaines semaines.
Avec une opération menée par Assetway, société de gestion de contenu numérique de Santa Catarina et partenaire de Google, l’indexation consiste à transformer les informations contenues dans une base de données (de photos, en l’occurrence) en un contenu organisé et facilement consultable.
L’initiative met en lumière des photographies des années 1940 à la fin des années 1990 réalisées pour Folhas da Manhã, Tarde et Noite, les trois journaux qui donneront naissance au feuille. En outre, les collections des journaux Última Hora et Notícias Populares, tous deux achetés par Grupo Folha dans les années 1960, sont également disponibles.
En plus des photographies, une collection de 26 000 caricatures fait partie du projet. Parmi eux se trouve la production de Belmonte (1896-1947), un célèbre dessinateur qui travaillait au journal depuis 1921, la première année.
Les temps forts incluent des photos de personnalités, de Clarice Lispector à Cacilda Becker, de Guimarães Rosa à Garrincha, ainsi que des moments historiques au Brésil et dans le monde, comme la campagne de vaccination contre la méningite, en 1975, et le mouvement Diretas Já, en 1984. Mais il reste des images de personnes et de situations quotidiennes. Beaucoup d’entre eux n’avaient jamais été publiés.
Ce projet s’inscrit dans le quotidien du journal au milieu des célébrations du 100e anniversaire de la feuille, en février de cette année.
Le matériel avait été numérisé entre 2013 et 2016 par l’équipe de la base de données, lorsque le journal s’est efforcé de préserver son contenu. La recherche d’images dans la collection numérique était cependant compliquée même pour les professionnels qui se consacraient exclusivement à cette fin.
Désormais, ce matériel est devenu facilement consultable par l’ensemble de la rédaction sur un site Web doté d’une interface similaire à la recherche de Google et peut également être mis à disposition par Folhapress, une agence de feuille qui autorise le contenu des journaux.
« Le projet améliorera le journalisme que nous produisons, car le contenu est pratiquement inaccessible aujourd’hui. La communauté universitaire et les institutions de recherche, les auteurs et les éditeurs de livres et les professionnels de la presse en général en bénéficient également », déclare Juliana Laurino, responsable administrative des salles de rédaction et directrice générale de Folhapress et de la base de données.
Débuté en février dernier, le partenariat a permis de stocker la collection dans le cloud, de lire rapidement les informations textuelles au recto et au verso de chacune des quelque 2,5 millions d’images et de créer un outil de recherche intelligent et organisé. .
Le verso des photos, à première vue un espace peu pertinent, était fondamental dans le processus. Il y a des informations précieuses pour cataloguer les images, telles que les noms, les dates et les timbres.
Une recherche de Getúlio Vargas, par exemple, peut être filtrée par une autre personnalité politique, telle que Juscelino Kubitschek, et le système renvoie des images qui contiennent leurs noms dans leurs métadonnées (informations sur chaque image, telles que le titre, le contenu, la date de modification, entre autres autres).
La technologie de recherche peut également trouver des objets qui sont dans l’image mais qui ne sont pas décomposés en mots dans les images. C’est ce qui se passe avec la recherche de « guitare Pelé », qui présente des images de la collection dans laquelle Pelé apparaît avec l’instrument, bien que seul le nom du joueur figure dans la description textuelle des photos.
« Les API [interfaces de programação de aplicações, da sigla em inglês] et la technologie Google Cloud opérationnalisée apportent ces possibilités de manière évolutive et automatisée », déclare Erica Noda, responsable des partenariats chez Google.
Jair dos Santos, bibliothécaire de la base de données qui a coordonné la numérisation en 2013 et le travail d’indexation avec Assetway, était chargé d’analyser les images en détail, de sélectionner ce qui serait inclus dans le périmètre du projet et de corriger les erreurs dans l’enregistrement de la collection pour que le robot ait moins d’obstacles — certains dossiers ont été mal nommés.
« Il y avait un dossier nommé ‘Carnaval’ dans le cadre des dessins animés. Cela me semblait étrange car elle était séparée depuis des mois », se souvient Santos.
La vérification, dit-il, a révélé une erreur dans le processus de numérisation qui s’était produite quelques années plus tôt : à l’intérieur du dossier se trouvaient en fait des œuvres du dessinateur Carvall.
« Nous avons créé l’importateur automatique, qui lit dans le système toutes les données personnalisées en fonction des fichiers du feuille, ainsi que les catégories basées sur la structure que le système des journaux avait déjà. C’était un processus très personnalisé », explique Thiago Souza, chef de produit chez Assetway.
L’action fait partie de la Google News Initiative, le programme mondial de l’entreprise technologique. Sous ce parapluie se trouvent des projets incitatifs et des partenariats avec des organes de presse et des producteurs de contenu, entre autres.
Une initiative similaire de l’entreprise a numérisé la collection photographique du New York Times, hébergée dans un sous-sol du journal connu sous le nom de « morgue », un terme qui véhicule l’idée que la richesse des archives, avant le projet, était pratiquement enterrée.
La collection de photos et de négatifs de feuille Il est situé dans des pièces du bâtiment du journal à Alameda Barão de Limeira, le siège du journal au centre-ville de São Paulo, et dans un entrepôt de la rue Conselheiro Nébias, situé à proximité. Dans ce hangar, il y a une pièce appelée « bunker » par l’équipe de la base de données, où sont conservées, par exemple, des copies de sauvegarde des éditions de journaux et des collections de microfilms.
En 2016, un épisode a mis en lumière le besoin de préservation et de disponibilité numérique du contenu de la collection. Lors d’une période de fortes pluies, une partie de la dalle d’une des salles est tombée sur des cartons de négatifs. Heureusement, les dégâts étaient mineurs car le matériel se trouvait dans de solides boîtes en plastique.
Chiffres du projet
2,5 millions
d’images
26 mille
des charges
350 millions
de mots indexés
10 téraoctets
d’information
N’oubliez pas de partager l’article avec vos amis !