Bloquer la publicité dans les PDFs à l’aide de LaTeX

Posté par Fabrice le mardi 23 avril 2019 Mis-à-jour le jeudi 25 avril 2019 Traduction : en

J’éprouve un sentiment de frustration envers les publicités (à part quand elles sont bien faites bien entendu).
Comme, j’imagine, beaucoup d’entre vous, j’utilise un bloqueur de publicité pour surfer sur le net, mais il y a un genre de publicité qui me hérisse le poil au plus haut point: la publicité sur les billets à imprimer. Non seulement ça empoisonne nos yeux, mais en plus ça nécessite de l’encre pour l’imprimer !

Je suis conscient que l’on peut simplement ouvrir le code à scanner sur nos téléphones de nos jours, mais même, n’est-ce pas plus agréable de simplement se débarrasser des publicités directement ?

Une première solution évident serait d’importer le fichier pdf dans n’importe quel logiciel d’édition d’images matricielles et utiliser un outil de détourage rectangulaire quelconque pour en finir avec la publicité dérangeante. Cependant, cela produit un nouveau pdf (ou une image en fait) qui ne contient plus aucune information textuelle, et qui (suivant la résolution) grossit sensiblement en poids.

Pour éviter ça, il suffit dès lors d’utiliser un logiciel de dessin vectoriel, par exemple ouvrir le fichier pdf dans inkscape et supprimer d’un seul coup l’image correspondant à la publicité.

Si cela est plus élégant, cette approche n’est toujours pas parfaite. En effet, si vous ne possédez pas les polices sur votre ordinateur, cela casse l’affichage des fonts en basculant sur les polices du système. De plus, certaines polices (comme (Comme la police “Excellence in Motion” d’Air France) sont propriétaires et un peu velues à obtenir facilement par des moyens légaux.

Mais inkscape peut toujours nous servir pour supprimer ces publicités dérangeantes ! En effet, parmi les informations que ce dernier fournit, il donne la position et les dimensions de ces publicités, comme illustré ci-dessous (cliquez pour agrandir):

Inkscape pour repérer les dimensions

Explications: Après avoir ouvert le pdf, on commence par sélectionner la publicité (en violet), il se peut qu’on ait besoin de dégrouper les objets (ctrl+maj+g). Ensuite, on fixe les dimensions dans notre unité de mesure favorite, par exemple en cm (en bleu), et finalement noter les dimensions du cadre de la publicité en question (en rouge).

Ensuite, il nous suffit d’utiliser LaTeX pour recouvrir la publicité d’un voile blanc (ou n’importe quelle couleur de fond, je laisse au lecteur le soin de découvrir comment LaTeX permet d’importer n’importe quellle couleur RGB à l’aide du paquet xcolor). J’ai déjà utilisé le paquet wallpaper dans un autre billet, mais celui-ci souffre de quelques limitations: il ne permet pas d’importer plusieurs pages (comme sur un billet aller-retour), et tikz interagit mal avec la géométrie de la page induite par wallpaper (ne me demandez pas pourquoi).

Je me suis donc inspiré de cette réponse sur stackexchange pour arriver à mes fins. Pour faire simple, on utilise le package pdfpages avec ses options pages={-} pour inclure toutes les pages, et pagecommand pour inclure rectangle blanc avec les bons positionnements et dimensions X, Y, L, H. Cela donne le fichier .tex suivant, qui peut simplement être compilé à l’aide de votre moteur latex favoris (par exemple pdflatex fichier.tex deux fois).

\documentclass[a4paper]{article}
% Tikz et pdfpages
\usepackage{tikz}
\usetikzlibrary{calc}
\usepackage{pdfpages}
% Éviter la numérotation des pages
\pagestyle{empty}
\begin{document}
\includepdf[pages={-},% inclure toutes les pages
  pagecommand={% est appelé à chaque page
    \begin{tikzpicture}[remember picture,overlay]
      \draw[color=white,fill=white] ($(current page.north west) +%
         (X, -Y)$) rectangle ++ (L, -H);% position et dimensions
    \end{tikzpicture}%
}]%
{original fichier.pdf}
\end{document}

Remarque: vous avez sans doute remarqué le signe moins devant Y et H. Cela est dû à l’orientation des repères qui n’est pas la même entre tikz et inkscape (et gimp).

Voici quelques exemples de dimensions que vous pouvez copier-coller (je laisse ça là pour moi):

  • Rhônexpress:
… + (1.5cm, -14.65cm)$) rectangle ++ (18cm, -9cm);
  • Les billets pliables d’Air France/KLM
… + (11cm, -18cm)$) rectangle ++ (9cm, -9cm);

Vous avez sûrement remarqué que ce ne sont pas les mêmes dimensions que m’ont donné inkscape, c’est à cause des billets Air France qui possèdent parfois un encart publicitaire plus grand. Qui peut le plus peut le moins.
Mais de toute manière, si vous souhaitez utiliser votre téléphone, ces compagnies fournissent aussi une image png minimale sans publicités !

Comme je n’achète pas des billets d’avion tous les jours, je n’ai pas ressenti le besoin de scripter tout ça, en plus je n’ai pas assez d’exemples de tels fichiers pour faire une base de donnée suffisamment intéressante. Néanmoins, écrire ce billet a été l’occasion de me dire que ça pourrait être une bonne idée pour récupérer collaborativement cette base de donnée… Le script en question est donc prêt à être cloné par ici. Comme il s’agit d’un dépôt privé auto-hébergé, si vous souhaitez contribuer, je vous invite à faire une pull request sur ce dépôt github ou m’envoyer un courriel à l’adresse courriel. Dans tous les cas, n’hésitez pas à me contracter si vous avez des remarques, des commentaires ou des questions.

xkcd 1319 Randall Munroe
XKCD #1319 par Randall Munroe.

Voir aussi

  • pdf-adblock sur github.
    Un script qui repose sur des heuristiques (comme le fait qu’une publicité aura de grandes chances d’être une image) pour supprimer automatiquement les pages de publicités d’un PDF (par exemple celui d’un magazine).

tags: LaTeX, inkscape, ads, git