J’ai trié des terrains de baseball… et compris pourquoi l'IA ne remplacera pas les journalistes

De nouvelles approches plus collaboratives se développent. Elles se nourrissent du data journalisme, voire d’outils empruntés au machine learning. Elles ont fait leurs preuves dans de grands consortiums journalistiques, mais leur déploiement à d’autres échelles reste expérimental.

Comment ça marche. Dans le cadre du Congrès mondial de journalisme scientifique, qui se tient du 1er au 5 juillet à Lausanne, j’ai eu la chance de participer à un atelier sur le sujet. À cette occasion, Jeremy Merril du Quartz AI Studio, un département spécialisé du média américain Quartz, m’a fait tester quelques outils simples pour catégoriser des images.

L’intelligence artificielle n’est pas une intelligence surhumaine. Pour Jeremy Merril, il faut la considérer comme un collègue un peu stupide, à qui on peut confier des tâches répétitives qui demandent peu d’analyses.
Comme toujours en intelligence artificielle, tout débute avec le choix des données. En l’occurrence, il s’agissait de vues aériennes qui montraient ou non des terrains de baseball, mais il aurait pu s’agir de mines d’ambre en Ukraine ou de champs d’éoliennes offshore. L’essentiel est de trouver les données pertinentes, qu’il va falloir étiquetter, c’est-à-dire classer manuellement les images selon la présence ou non de terrains de baseball.
Et déjà les difficultés émergent: à quoi ressemble un terrain de baseball? Combien de temps passer sur chaque image pour le maximum d’efficacité? Quid des limites, quand le terrain n’est que partiellement visible? Autant de questions qui révèlent que les différentes stratégies mises en œuvre lors de cette étape (le faire soi-même, solliciter des aides extérieures ou payer des personnes pour le faire) peuvent influencer la qualité de l’étiquettage et donc le résultat final.
Quand suffisamment de données sont étiquetées, on passe à l’entraînement. Dans mon cas, 300 images de chaque catégorie semblent suffire. Entraîner l’algorithme — pour moi ce sera avec GoogleAutoML — est au cœur du machine learning. Cette étape construit le modèle que j’utiliserai.

Jeremy Merril estime que:

«L’intelligence artificielle reste similaire à la programmation informatique classique, sauf qu’au lieu de donner des règles à la machine, on lui donne des exemples »

Est-ce efficace? Je soumets ensuite à mon système un nouveau jeu de données, bien distinct de celui utilisé pour l’entraînement afin d’en mesurer les performances.

Surprise: les indicateurs varient beaucoup d’un testeur à l’autre, alors que nous avions tous strictement les mêmes jeux d’images et les mêmes données d'étiquetage. Nos précisions moyennes, qui représentent la qualité du modèle entraîné, vont de 75 % (pour moi!) à 94 % (pour un autre participant). Une question de chance, puisque le modèle se construit tout seul.
Un très grand jeu de données d’entraînement semble améliorer la qualité du modèle, mais il apparaît aussi qu’on peut repartir du début pour tenter d’obtenir un modèle plus performant. Tout cela reste assez obscur et je réalise que j’aimerais davantage de transparence sur le fonctionnement de mon algorithme pour comprendre ces variations.

Des résultats décevants. Lorsque j’ai testé mon modèle, il a échoué à identifier la présence ou l’absence de terrain de baseball 6 fois sur 9… Des résultats trop médiocres pour me donner confiance dans un tel système.

Peut-on éviter Google? Le géant américain investit dans le secteur. Il est même le seul à s’y intéresser parmi les GAFAM. Il offre des solutions clés en main et gratuites, qui ne nécessitent aucune compétence en code.

Pour accéder à d’autres algorithmes, il faut soit investir dans un programme, soit développer des compétences algorithmiques.

Et demain? En rédaction, l’intelligence artificielle ne se limite pas à l’analyse d’images. Des approches sémantiques ou de reconnaissance vocale se sont aussi développées. Pour la finance ou le sport, quand les informations sont strictement factuelles, des robots rédacteurs permettent déjà à des agences de presse de prendre de vitesse leur concurrent. C’est le cas du système qu’utilise Bloomberg News.

De nouveaux outils adaptés à ma pratique du journalisme pourraient aussi en théorie voir le jour. Par exemple, je trouverais utile de pouvoir:

automatiser l’identification des compétences et la recherches de conflit d’intérêts chez les experts que je sollicite,
compléter le fact-checking,
surveiller les biais que j’introduis dans ma pratique, comme le genre masculin ou masculin des personnes cités,
m’aider à trier intelligemment un large volume de littérature scientifique grâce à des outils d’analyse sémantique.

La leçon que j’en tire. Je ne vais pas radicalement modifier ma pratique suite à cet atelier. Les scores obtenus par le logiciel que j’ai utilisé me semblent trop faibles pour envisager de leur laisser la main sur mon analyse. Je ne me considère pas comme une machine à penser parfaite, qui ne fait pas d’erreur, mais je garde la possibilité de comprendre mes erreurs (et donc de progresser à court terme). Et je préfère garder le contrôle quand ma responsabilité est engagée.

Néanmoins:

Je vais peut-être apprendre à coder, pour mieux comprendre le fonctionnement de ces outils et me donner accès à des logiciels plus efficients et plus transparents.
Je garderai un œil sur le travail de mes confrères, qui développent sans cesse de nouvelles pratiques.
J’utiliserai cette expérience pour interroger les experts que je rencontre lorsque je traite de sujet sur l’intelligence artificielle. Cette technologie n’est pas magique, et de nombreux biais peuvent nuire à son efficacité.

Nouvelle revue disponible

Razzia sur nos data

Commander la revue

Razzia sur nos data

J’ai trié des terrains de baseball… et compris pourquoi l'IA ne remplacera pas les journalistes

le Point du jour