Phrase et au-delà Traduction automatique

98 : Où la machine bat la mémoire en vitesse de traduction

Martin ŠvestkaDirector of Product, TMS & CAT

Last updated on 14 octobre 2024.

Découvrez comment la traduction automatique surpasse la mémoire de traduction traditionnelle en rapidité et en efficacité. Découvrez comment optimiser votre processus de localisation grâce à des informations et l'analytique basée sur les données.

Abstract representation of flowing digital data with hexagonal patterns, depicting the concept of AI and technology in translation and localization.

Dans notre monde hyper-connecté, chaque seconde compte.

L’IA provoquant une explosion de contenu, la vitesse à laquelle l’information est livrée est cruciale pour rester compétitif. Communiquer dans une langue que votre public comprend est vital pour atteindre des marchés internationaux. Mais comment pouvons-nous accélérer ce processus ?

Nous avons décidé de mener l’enquête.

Overview

Analyser les chiffres

Nous avons analysé une tonne de données pour trouver comment nos clients peuvent réduire le temps qu’ils passent à traduire leur contenu. 956.675.510 points de données pour être exact.

Comme vous pouvez vous y attendre, les segments avec un score de correspondance approximative élevés sont plus rapides à éditer. Mais lorsque l’on atteint le seuil de 93, la durée se stabilise. En dessous de ce seuil, les temps d’édition ne sont pas plus rapides, car les segments de mémoire de traduction ont tendance à être réécrits depuis le début.

Puis, nous avons comparé les temps d’édition des segments de mémoire de traduction (MT) et de traduction automatique (TA).

En moyenne, la modification des segments générés par la traduction automatique nécessite 5,8 secondes. Les seuls segments de mémoire de traduction qui battent la traduction automatique sont ceux qui ont un score de 98 ou plus.

Donc, à moins que vous n’ayez affaire à des correspondances approximatives très élevées, la traduction automatique est votre meilleur choix pour gagner du temps.

Graphique représentant le temps d’édition des segments de traduction par rapport aux scores de correspondance approximative. Les temps d’édition en mémoire de traduction varient selon les différents scores, tandis que traduction automatique est représenté par une ligne plate, indiquant un temps d’édition cohérent quel que soit le score de correspondance.

Qu’entendons-nous exactement par temps d’«édition» ?

Nous suivons deux durées différentes, le temps de réflexion et le temps d’édition. Lorsqu’un utilisateur clique dans un segment, le temps de réflexion et d’édition commence à être suivi.

Une fois que l’utilisateur commence à modifier le segment, le compte du temps de réflexion s’arrête, mais le temps d’édition continue d’être enregistré. Lorsque l’utilisateur clique ensuite dans un autre segment, le comptage du temps d’édition s’arrête.

Illustration montrant le flux de temps de réflexion et de temps de modification dans la traduction. Elle visualise le temps passé à cliquer dans un segment, à commencer à taper et à cliquer dans un segment différent, avec des sections distinctes pour le temps de réflexion et le temps de modification.

Lorsque l’utilisateur entre dans un segment précédent, le comptage reprend et chaque nouvelle durée est ajoutée aux valeurs précédentes.

S’il y a des modifications lors de la saisie, les temps de réflexion et d’édition sont mis à jour. Toutefois, si la saisie à nouveau d’un segment n’entraîne aucune modification, les temps restent inchangés malgré la reconfirmation du segment.

Et qu’en est-il des pauses ?

Il y a toujours un ensemble de segments avec des temps d’édition inhabituellement longs. Cela arrive souvent lorsque le linguiste est distrait en cours de modification – peut-être qu’il consulte son téléphone ou prend un café.

Le temps moyen d’édition étant d’environ 20 secondes, nous ajoutons une mémoire tampon de 50% et retirons tous les segments qui prennent plus de 30 secondes. Bien sûr, certaines modifications plus longues peuvent être légitimes, mais la plupart du temps, ce n’est pas pertinent.

Nous avons cependant vérifié si le retrait de ces segments de plus de 30 secondes affecte les données.

Sur des échantillons de données importants, cela fait à peine la différence. Mais sur les petits échantillons, ça peut être plus perceptible.

C’est logique : si vous faites une «pause café» au milieu d’une petite tâche, cela aura un impact assez évident sur le temps total d’édition.

C’est pourquoi nous filtrons ces segments longs pour conserver des données pertinentes.

Pourquoi ne pas simplement utiliser la distance d’édition ?

La distance d’édition peut être assez trompeuse : elle facilite grandement la correction d’une traduction.

Elle simplifie en comptant uniquement les frappes pour les corrections, mais ignore complètement la réflexion et l’expertise nécessaires pour s’assurer que la traduction est réellement exacte.

Ce qui manque vraiment à la distance d’édition, c’est la mesure du temps de réflexion. Il ne s’agit pas seulement d’appuyer sur les bonnes touches.

Le temps d’édition,même s’il n’est pas parfait, est une bien meilleure mesure de cet effort mental et cette complexité. Il reflète le travail réel, pas seulement le nombre de frappes.

Quels segments ont passé la sélection ?

Pour obtenir une vue précise des performances des tâches, nous incluons tous les segments des processus terminés, même ceux sans temps d’édition.

Cela permet de refléter l’impact réel de l’optimisation. Voici les segments que nous prenons en compte :

Nous choisissons des segments de projets où toutes les étapes du processus sont complétées. Nous considérons l’achèvement des tâches comme un signe que les segments sont «terminés».
Nous incluons les segments avec 0 en temps d’édition, car si l’optimisation conduit à davantage de segments qui n’ont besoin d’aucune modification, cela doit être pris en compte.

Exemple :

Imaginons que vous ayez une tâche à 5 segments, et qu »à l’origine 3 segments nécessitaient des modifications avec des temps de 6, 8 et 10 secondes.

Après avoir optimisé le seuil de mémoire de traduction, seules deux modifications sont nécessaires : 8 et 10 secondes.

Si nous ne regardions que les segments modifiés, le temps moyen serait passé de 8 secondes avant à 9 secondes après, ce qui suggère à tort que les choses ont empiré.

Mais lorsque nous incluons les segments intacts, les moyennes sont de 4,8 secondes avant et 3,6 secondes après, ce qui reflète une amélioration.

Pour la même raison, nous n’excluons pas non plus les segments verrouillés.

Les données relatives aux segments des tâches partagées ne seront visibles que par l’entreprise qui a créé la tâche (l’acheteur).

Le cas curieux de la courbe plate de la traduction automatique

Nous corrélons les temps d’édition de traduction automatique avec les scores de correspondance approximative, mais pour les suggestions de traduction automatique, les scores de correspondance approximative n’existent pas.

Nous utilisons à la place notre score de performance de qualité QPS. Découvrir s’il existe un lien entre les scores de correspondance approximative et les scores QPS (afin que nous puissions les mettre tous les deux sur le même axe des abscisses) est quelque chose que nous explorerons dans de futures recherches.

Nous aborderons ce sujet plus tard. Pour l’instant, nous n’utilisons que le temps moyen global d’édition des suggestions de traduction automatique, c’est pourquoi la ligne semble plate.

Alors, qu’est-ce que cela signifie pour vous ?

Le graphique ci-dessus montre les moyennes pour toutes les données de toutes les entreprises. Le 2 octobre dernier, nous avons ajouté dans le TMS Phrase Analytics un tableau de bord personnalisé reprenant des données spécifiques à votre entreprise.

Vous pouvez observer où les courbes orange et violette se croisent. Ce point de croisement montre le seuil de mémoire de traduction idéal, ce qui vous aide à optimiser pour économiser au maximum vos efforts.

Bien sûr, différents types de contenu nécessitent des approches différentes.

Traduire du contenu marketing est totalement différent de la traduction d’un document technique. Le tableau de bord vous permettra également de filtrer les données à l’aide d’options prédéfinies pour affiner les résultats en fonction de vos besoins.

Analytique, votre super-pouvoir pour obtenir des informations sur la localisation

L’analytique est comme le super-héros du marché, sauvant la mise en repérant les pertes de temps et d’argent.

Nous sommes ravis de faire passer Phrase Analytics à l’étape supérieure avec de nouvelles informations disponibles.

C’est notre première étape vers l’utilisation de métadonnées ultra-granulaires au niveau des segments. Bien que cette première version ne soit pas sans défaut, nous nous engageons à travailler en étroite collaboration avec nos clients pour la peaufiner et livrer des outils qui permet une réelle supervision de leurs processus de localisation.

Restez à l’écoute.

WEBINAIRE

Briser la barrière des 70 % : Une nouvelle approche de l’optimisation des seuils de mémoire de traduction

Rejoignez-nous pour un webinaire révolutionnaire où nous contestons la dépendance du secteur au seuil de 70 % de mémoire de traduction de traduction (MT).

S’inscrire maintenant >>>