Encore au sujet des carnets web multilingues, j’ai récemment fait la connaissance de Patrick et de Luke, qui ont tous les deux des bonnes idées. (Merci aux salons IRC).

Luke, en particulier, parle de « traduction décentralisée » des contenus, notion séduisante. Les blogues sont souvent publiés sous licence Creative Commons, ce qui permet a n’importe quelle personne étant intéressée par un sujet et raisonnablement compétente de mettre au point une version traduite.

Comme l’explique également Suw, blogueuse en langues anglaise et galloise, il se trouve que même en absence de platformes de publication prêtes au multilinguisme, les tags Technorati — ou un mécanisme similaire, pourraient servir à « relier » les différentes versions d’un billet (plus des billets y faisant référence, quelle que soit leur langue).

Edit: j’ai rajouté l’attribut hreflang comme suggéré par Kevin Marks. Merci ! Les indications linguistiques qui apparaissent en mauve derrière chaque lien sont visibles dans tous les navigateurs qui respectent la norme CSS2, c’est à dire tous les navigateurs modernes sauf la famillle Internet Explorer.


Comme en témoigne la féquence réduite d’apparition ne nouveaux billets, je passe par une phase d’épuisement mental, de découragement, de manque de concentration et de mémoire. Pendant ces périodes-là, j’ai l’impression que rien, en vérité, ne peut ou pourra arranger les affaires, je lis par démi-paragraphes et écris par démi-phrases. Quand j’arrive à lire ou écrire du tout.

Si un dénouement du nœud qui a élu résidence dans ma poitrine n’est pas pour toute de suite, cela n’est pas une raison de m’abstenir d’au moins essayer de me faire du bien. Parfois. Que reste-t-il ? Le chocolat est les produits chocolatés.

Alors, justement, Libération vient de nous apprendre que la production annuelle de Nutella permettrait de faire le tour de la terre avec des pots allignés (ouf, la pénurie n’est pas à craindre), mais qu’en Italie (son pays d’origine) cette pâte à tartiner fait partie de l’imaginaire de la gauche. Même si la droite a commencer de la récupérer récemment.

Reste la question du genre. Grammatical, je veux dire. A l’instar des voitures (une Ford, une Porsche, peu importe qu’il s’agit là de patronymes d’hommes (mâles)), et en particulier considérant que le genre des mots formés avec le suffix italien -ella ne pose pas de problème aux francophones, on devrait dire la Nutella, n’est-ce pas ?

Or, Google est formel: 27,000 résultats pour “[le | du | au] nutella” versus 865 seulement pour la forme féminine.

La question a d’ailleurs déjà fait le tour des blogues francophones, voir ici, ici et ici.

Non contente de cette domination inexpliquée du masculin, je fait ma petite enquête#[1] Toute petite, en sortant acheter du lait chez l’épicier avec escale dans le café où je suis une habituée. Résultat  si la forme masculine l’a remporté de justesse, c’est notamment le cas partitif avec article défini (« Tu veux encore du / de la Nutella ? ») où le féminin a ses inconditionnels.

Pendant ce temps là, pour l’allemand (où il faut décider entre trois genres), le site de Ferrero précise q’étant donné qu’il s’agit d’un nom de marque, les locuteurs avaient le choix. (Moi, j’utilise le féminin.) Mais on l’écrit avec une minuscule, comme sur les pots. Les voitures, il soit dit en passant, sont masculins là-bas.


[1]: Avis aux enquêteurs : Le moment précis où Monaco tire un but contre le PSG n’est pas l’instant idéal pour poser des questions dans un bar parisien.


Locali(s|z)ation and internationali(s|z)ation

Quelques remarques au sujet de la localisation ou internationalisation linguistique, des outils et leurs failles, et du cas particulier des blogues.

  • 2005-01-22
  • Comments Off

As wordlingo.com explains, localization (the US spelling seems to be dominant across varieties of English) is

[t]he process of adapting text and cultural content to specific target audiences in specific locations. The process of localization is much broader than just the linguistic process of translation. Cultural, content and technical issues must also be taken into account.

Since trying to give a hand making the WordPress blogging software useable for multilingual blogs, I have been running into the difficulties of this process.

Internationalising a blog is not the same as localizing software, though. I have written more on this on the palimpsest wiki.

A commonly used tool in the world of free software is gettext. Its approach — extract strings in the language the software was originally written for and substitute text in the target language(s) — sounds reasonable and straightforward. Until you try to use it, that is. Via LaugingMeme, I found a detailled account on the shorcomings of gettext by Sean M. Burke and Jordan Lachler: a “localization horror story” about the simple task of translating the program alerts “I scanned N directories” and “Your query matched N files in M directories” into Arabic, Italian, Chinese and Russian. Sounds easy? Not so fast …

The Chinese guy replies with the one phrase that [all variations of the second sentence] translate to in Chinese, and that phrase has two “%g”s in it, as it should — but there’s a problem. He translates it word-for-word back: “In %g directories contains %g files match your query.” The %g slots are in an order reverse to what they are in English. You wonder how you’ll get gettext to handle that.

But you put it aside for the moment, and optimistically hope that the other translators won’t have this problem, and that their languages will be better behaved — i.e., that they will be just like English.

But the Arabic translator is the next to write back. First off, your code for “I scanned %g directory.” or “I scanned %g directories.” assumes there’s only singular or plural. But, to use linguistic jargon again, Arabic has grammatical number, like English (but unlike Chinese), but it’s a three-term category: singular, dual, and plural. In other words, the way you say “directory” depends on whether there’s one directory, or two of them, or more than two of them. Your test of ($directory == 1) no longer does the job. And it means that where English’s grammatical category of number necessitates only the two permutations of the first sentence based on “directory [singular]” and “directories [plural]”, Arabic has three — and, worse, in the second sentence (”Your query matched %g file in %g directory.”), where English has four, Arabic has nine. You sense an unwelcome, exponential trend taking shape.

Your Italian translator emails you back and says that “I searched 0 directories” (a possible English output of your program) is stilted, and if you think that’s fine English, that’s your problem, but that just will not do in the language of Dante. He insists that where $directory_count is 0, your program should produce the Italian text for “I didn’t scan any directories.”. And ditto for “I didn’t match any files in any directories”, although he says the last part about “in any directories” should probably just be left off. […]

Then your Russian translator calls on the phone, to personally tell you the bad news about how really unpleasant your life is about to become:

Russian, like German or Latin, is an inflectional language; that is, nouns and adjectives have to take endings that depend on their case (i.e., nominative, accusative, genitive, etc…) — which is roughly a matter of what role they have in syntax of the sentence — as well as on the grammatical gender (i.e., masculine, feminine, neuter) and number (i.e., singular or plural) of the noun, as well as on the declension class of the noun. But unlike with most other inflected languages, putting a number-phrase (like “ten” or “forty-three”, or their Arabic numeral equivalents) in front of noun in Russian can change the case and number that noun is, and therefore the endings you have to put on it.

He elaborates: In “I scanned %g directories”, you’d expect “directories” to be in the accusative case (since it is the direct object in the sentence) and the plural number, except where $directory_count is 1, then you’d expect the singular, of course. Just like Latin or German. But! Where $directory_count %10 is 1 (”%” for modulo, remember), assuming $directory_count is an integer, and except where $directory_count %100 is 11, “directories” is forced to become grammatically singular, which means it gets the ending for the accusative singular… You begin to visualize the code it’d take to test for the problem so far, and still work for Chinese and Arabic and Italian, and how many gettext items that’d take, but he keeps going… But where $directory_count %10 is 2, 3, or 4 (except where $directory_count %100 is 12, 13, or 14), the word for “directories” is forced to be genitive singular — which means another ending…

This said, for translations of single words, or text without variables, esp. in a short script, gettext is perfectly adequate. But there’s another problem: blogs, while technically software (PHP scripts, in our case) face different problems from desktop utilities or the like. The text to be translated needs to be user-editable. Every blog is different, and bloggers will want the text — any bit of text — to appear just like they prefer it. Which, for the moment, is quite difficult to achieve, on a multilingual blog.

Which reminds me once again how regrettable it is that written communication better take place in one language at a time. Spoken communication is much more flexible in this regard. (One exception are discussions on IRC or other public chat channels: I’ve often found it useful to carry on two separate conversations with the same interlocutors in two different languages; it’s easier to keep the conversations apart this way.)


Je suis en train de travailler sur un plugin (« plugiciel », dit-on de l’autre côté de l’atlantique) qui fera de WordPress un outil pour bloguer en n’importe quel nombre de langues — avec Morgan Doocy — qui, à la différence de moi, sait coder en PHP. Vous vous êtes peut-être rendu compte que ce blogue […]

 lire le billet »

Garden paths

Les chemins du jardin qui mènent dans la brousse. Syntaxiquement parlant.

Microsoft debuts a malicious software removal tool today. (link) — Just glad I don’t have any Microsoft software on my computer any more. I might inadvertently install the malicious tool. Powell Surveys Devastated Area — A headline quoted from memory, from, I think, USA Today (which would have been USA Yesterday, or rather USA The-Previous-Day), which […]

 lire le billet »

A blogger on the radio

Un blogueur (britannique) à la radio (écossaise).

  • 2005-01-11
  • Comments Off

Tom Reynolds, who blogs at Random Acts of Reality about being an emergency medical technician in east London, has been on BBC Scotland talk radio (see also this post). The Real Media file of the segment he was on is here, for a few more days. The programme talks about potential problems that might arise when […]

 lire le billet »
  • 2005-01-11
  • Comments Off

Avec un peu de recul, quelques remarques de plus sur l’affaire Guillermito/Tegam. (Après les parties une et deux, en anglais, ce billet a une version française.) Primo, c’était un plaisir de rencontrer Veuve Tarquine à Paris Carnet. Elle m’a expliqué que contrairement à ce que j’avais écrit, l’avocat de Tegam n’était pas mauvais, mais qu’il suivait […]

 lire le billet »

Trois rencontres créés par l’hasard. Toutes ont eu lieu dans les halls et couloirs souterrains de la ligne 14 du métro parisien. Pour les deux premières, ça s’est produit jeudi dernier, après les au-revoirs avec Steph, Gare de Lyon. La dernière, lundi. J’habite près d’un des deux terminus de la ligne 14.#[1] C’est ma ligne. Hostilité. […]

 lire le billet »

La nouvelle « peau » de serendipity vient d’être mise en ligne. Je l’ai conçu et testé sur des navigateurs qui observent les standards du web. En ce qui concerne Internet Explorer, je me collerai à la tâche (pénible) de négocier avec ses faiblesses dès que j’ai le temps de rédemarrer mon ordi sous Windows. Le site […]

 lire le billet »

A l’aide, je deviens accro de poésie anagrammatique ! Voici les derniers résultats de la recherche (deux en anglais, un en français)  et d’autres encore sont en cours d’assemblage. Chaque poème est dédié à un/e ami/e en ligne ou non. Si vous vous retrouvez, vous pouvez garder le votre. ah bland honey jar ann had herbal joy rehab only […]

 lire le billet »