Les limites ne sont pas technologiques, elles sont industrielles. La fibre optique nous libérera sous peu des problèmes de volumes de transactions. Mais le frein n'est pas là, il est dans la concurrence entre groupes puissants (Google et consorts) qui ne sont pas là pour faire du "service public" (faire ce qui serait le mieux dans l'intérêt de tous) mais du profit en situation dominante. Si Google investit dans XMPP ce n'est pas parce que c'est "mieux pour tous" mais parce qu'il espère imposer ce format pour des raisons stratégiques.
Quant à HTML il est évident que c'est un langage bien trop faible pour les besoins à venir. XMPP est-il beaucoup plus puissant, c'est probable si on considère que c'est un langage d'échange plus qu'un langage de description. Couvre-t'il pour autant l'ensemble des besoins des prochaines années ? Pas si sûr.
Pas sûr non plus qu'il faille absolument un "langage central fédérateur" : ce point de vue me semble aujourd'hui obsolète. Je crois qu'on va plutôt vers des langages spécialisés par tâches et que tout l'enjeu est dans la capacité de dialogue qu'ils entretiendront entre eux.
Je crois plutôt aux environnements immersifs où les échanges ne se font plus uniquement entre utilisateurs et contenus, mais entre "objets numériques" - que ces "objets" soient des utilisateurs en tant qu'entités, des objets réels ou des objets virtuels.
Juste comme exemple une anecdote arrivée il y a deux ou trois semaines : un Suisse, Oliver Goh, en déplacement à Hong-Kong entre dans OpenSim (un univers virtuel Open Source) et passe faire un tour virtuel chez lui. Ayant installé des sensors shaspa (des capteurs capables d'échanger des informations entre objets réels et objets virtuels) il se rend compte que sa consommation d'eau a anormalement augmentée, et qu'il y a donc une fuite ou un robinet resté ouvert. Il envoie son avatar couper l'eau à distance et hop, la conso retombe à zéro. Il aurait aussi bien pu faire ça depuis un navigateur, un mobile, etc.
On peut de la même façon imaginer que tout avatar en monde immersif soit capable d'interagir avec des contenus numériques quel que soit le langage utilisé, le tout est qu'il y ait un langage adapté au besoin.
Mais ça ne s'arrête pas là, à une gestion domestique. Shaspa (y'a aussi Pachube qui serait à suivre de près) est capable de "tagger" aussi bien des objets que des identités d'utilisateurs. Du coup ce sont tous les réseaux sociaux qui seront sous peu concernés.
Dans cette optique, le bureau virtuel est un univers numérique d'interactivités dans lequel on réalise toutes sortes de tâches. Le limiter à un desktop online est trop réducteur. Limiter le web de demain à des collections d'applications préservant la distinction entre utilisateurs et contenus aussi. You are part of the content... on est, en tant qu'individus, une partie du contenu.
Pour répondre à la question initiale, il n'y pas d'enjeu stratégique particulier entre HTML5 et XHTML2 sinon industriel (initiative WHATWG). Interagir avec un contenu numérique (le consulter, le transformer, dialoguer avec lui, etc.) ne s'appuie pas sur un langage particulier.
(normalement c'est vendredÿ le jour de moquette mais là j'entorse)