Ĉu vere Esperanto inter pintaj lingvoj en Twitter?

Laŭ statistika esploro Esperanto troviĝas inter la 30 plej uzataj lingvoj en Twitter. Sed ĉu vere tiel estas? Kie do estas la multegaj pepaĵoj en Esperanto?


Rilato de originalaj (blua) kaj resenditaj (oranĝkolora) pepaĵoj en diversaj lingvoj.

Scienca esploro pri la lingvoj de mesaĝoj ĉe la socia reto Twitter asertas, ke dum la pasintaj dek jaroj tie dissendiĝis kelkaj centmilionoj da mesaĝoj en Esperanto. Laŭ la studo en 2019 ĉiusemajne proksimume 150 000 mesaĝoj ĉe Twitter estis esperantlingvaj aŭ 20 000 mesaĝoj tage.

Tio sonas vere brile por Esperanto – sed se oni serĉas per Google ĉe Twitter, oni ne trovas tiujn mesaĝojn. Laŭ eta studo, kiun mi faris, ĉe Twitter troviĝas eble kelkaj cent mil mesaĝetoj en Esperanto; ni kalkulu ekzemple kun 400 000 (detaligo sube).

Twitter estis fondita en 2006. Se ni supozas – por plu simpligi la kalkulon – ke temus pri mesaĝetoj el la lastaj dek jaroj, 2010-2019, tiam estus eble 40 000 mesaĝetoj jare aŭ 800 mesaĝetoj ĉiusemajne. Estas do eble, ke la citita scienca studo iomege troigis la veran nombron pri Esperanto; la kaŭzo eble kuŝas ĉe la uzita lingvodetektilo FastText.

Mia eta studo uzis la metodon, kiun jam aplikis Gregory Grefenstette & Julien Nioche en sia esploro ”Estimation of English and non-English Language Use on the WWW“ (2000). Oni eliras de la supozo, ke la laŭprocenta distribuo de unuopaj vortoj en la esplorata tekstaro estas simila al la distribuo laŭ oftecvortaroj. Ekzemple la vorto ekzistas troviĝas 19 550-foje en la 2 505 513 frazoj de la oftec-vortaro el Leipzig. Se oni serĉas ĉe Google per ekzistas kaj ”site:twitter.com”, oni ricevas informon pri proksimume 2 070 rezultoj. (Jes, ankaŭ mi ne scias, ĉu tio similas al la vero ĉe Twitter; krome, via rezulto eble estos iom alia).

Kondiĉe ke oni iom fidas la rezultojn, oni povas supozi, ke dekono da aperoj de “ekzistas” ĉe Twitter signifas, ke tie troviĝas nur dekono de la frazoj en la oftecvortara korpuso, proksimume 270 000. Tiam restas la problemo, ke la frazoj ekster Twitter estas supozeble pli longaj ol en Twitter – eble ni supozu, ke ili ekster Twitter estas simile longaj kiel la kompletaj mesaĝoj ĉe Twitter aŭ almenaŭ ne tro malsimile longaj.

Por iom certigi la rezulton mi uzis ankoraŭ duan esploron, la oftecliston de Vanege pri 88 683 mesaĝoj de la Telegrama grupo Esperantujo. Tie ekzistas aperas 707-foje; simile ni do povas taksi, ke ĉe Twitter troviĝas proksimume trifoje tiom da mesaĝoj kiom en la korpuso de Vanege, eble 260 000 mesaĝoj. (Por ke vi ne tro kredu je perfekteco: Tio estis la plej simila rezulto de ambaŭ vojoj; aliloke la diferenco estas ekzemple inter 240 000 kaj 660 000.)

Tian kalkuladon mi faris krome por la vortoj komprenas, signifas, bezonas, kredas, povus, kompreneble, lernejo, samtempe kaj renkontis. Tiujn mi elektis en la listo de Vanege; mi poste testis ĉe Google, ĉu ĉe Twitter la vortoj aperas nur aŭ preskaŭ nur en esperantlingvaj frazoj. La taksoj pri la nombroj de frazoj laŭ la oftecvortaro el Leipzig kaj laŭ la oftec-studo de Vanege por tiuj vortoj troviĝas ĉiuj inter 150 000 kaj 700 000.

Do, eble vere ĉe Twitter troviĝas kelkaj centmil esperantlingvaj frazoj – aŭ, pli precize: Eble vere Google ĉe Twitter trovas kelkajn centmilojn da esperantlingvaj frazoj.

Ke ne ĉio ĉe Google estas realisma, tion cetere montras ekzemple serĉo pri “ekzistas” ĉe Twitter laŭ tempo. Se oni esploras la tempon ekde 2015, oni ricevas 2 (du) rezultojn. Se oni esploras la tempon de 2005 ĝis 2014, estas nul rezultoj; sume 2. Kiel skribite, sen indiko de tempoperiodo la Google-informo donas 2 070 rezultojn …

Kompare kun la informo en la studo de Thayer Alshaabi kaj aliaj, bedaŭrinde Esperanto havas malpli bonan lokon. Tamen povas esti, ke Esperanto ĉe Twitter estas inter la cent plej ofte uzataj lingvoj. Oni ĉiukaze konsciu, ke la pozicio ĉe Twitter dependas ne nur de la ĝenerala aktiveco en lingvokomunumo, sed ankaŭ de la populareco de Twitter kompare kun aliaj mesaĝiloj; eble en Esperantujo nuntempe Telegramo estas relative forte uzata.

Lu Wunsch-Rolshoven