Atelier « Big data et le traitement du langage naturel » - 17 Novembre 2015

postat 12 nov. 2015, 01:30 de Webmaster FJSC   [ actualizat la 12 nov. 2015, 01:30 ]

Le CEREFREA Villa Noël organise le 17 novembre 2015, à 10h00, dans le cadre du Salon de la Recherche en sciences humaines et sociales, l’atelier « Big Data et le traitement du langage naturel ». L’atelier sera tenu par le Professeur Liviu P. Dinu (Département d’informatique et Centre de linguistique informatique de l’Université de Bucarest).

Dans un récent article de vulgarisation, Gil Press, contributeur à Forbes, dit avoir trouvé 12 définitions de ce qu’on appelle habituellement big data. En général, elles sont toutes subsumées à une idée commune : une « gigantesque » collection de données, impossible de traiter avec les moyens traditionnels. Le terme « gigantesque » est en général compris comme étant la limite actuelle des capacités de calcul. Il n’y a pas longtemps, Bill Gates disait que toutes les données allaient se retrouver sur une clé USB, une affirmation qui maintenant nous fait rire. La question essentielle est « Qu’est-ce qu’on fait avec ces données ? » Davantage signifie meilleur ? Avoir des milliers ( ?)  des photos de vacances n’équivaut pas à n’en avoir aucune ? Peut-être la meilleure définition de cette notion a été donnée par Maria, CP (7 ans maintenant) : une petite fille voulait avoir une infinité de robes ; quelle stupidité, te rends-tu compte qu’elle ne pourra jamais les porter ?

Du point de vue pratique, nous sommes dans la même situation. Nous ne pouvons pas utiliser toute l’information qui existe, nous ne pouvons pas surveiller tout le monde, nous ne pouvons pas analyser toutes les combinaisons génétiques. La solution est de trouver dans ce cas des méthodes de similarités efficaces, de telle manière à ce que, à l’aide des techniques de catégorisation et clusterisation, on puisse identifier le plus de modèles possible. L’idée générale est que, en partant des objets les plus proches possible, on identifiera leurs comportements les plus semblables, en réduisant ainsi le nombre des objets à analyser. Parmi tous les types d’informations analysées, le type le plus commun et celui de l’information sous forme de texte. L’accent mis dernièrement sur la digitalisation de l’héritage culturel fait que non seulement l’avalanche de blogs, médias, réseaux sociaux, etc. deviennent impossible à suivre, mais aussi ce qui vient de derrière : les journaux occidentaux des siècles passés, la littérature ancienne, les textes religieux, etc. Tout cela amène de nouvelles questions à travailler : l’analyse de la paternité des textes, la phylogénèse des manuscrits (stemma), la détection de la période où un texte a été écrit, de la langue dans laquelle un texte a été écrit (si ce que nous avons est une traduction ou non), la détection des tromperies etc. Cette avalanche de données apporte cependant aussi une information utile aux linguistes : nous pouvons analyser l’évolution de la langue, déterminer les proto-mots, la production des mots, l’influence des langues étrangères sur une langue cible, le moment de la rupture de quelques dialectes, etc. Heureusement, le traitement du langage naturel a développé une série de techniques et méthodes capables de répondre à quelques-unes de ces questions, qui maintenant se trouvent devant de nouveaux défis : elles vont être (ré)évaluées et améliorées.