Home

< Veille scientifique et commerciale >


Il s'agit de recherches documentaires et auprès d’experts, de nomenclaturistes et d’associations, de rubriques et mots de renvoi à indexer, d'après les centres d'intérêt du client.



Les données sont récoltées en partie manuellement (téléphonie auprès de spécialistes et fédérations du secteur, digitalisation de rapports ou revues spécialisés uniquement quand ceux-ci sont indispensables et n’existent pas électroniquement). Pour le reste, utiliser le crawling d’internet et des programmes d'analyse sémantique et syntaxique :
* programmation propre et re-programmation de sources ouvertes provenant des laboratoires Sorbonne, Caen, Polytechnique, ULBruxelles,
* Crawling : achat de Copernic, DirectSeek, MemoWeb
* Indexation et balisage : par exemple interMedia d’Oracle, Text-O-Mat, Lexico ou CpublicLibrarian
* Catégorisation : par exemple Data Mining Suite d’Oracle, Lexico, R, Leximappe, Statistica
* Outils de développement : WebObjects et ProjectBuilder d’Apple, Oracle Server, CPL




< Clients à ce jour>
- Euredit S.A., fournisseur d'un annuaire papier et électronique BtoB européen : EUROPAGES


< Exemple de produit à livrer à partir d'un référentiel de thèmes fourni par le client >


1.1. des CD-ROM comportant une Base de Données BD1 du "référentiel de base" présentant, pour chaque entrée, la rubrique, son code et une notice d’explication ainsi que les rubriques connexes y associées, une BD2 de référentielétendu et basé sur une association de concepts telle que produite par le logiciel d’analyse linguistique, et une BD3 documentaire rendant accessibles les sources d’informations imprimées et électroniques servant à alimenter la révision automatisée
1.2. une procédure d’accès sécurisé par intranet à ces BD1, BD2 et BD3, à destination des employés du client
1.3. une application informatique accessible à partir d’un poste PC standard (même si basée sur une base Oracle ou M-Access résidant ailleurs) permettant de :
1.3.1. capturer de l’information sur internet à partir de l’arborescence de BD1 & BD2
1.3.2. la convertir au format XML, langage de description de document
1.3.3. la stocker (avec son contexte enveloppant) dans une base documentaire BD3 (résidente, ou virtuelle, c’est-à-dire se contentant de pointer vers le document en ligne sans le stocker de manière permanente sur nos disques, chaque fois que c’est possible)
1.3.4. en extraire les mots et expressions thématiques correspondant aux thèmes du référentiel
1.3.5. les organiser en arborescence à plusieurs niveaux (dont le nombre se définit localement par optimisation de certains critères de cohérence), dite "référentiel étendu"
1.3.6. raccorder là où c’est possible ce référentiel étendu au référentiel de base, de telle sorte que l’utilisateur en aura une visibilité graphique lui permettant de basculer sur la recherche thématique dans l’arborescence du "référentiel de base"
1.3.7. de rendre cette arborescence utilisable par les utilisateurs lorsqu’ils choisissent une recherche étendue
1.4. Un module de formation à l’usage du système, basé sur des animations d’écrans et une aide contextuelle

© Sodyna