Comment extraire du texte à partir de pages Web

L'extraction de texte d'une page Web peut être effectuée de plusieurs manières. La méthode que vous choisissez doit dépendre de l'objectif que vous avez en tête pour le texte. Si tout ce dont votre entreprise a besoin est d'imprimer le texte pour l'utiliser comme instructions ou directives, vous pouvez extraire le texte au format HTML uniquement. S'il y a des images et du texte sur la page Web et que vous souhaitez conserver la page dans sa forme d'origine, vous devez extraire la page Web complète. Il existe trois façons d'extraire le texte, et il existe deux façons d'extraire le texte et les images ensemble.

Extraire le texte uniquement

1

Ouvrez la page Web à partir de laquelle vous souhaitez extraire du texte. Cliquez sur le menu «Fichier» et cliquez sur l'option «Enregistrer sous» ou «Enregistrer la page sous». Sélectionnez "Page Web, HTML uniquement" dans le menu déroulant Enregistrer en tant que type, saisissez un nom pour le fichier et cliquez sur "Enregistrer". Le texte sera extrait et enregistré sous forme de fichier HTML avec les options de formatage de page d'origine intactes. Le fichier peut être affiché dans les navigateurs Web et il peut être modifié dans des éditeurs de texte tels que le Bloc-notes.

2

Cliquez sur l'option «Enregistrer sous» ou «Enregistrer la page sous» et sélectionnez «Fichiers texte» dans le menu déroulant Enregistrer en tant que type. Tapez un nom pour le fichier texte et cliquez sur "Enregistrer". Le texte de la page Web sera extrait et enregistré en tant que fichier texte qui peut être affiché dans les éditeurs de texte et les programmes de document tels que Microsoft Word.

3

Cliquez et faites glisser pour sélectionner le texte sur la page Web que vous souhaitez extraire et appuyez sur "Ctrl-C" pour copier le texte. Ouvrez un éditeur de texte ou un programme de document et appuyez sur "Ctrl-V" pour coller le texte de la page Web dans le fichier texte ou la fenêtre de document. Enregistrez le fichier texte ou le document sur votre ordinateur.

Extraire du texte et des images

1

Cliquez sur le menu «Fichier» de votre navigateur Web et cliquez sur l'option «Enregistrer sous» ou «Enregistrer la page sous». Sélectionnez «Page Web, Terminé» dans le menu déroulant Enregistrer en tant que type et saisissez un nom pour le fichier. Cliquez sur "Enregistrer". Le texte et les images de la page Web seront extraits et enregistrés. Le texte sera placé dans un fichier HTML et les images seront placées dans un dossier au même emplacement que le fichier HTML.

2

Double-cliquez sur le fichier HTML pour afficher le texte et les images extraits. Ils s'ouvriront dans votre navigateur Web. L'autre méthode d'extraction de texte et d'images n'est disponible que dans le navigateur Internet Explorer. Ouvrez la page Web souhaitée dans Internet Explorer avant de passer à l'étape suivante.

3

Cliquez sur l'option "Enregistrer sous" dans le menu Fichier et sélectionnez "Archive Web, fichier unique (* .mht)" dans le menu déroulant Enregistrer en tant que type. Tapez un nom pour le fichier et cliquez sur le bouton «Enregistrer». Le texte et les images seront extraits de la page Web vers le fichier. Double-cliquez sur le fichier pour afficher le texte et les images extraits dans votre navigateur Web.