Extraiga el texto de archivos del pdf, del doc., del HTML, de CHM, y del rtf

Fijado el 19 de enero de 2008 en 7:31

Tenga un documento adentro Formato del pdf que usted quisiera convertir a un documento del texto? O quizá HTML o CHM (archivo de la ayuda de Windows) ese usted necesita convertir en el texto simplemente llano? ¿Por qué pudo esto ser útil usted pide? La mayoría de los documentos del pdf no son editable y seleccionar el texto manualmente puede ser un proceso aburrido.

Usted puede utilizar la Texto-Minar-Herramienta para extraer automáticamente el texto de un archivo del pdf de modo que usted pueda utilizarlo en cualquier programa libremente. O si usted no puede abrir un archivo del pdf porque usted no hace un espectador del pdf instalar, usted puede utilizar esta herramienta para extraer el texto y para leer el documento.

La herramienta que mina del texto está totalmente libre e incluso no requiere una instalación, para desabrocharla simplemente y para funcionar el programa para utilizarlo.

herramienta que mina del texto

Chasque Abierto abotone y elija su archivo que usted desee convertir al texto. La autorización del tecleo y la ventana grande debajo de los botones llenarán eventual de todo el texto extraído del documento.

texto del extracto

Tecleo Excepto para ahorrar el texto extraído a su computadora. Usted puede también chascar Sujetapapeles para copiar el texto minado al sujetapapeles de Windows.

Para la conveniencia, los hotkeys siguientes se pueden utilizar para realizar las operaciones:

  • Abierto - F3 o O.
  • Excepto - F2 o S.
  • Sujetapapeles - F5 o C.
  • Salida - F10 o Escape.

Usted puede también utilizar la herramienta de la consola del minetext para crear una escritura de la hornada para extraer el texto de archivos múltiples. Esto puede ser útil si usted tiene un directorio con una gran cantidad de archivos que necesiten tener texto extraído.

La herramienta incluida de la consola minetext tiene el sintaxis siguiente:

fichero <de entrada del minetext>

fichero <de entrada del minetext> <archivo de salida>

donde:

     <fichero de entrada>  - cualquier archivo con una de las extensiones siguientes:
                  pdf, doc., rtf, chm, htm, archivo
   <de salida del HTML> - archivo que usted desea escribir el texto minado de fichero de entrada

Si usted es diseñador de la tela, este programa puede ser muy útil para asir el texto de un documento de la palabra sin conseguir todo el Microsoft Office adicional que labra el código incluido con el texto.

¡Éste es un programa muy simple que es muy simple utilizar! ¡Tiene un propósito básico y hace un buen trabajo! ¡Goce!

Etiquetas de Technorati: , , , , ,

Si usted gozó de este poste, se cerciora de usted suscriba a mi alimentación de RSS!

” Archivado debajo Transferencias directas libres del software

Postes relacionados

One Response to “Extract text from PDF, DOC, HTML, CHM, and RTF files”

  1. Gregg Decker said on :

    I am very impressed with you software suggestions. I find most of them useful. I look forward daily to my emails from you.
    I have one suggestion and that is to make it easier for users to download the software via one easy to find link. There have been a few times when I gave up looking for the link and then forgot all about the software that I could of found useful.

    Keep up the good work.

    Gregg Decker


Please post your comments/suggestions!