Extract text from PDF, DOC, HTML, CHM, and RTF files Extrahieren von Text aus PDF, DOC, HTML, CHM-und RTF-Dateien

Posted on January 19, 2008 at 7:31 am Verfasst am 19. Januar 2008 um 7.31 Uhr

Have a document in PDF format that you would like to convert to a text document ? Haben Sie ein Dokument im PDF-Format, die Sie umwandeln möchten zu einem Textdokument? Or maybe an HTML or CHM (Windows Help File) that you need to convert into simply plain text ? Oder vielleicht eine HTML-oder CHM (Windows-Hilfe-Datei), die Sie benötigen, zu konvertieren, einfach in plain text? Why might this be useful you ask? Woran könnte dies nützlich sein fragst Du? Most PDF documents are not editable and selecting the text manually can be a tedious process. Die meisten PDF-Dokumente sind nicht editierbar und wählen Sie den Text manuell kann ein mühsamer Prozess.

You can use Text-Mining-Tool to automatically extract text from a PDF file so that you can use it in any program freely. Sie können Text-Mining-Tool zur automatischen Extrahieren von Text aus einer PDF-Datei, so dass Sie es in einem beliebigen Programm frei. Or if you cannot open a PDF file because you do not have a PDF viewer installed, you can use this tool to extract the text and read the document. Oder, wenn Sie nicht öffnen können eine PDF-Datei, weil Sie nicht über einen PDF-Viewer installiert haben, können Sie dieses Tool den Text zu extrahieren und lesen Sie das Dokument.

Text Mining Tool is completely free and does not even require an installation, simply unzip it and run the program to use it. Text-Mining-Tool ist komplett kostenlos und noch nicht einmal eine Installation, entpacken Sie es und führen Sie das Programm zu benutzen.

Text-Mining-Tools

Click the Open button and choose your file that you want to convert to text. Klicken Sie auf die Schaltfläche Öffnen und wählen Sie die Datei, die Sie konvertieren wollen zum Text. Click ok and the large window below the buttons will eventually fill with all of the text extracted from the document. Klicken Sie auf OK und die großen Fenster unterhalb der Buttons wird schließlich füllen sich mit den gesamten Text aus dem Dokument extrahiert.

Extrahieren von Text

Click Save to save the extracted text to your computer. Klicken Sie auf Speichern, um die extrahierten Text auf Ihren Computer. You can also click Clipboard to copy the mined text to the Windows clipboard. Sie können auch auf die Zwischenablage zu kopieren vermint Text in die Windows-Zwischenablage.

For convenience, the following hotkeys can be used to perform the operations: Für Bequemlichkeit, die folgenden Tastenkombinationen können verwendet werden, um die Operationen:

  • Open - F3 or O . Open - F3 oder O.
  • Save - F2 or S . Speichern - F2 oder S.
  • Clipboard - F5 or C . Zwischenablage - F5 oder C.
  • Exit - F10 or Escape . Exit - F10 oder Escape.

You can also use the minetext console tool to create a batch script for extracting text from multiple files. Sie können auch die minetext Konsole-Tool zum Erstellen einer Batch-Skript für das Extrahieren von Text aus mehreren Dateien. This can be useful if you have a directory with a large number of files that need to have text extracted. Dies kann nützlich sein, wenn Sie haben ein Verzeichnis mit einer großen Anzahl von Dateien, müssen Text extrahiert.

The included console tool minetext has the following syntax: Die mitgelieferten Konsolen-Tool minetext hat die folgende Syntax:

 minetext <input file>  minetext <input file> <output file>  where:    <input file>  - any file with one of the following extensions:                   pdf, doc, rtf, chm, htm, html   <output file> - file you want to write text mined from input file Minetext <input file> minetext <input file> <output Datei> wo: <input file> - jede Datei mit einem der folgenden Erweiterungen: pdf, doc, rtf, chm, htm, html <output file> - Datei, die Sie wollen, Text schreiben vermint aus Eingabedatei 

If you’re a web designer, this program can be very useful to grab the text from a Word document without getting all of the extra Microsoft Office styling code included with the text. Wenn Sie ein Web-Designer, wird dieses Programm sehr nützlich sein kann, zu greifen, den Text aus einem Word-Dokument, ohne all die zusätzlichen Microsoft Office-Styling-Code mit dem Text.

This is a very simple program that is very simple to use! Dies ist ein sehr einfaches Programm, das ist sehr einfach zu bedienen! It has one basic purpose and it does a good job! Es ist eine grundlegende Zielsetzung und es macht einen guten Job! Enjoy! Viel Spaß!

Technorati Tags: Technorati Tags: , , , , ,

If you enjoyed this post, make sure you Wenn Ihnen diese Nachricht, stellen Sie sicher, dass Sie subscribe to my RSS feed Abonnieren Sie meinen RSS-Feed ! !

» Filed Under »Unter Gespeichert Free Software Downloads Kostenlose Software-Downloads

Related Posts Verwandte Beiträge

One Response to “Extract text from PDF, DOC, HTML, CHM, and RTF files” One Response to "Extrahieren von Text aus PDF, DOC, HTML, CHM-und RTF-Dateien"

  1. Gregg Decker said on : Decker sagte Gregg am:

    I am very impressed with you software suggestions. Ich bin sehr beeindruckt, mit Ihnen Software-Anregungen. I find most of them useful. Ich finde die meisten von ihnen nützlich. I look forward daily to my emails from you. Ich freue mich täglich auf meine E-Mails von Ihnen.
    I have one suggestion and that is to make it easier for users to download the software via one easy to find link. Ich habe einen Vorschlag, und das ist, um es einfacher für die Benutzer zum Download der Software über ein leicht zu finden Link. There have been a few times when I gave up looking for the link and then forgot all about the software that I could of found useful. Es wurden ein paar Mal, wenn ich gab nach den Link und dann vergessen Sie alles über die Software, und ich könnte nützlich gefunden.

    Keep up the good work. Keep up the good work.

    Gregg Decker Gregg Decker


    Please post your comments/suggestions! Bitte posten Sie Ihre Kommentare und Vorschläge!