PDFMiner toimii ottamalla ensin sisältöä PDF-tiedoston ja muuntaa sen muokattavaksi muodossa, kuten HTML.
Sieltä teksti ja data on uutettu ja analysoitu, ja se perustuu ennalta määriteltyjen sääntöjen erotettu ja esittää käyttäjälle tai lähettää muihin tehokkaampia tietojen analysointi työkaluja.
Jos tekstin analyysi ei ole, mitä aiot tehdä, voit helposti määrittää PDFMiner yksinkertaisesti purkaa tai vain muuntaa PDF tiedot samoin.
Sen toiminnot voi työskennellä erillään toisistaan ja mahdollistaa laajemman käytön taajuuksien ansiosta se.
Ominaisuudet
- 100% Python koodia, ei C- tai C ++
- Parse PDF
- Analysoi PDF
- Muunna PDF muita formaatteja
- ToC linko
- Hae vain tagged sisältöä
- Tukee useita tekstiä PDF ominaisuuksia
- Tukee useita fonttityypit sisällä PDF
- Basic salaus (RC4) tuki
Mikä on uusi tässä julkaisussa:
- PDFDocument.initialize () menetelmä poistetaan ja ei enää tarvita . Salasana annetaan argumentti PDFDocument rakentaja.
Mikä on uusi versiossa 20110515:
- API muutoksia.
- LTPolygon luokka nimettiin uudelleen LTCurve.
Mikä on uusi versiossa 20110227:
- Korjauksia ja ulkoasu analyysin parannuksia.
Mikä on uusi versiossa 20101226:
- Pari bugikorjauksia ja pieniä parannuksia.
Mikä on uusi versiossa 20101017:
- Pari bugikorjauksia ja pieniä parannuksia.
Mikä on uusi versiossa 20100424:
- Bugikorjauksia ja pieniä parannuksia TOC louhinta.
vaatimukset
- Python 2.4 jopa 3
rajoitukset
- PDFMiner voi olla 20 kertaa hitaampaa kuin C / C ++ - pohjainen ohjelmisto.
Kommentteja ei löytynyt