PDFMiner werk deur die eerste wat die inhoud van 'n PDF-lêer en dit na 'n meer smeebaar formaat soos HTML.
Van daar is, is die teks en data onttrek en ontleed, en gebaseer op die gedefinieerde reëls geskei en aan die gebruiker of gestuur word aan ander, meer kragtige data-analise gereedskap.
As teksanalise is nie wat jy van plan is om te doen, kan jy maklik instel PDFMiner om net te onttrek of net PDF data omskep as well.
Sy funksies kan afsonderlik werk van mekaar en toelaat dat 'n wyer gebruik spektrum te danke aan
Eienskappe :.
- 100% Python kode, geen C of C ++
- Ontleed PDFs
- Analiseer PDFs
- Skakel PDFs na ander formate
- TOC extractor
- Kry net tagged inhoud
- Ondersteuning vir 'n groot aantal van die teks PDF funksies
- Ondersteuning vir 'n groot aantal van lettertipe binne PDFs
- Basiese enkripsie (RC4) ondersteuning
Wat is nuut in hierdie release:
- metode PDFDocument.initialize () is verwyder en nie meer nodig . 'N wagwoord word as 'n argument van 'n PDFDocument constructor.
Wat is nuut in die weergawe 20110515:.
- API veranderinge
- LTPolygon klas herdoop as LTCurve.
Wat is nuut in die weergawe 20110227:.
- Bug fixes en verbeterings uitleg analise
Wat is nuut in die weergawe 20101226:.
- 'n paar van die bugfixes en klein verbeterings
Wat is nuut in die weergawe 20101017:.
- 'n paar van die bugfixes en 'n minderjarige verbetering
Wat is nuut in die weergawe 20100424:.
- bugfixes en klein verbeterings op TOC onttrekking
Vereistes :
- Python 2,4 tot 3
Beperkings :.
- PDFMiner kan 20 keer stadiger as C / C ++ - gebaseerde sagteware
Kommentaar nie gevind