Apache Tika is 'n oop bron hulpmiddel ontwerp om op te spoor en te onttrek metadata, sowel as gestruktureerde teks inhoud van verskeie dokumente, met niks, maar bestaande parser biblioteke.
Apache Tika ondersteun die volgende dokument formate: HyperText Markup Language (HTTP), XML en afgeleide formate, Microsoft Office-dokument formate, OpenDocument Format (ODF), Portable Document Format (PDF), Elektroniese publikasie Format (EPF), Rich Text Format (RTF ), druk en verpakking formate, teks / audio / beeld / video formate, die mbox-formaat, en Java klas lêers en argiewe.
Voorheen, Apache Tika was 'n sub-projek van die Apache Lucene sagteware biblioteek. Nou is dit versprei as 'n selfstandige pakket deur die Apache Software Foundation
Wat is nuut in hierdie release:.
- verwyder 'n toets HTML lêer met 'n swak gekies GPL teks in dit (Tika-1129).
- Verbeterings aan tika-bediener te laat dit teks / html en teks / xml inhoud (TIKA-1126, Tika-1127) te produseer.
- verbeterings is aan die Compressor Parser g'zipped lêers wat die decompressConcatenated opsie stel om waar (TIKA-1096) vereis, te hanteer.
- Gerig n tipografiese fout wat die voorkoming is van die opsporing van awk lêers (Tika 1081).
- 'n Nuwe eindpunt te Tika se JAX-RS RUS bediener wat net ontdek die media-tipe gebaseer op 'n klein gedeelte van die dokument voorgelê (Tika-1047).
- RTF. Georden en geordende lyste is nou onttrek (TIKA-1062)
- MP3: Audio duur is nou onttrek (Tika-991)
- Java .class lêers. Opgegradeer van ASM 3.1 tot ASM 4.1 vir die ontleding van die Java bytecodes (Tika-1053)
- Mime Tipes: Definisies uitgebrei na opsioneel sluit Link (URL) en UTI, saam met besonderhede vir 'n paar algemene formate (Tika-1012 / Tika-1083)
- Uitsonderings wanneer die ontleding van OLE10 ingesluit dokumente, wanneer die ontleding van opsomming inligting van Office-dokumente, en wanneer die redding ingesluit documennts in TikaCLI is nou uitgeteken plaas van staak onttrekking (Tika-1074)
- MS Word: lyn tabel karakter word nou vervang met nuwe reël (TIKA-1128)
- XML: ElementMetadataHandlers kan nou opsioneel duplikaat en leë waardes aanvaar (TIKA-1133) .
Vereistes :
- Java 2 Standard Edition Runtime Environment
Kommentaar nie gevind