Apache Tika

Sagteware kiekie:
Apache Tika
Sagteware besonderhede:
Weergawe: 1.9 Opgedateer
Upload datum: 20 Jul 15
Lisensie: Gratis
Populariteit: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika is ontwikkel as 'n lae-vlak toolkit vir die soek inhoud binnekant ander lêers.
Tika nie veel op sy eie 'n eenvoudige biblioteek te doen, maar dit kan geïntegreer in meer kragtige gereedskap soos soekenjins, digitale batebestuur stelsels of CMSS om 'n ten volle funksionele in-lêer soek stelsel.
Die biblioteek kan toegang kop net die lêer se vir 'n vinnige algehele lêer inligting, of dit kan gaan regtig diep en soek, selfs in die liggaam van die lêer se vir verskillende tipes van data, in die teks of binêre formaat.
'N Wye verskeidenheid van lêer tipes word ondersteun en Tika kan ook gebruik word met ander programmeertale te danke aan 'n reeks van derde party bindings en omhulsels.

Wat is nuut in hierdie release :

  • Hierdie release sluit foutherstellings en nuwe funksies, waaronder 'n nuwe Tesseract OCR Parser; 'n nuwe Gdal Parser; meer ondersteunde formate, en algehele verbetering in Tika stabiliteit.

Wat is nuut in die weergawe 1.8:

  • Hierdie release sluit foutherstellings en nuwe funksies, waaronder 'n nuwe Tesseract OCR Parser; 'n nuwe Gdal Parser; meer ondersteunde formate, en algehele verbetering in Tika stabiliteit.

Wat is nuut in die weergawe 1.7:

  • Hierdie release sluit foutherstellings en nuwe funksies, waaronder 'n nuwe Tesseract OCR Parser; 'n nuwe Gdal Parser; meer ondersteunde formate, en algehele verbetering in Tika stabiliteit.

Wat is nuut in die weergawe 1.6:

  • Hierdie release sluit foutherstellings en nuwe funksies, waaronder 'n nuwe vertaling API, meer ondersteunde formate, en algehele verbetering in Tika stabiliteit.

Wat is nuut in weergawe 1.5:.

  • Vaste fout in die hantering van ingebedde lêer verwerking in PDFs
  • Added SourceCodeParser Java ondersteun, Groovy, C ++ lêers.
  • Opdateer Tika Server multipart / form-data loonvragte ondersteun.
  • Opdateer Tika Server CXF 2.7.8.
  • Opdateer Tika Server versoeke oor wildcard adresse te aanvaar.
  • Bygevoeg opsie om alternatiewe NonSequentialPDFParser gebruik.
  • Inhoud van PDF AcroForms nou onttrek.
  • Vaste ongeldig sterretjies van meester skyfie in PPT.
  • Bygevoeg toets gevalle hantering van die motor-date bevestig PPT en PPTX.

Wat is nuut in die weergawe 1.4:

  • verwyder 'n toets HTML lêer met 'n swak gekies GPL teks dit.
  • Verbeterings aan tika-bediener te laat om dit te teks / html en teks / xml inhoud te produseer.
  • Verbeterings is gemaak om die kompressor Parser om g'zipped lêers wat die opsie decompressConcatenated stel om waar vereis, te hanteer.
  • Gerig n tipografiese fout wat verhoed opsporing van awk lêers.

Wat is nuut in die weergawe 1.2:

  • Apache Tika 1,2 bevat 'n aantal verbeterings en bug fixes.

Wat is nuut in weergawe 1.0:

  • Apache Tika 1,0 bevat 'n aantal verbeterings en bug fixes.

Wat is nuut in die weergawe 0.9:.

  • Hierdie release sluit verskeie belangrike foutherstellings en nuwe funksies

Wat is nuut in die weergawe 0.8:

  • identifikasie taal is nou dinamiese instel, bestuur deur 'n config lêer gelaai van die classpath.
  • Tika ondersteun nou parsing Feeds deur wikkel die onderliggende Rome biblioteek.
  • 'n vinnige-start gids vir Tika parsing bygedra.
  • 'n benadering vir die loodgieter deur XHTML eienskappe is bygevoeg.
  • tipe Media hiërargie inligting word nou in ag geneem by die kies van die beste parser vir 'n gegewe insette dokument.
  • Steun vir die ontleding van algemene wetenskaplike data formate, insluitend vetCDF en HDF4 / 5 is bygevoeg.
  • toetse Eenheid vir Windows is vasgestel, sodat TestParsers om te voltooi.

Wat is nuut in die weergawe 0.7:

  • MP3 lêer parsing is verbeter, insluitend Channel en SampleRate ontginning en ID3v2 ondersteuning. Verder, is die klank parsing mime opsporing ook verbeter vir die MIDI-formaat.
  • Tika staatmaak nie meer op X11 vir sy RTF parsing funksionaliteit.
  • 'n draad van veilige fout in die AutoDetectParser ontdek en aangespreek word.
  • opgradeer na PDFBox 1.0.0. Die nuwe weergawe PDFBox verbeter PDF parsing prestasie en fixes 'n aantal van die teks onttrekking kwessies.

Vereistes :

  • Java 6 of hoër

Soortgelyke sagteware

rdf-spec
rdf-spec

10 Dec 15

Brequire
Brequire

1 Oct 15

basket.js
basket.js

1 Mar 15

BigInt.js
BigInt.js

14 Apr 15

Ander sagteware ontwikkelaar Apache Software Foundation

Apache Ambari
Apache Ambari

11 Mar 16

Apache Sqoop
Apache Sqoop

12 May 15

Kommentaar te Apache Tika

Kommentaar nie gevind
Kommentaar te lewer
Draai op die foto!
Soek op kategorie