Apache Lucene

Sagteware kiekie:
Apache Lucene
Sagteware besonderhede:
Weergawe: 5.3.1 / 4.10.4 / 3.6.2 Opgedateer
Upload datum: 10 Dec 15
Lisensie: Gratis
Populariteit: 241

Rating: nan/5 (Total Votes: 0)

Apache Lucene is geskik vir enige aansoek wat ondersteuning vir vol-teks soektogte vereis, terwyl dit ook bediener hulpbron verbruik af en vervaardiging vinnige en hoë-akkuraatheid resultate.

Lucene word wyd beskou as een van die beste soekenjins rond, om by die kern van baie ander soek gereedskap, die mees bekende wese Apache Solr .

Lucene is heeltemal in Java geskryf en sedertdien vrygestel deur die Apache-stigting, is dit oorgedra na baie ander tale en verskeie bindings en omhulsels bestaan ​​as derde party ontwikkel sagteware.

Wat is nuut in hierdie release:

  • Alle toegang lêer gebruik nou Java NIO.2 APIs wat Lucene sterker indeks veiligheid te gee in terme van 'n beter fouthantering en veiliger pleeg.
  • Elke Lucene segment die winkels nou 'n unieke ID per segment en per pleeg om te help met akkurate replikasie van die indeks lêers.
  • Tydens die samesmelting, IndexWriter nou tjeks altyd die inkomende segmente vir korrupsie Alvorens. Dit kan beteken, op te gradeer om 5.0.0, kan daardie samesmelting lang latente korrupsie in 'n ouer 4.x indeks ontbloot.

Wat is nuut in die weergawe 5.2.1 / 4.10.4 / 3.6.2:

  • Alle lêer toegang gebruik nou Java NIO.2 APIs wat Lucene sterker indeks veiligheid te gee in terme van 'n beter en veiliger fout hantering pleeg.
  • Elke Lucene segment die winkels nou 'n unieke ID per segment en per pleeg om te help met akkurate replikasie van die indeks lêers.
  • Tydens die samesmelting, IndexWriter nou tjeks altyd die inkomende segmente vir korrupsie Alvorens. Dit kan beteken, op te gradeer om 5.0.0, kan daardie samesmelting lang latente korrupsie in 'n ouer 4.x indeks ontbloot.

Wat is nuut in die weergawe 5.1.0 / 4.10.4 / 3.6.2:

  • Alle lêer toegang gebruik nou Java NIO.2 APIs wat Lucene sterker indeks veiligheid te gee in terme van 'n beter en veiliger fout hantering pleeg.
  • Elke Lucene segment die winkels nou 'n unieke ID per segment en per pleeg om te help met akkurate replikasie van die indeks lêers.
  • Tydens die samesmelting, IndexWriter nou tjeks altyd die inkomende segmente vir korrupsie Alvorens. Dit kan beteken, op te gradeer om 5.0.0, kan daardie samesmelting lang latente korrupsie in 'n ouer 4.x indeks ontbloot.

Wat is nuut in die weergawe 5.0.0 / 4.10.3 / 3.6.2:

  • New Terme .getMin / Max metodes om die laagste en die hoogste terme haal per veld.
  • New IDVersionPostingsFormat, geskik vir ID-soektogte dat 'n Monotoon toenemende weergawe per ID assosieer.
  • Atoom update van 'n stel van doc waardes velde.
  • Talle optimalisaties vir doc waardes search-time prestasie.
  • Nuwe (verstek) Lucene49NormsFormat beter sekere gevalle compress soos baie kort velde.
  • New SORTED_NUMERIC docvalues ​​tipe vir doeltreffende verwerking van 'n multi-gewaardeer numeriese velde.
  • Indexer verby vorige token stroom vir makliker hergebruik.
  • MoreLikeThis aanvaar verskeie waardes per veld.
  • Alle klasse wat hul RAM gebruik beraam nou implementeer 'n nuwe Verantwoordbare koppelvlak.
  • Lucene lêers is nou geskryf deur (File) OutputStream op alle platforms, heeltemal disallowing soek met vereenvoudigde IO APIs.
  • Verbeter die verwarrende boodskap as MMapDirectory 'n nuwe kaart nie kan skep.

Wat is nuut in die weergawe 4.8.0:

  • Lucene het 'n nuwe Rescorer / QueryRescorer API te voer tweede-pass rescoring of reranking van die resultate met behulp van duurder scoring funksies na eerste-pass treffer versameling.
  • AnalyzingInfixSuggester ondersteun nou naby-real-time autosuggest.
  • Vereenvoudigde-impak gesorteer plasings (met behulp van SortingMergePolicy en EarlyTerminatingCollector) om Lucene se Sorteer klas gebruik om die volgorde te druk.
  • Bulk scoring en normale Iterator gebaseer scoring geskei, so 'n paar navrae kan grootmaat scoring meer effektief te doen.
  • Skakel om MurmurHash3 om terme hash tydens indeksering.
  • IndexWriter ondersteun nou opdatering van binêre doc waarde velde.
  • HunspellStemFilter gebruik nou 10 tot minder RAM 100x. Dit vragte ook al bekend OpenOffice woordeboeke sonder fout.
  • Lucene nou fsyncs ook die gids metadata op pleeg, as die bedryfstelsel en lêer stelsel toelaat dat dit (Linux, MacOSX is bekend om te werk).
  • Lucene gebruik nou Java 7 lêer stelsel funksies onder die enjinkap, so indeks lêers op Windows kan verwyder, selfs wanneer lesers is nog oop.
  • 'n ernstige fout in NativeFSLockFactory is vasgestel, wat kan toelaat dat verskeie IndexWriters dieselfde slot bekom. Die slot lêer is nie meer verwyder van die indeks gids selfs wanneer die slot nie gehou.

Wat is nuut in die weergawe 4.7.0:

  • Wanneer sorteer String (SortField.STRING), kan jy nou spesifiseer of ontbrekende waardes eerste (die verstek), of die laaste gesorteer moet word.
  • NRT ondersteuning vir lêer stelsels wat nie verwyder verlede naby of kan nie verwyder terwyl gekla semantiek.
  • Added LongBitSet vir die bestuur van meer as 2.1B stukkies (andersins gebruik FixedBitSet).
  • Added Analyzer vir Koerdiese.
  • Bygevoeg Payload ondersteuning aan FileDictionary (Stel) en maak dit meer konfigureerbare.
  • 'n Nuwe BlendedInfixSuggester, wat soos AnalyzingInfixSuggester maar verhoog voorstelle wat tekens ooreenstem met laer posisies.
  • Added SimpleQueryParser. parser vir menslike aangegaan navrae
  • Added multitermquery (wildcards, voorvoegsel, ens) om PostingsHighlighter.

Wat is nuut in die weergawe 4.6.0:

  • Bygevoeg ondersteuning vir NumericDocValues ​​veld updates (sonder re- kruip die dokument) deur IndexWriter.updateNumericDocValue (Kwartaal, String, Long).
  • New FreeTextSuggester kan die volgende woord voorspel met behulp van 'n eenvoudige ngram taalmodel nuttig vir & quot; n lang stert & quot; voorstelle.
  • 'n nuwe uitdrukking module laat vir persoonlike posisie met script-agtige sintaksis.
  • 'n nuwe DirectDocValuesFormat kan al doc waardes in hoop as ongecomprimeerd java moedertaal skikkings te hou.
  • Term.hasFreqs kan nou bepaal of 'n gegewe veld geïndekseer per doc
  • term frekwensies.

Wat is nuut in die weergawe 4.5.0:

  • New in-geheue DocIdSet implementering wat is veral beter as FixedBitSet klein stelle. WAH8DocIdSet, PFORDeltaDocIdSet en EliasFanoDocIdSet
  • CachingWrapperFilter caches nou filters met WAH8DocIdSet by verstek, wat dieselfde geheue gebruik as FixedBitSet in die ergste geval het, maar is kleiner en vinniger op klein stelle.
  • TokenStreams nou die posisie inkrement in einde (), so ons kan hanteer sleep gate.
  • IndexWriter klone die gegewe IndexWriterConfig nie meer nie.
  • Verskeie bugfixes en optimalisaties sedert die 4,4 release.

Wat is nuut in die weergawe 4.4.0:

  • New Replicator module: herhaal indeks wysigings tussen bediener en kliënt.
  • New AnalyzingInfixSuggester. vind voorstelle gebaseer op wedstryde om enige tekens in die voorstel, en nie net op grond van suiwer voorvoegsel bypassende
  • New PatternCaptureGroupTokenFilter. uitstraal verskeie tekens, een vir elke opname-groep in een of meer Java regexes
  • New Lucene Facet module.

Wat is nuut in die weergawe 4.3.0:

  • New SearcherTaxonomyManager bestuur naby-real-time heropen van beide IndexSearcher en TaxonomyReader (vir faceting).
  • Bygevoeg nuwe faset metode om die faset module te faset tel behulp SortedSetDocValuesField, sonder 'n aparte taksonomie indeks te bereken.
  • Beduidende prestasie verbeterings vir minShouldMatch BooleanQuery weens draai gevolglike tot 4000% vinniger navrae.
  • Verskeie bugfixes en optimalisaties sedert die 4.2.1 vrylating.

Wat is nuut in die weergawe 4.1.0:

  • Lucene nie meer soek wanneer die skryf van lêers (alle velde is geskryf in 'n net-aanhegnavraag manier). Dit beteken dat dit werk by verstek met aanhegnavraag net strome, hdfs, ens ..
  • New stel implementering: AnalyzingSuggester, waar die onderliggende vorm (bereken uit 'n Lucene Analyzer) wat gebruik word vir voorstelle is apart van die teks en teruggekeer FuzzySuggester, wat addisioneel voorsiening vir onjuiste bypassende op die insette
  • .
  • By-realtime ondersteuning is bygevoeg om die faset module.
  • New Highlighter (postingshighlighter) by die highlighter module.
  • Added FilterStrategy om FilteredQuery vir meer buigsaamheid in gefiltreer uitvoering navraag.
  • Added CommonTermsQuery te bespoedig navrae met 'n baie sterk gereelde terme. Termyn frekwensies doeltreffend bespeur by navraag tyd -. Geen indeks tyd voorbereiding vereis
  • Verskeie bugfixes en optimalisaties sedert die 4,0 release.

Wat is nuut in die weergawe 4.0 alfa:

  • Die indeks formate vir terme, plasings lyste, gestoor velde, termyn
  • vektore, ens is plug via die Kodek api. Jy kan kies uit die voorwaarde implementering of pas die indeks formaat met jou eie Kodek om jou behoeftes te voorsien.
  • Substantially vinniger prestasie by die gebruik van 'n Filter tydens soek.
  • File-stelsel gebaseer dopgehou kan koers-limiet die IO (MB / sec) van merge drade, om IO twis verminder tussen samesmelting en soek drade.
  • FuzzyQuery is 100-200 keer vinniger as in die verlede weergawes.
  • 'n nuwe speltoetser, DirectSpellChecker, vind moontlike regstellings
  • direk teen die belangrikste search indeks sonder dat 'n aparte indeks.

Wat is nuut in die weergawe 3.6.0:

  • In bykomend tot Java 5 en Java 6, hierdie vrylating is nou vol Java 7 ondersteuning (minimum JDK 7u1 vereis).
  • TypeTokenFilter filters tekens op grond van hul TypeAttribute.
  • Vaste verreken foute in 'n aantal CharFilters, Tokenizers en TokenFilters wat kan lei tot uitsonderings tydens beklemtoon.
  • Bygevoeg fonetiese opnemers: Metaphone, Soundex, Caverphone, Beider-Morse, ens
  • .
  • CJKBigramFilter en CJKWidthFilter vervang CJKTokenizer.
  • Kuromoji morfologiese analiseerder tokenizes Japannese teks, die vervaardiging van beide saamgestelde woorde en hul segmentasie.
  • Statiese indeks snoei (Carmel snoei) verwyder plasings met 'n lae-dokument binne term frekwensie.
  • QueryParser nou interpreteer '*' as 'n oop einde vir reeks navrae.
  • FieldValueFilter sluit dokumente ontbreek die gespesifiseerde veld.
  • CheckIndex en IndexUpgrader toelaat om die spesifieke FSDirectory implementering om te gebruik met die nuwe -dir-implikasie om opdrag-lyn opsie spesifiseer.
  • FSTs kan nou nie reverse lookup (deur uitset) in sekere gevalle en kan verpak word om die grootte te verminder. Daar is nou 'n metode om top N kortste paaie van 'n begin knoop haal in 'n FST.
  • New WFSTCompletionLookup suggester ondersteun-fyner grein posisie vir voorstelle.
  • FST gebaseer suggesters gebruik nou 'n regte pad (op skyf) soort, in plaas van in-geheue soort, wanneer pre-sorteer die voorstelle.
  • ToChildBlockJoinQuery sluit in die teenoorgestelde rigting (ouer tot kind dokumente).
  • New navraag-time aansluit is meer buigsaam (maar minder performante) as indeks-time aansluit.
  • Added HTMLStripCharFilter HTML opmaak stroop.

Wat is nuut in die weergawe 3.5.0:

  • Bygevoeg 'n baie groot (3-5X) RAM vermindering nodig is om die terme indeks hou op die opening van 'IndexReader.
  • Added IndexSearcher.searchAfter wat resultate na 'n gespesifiseerde ScoreDoc terug (bv laaste dokument op die vorige bladsy) diep blaai gebruik gevalle te ondersteun.
  • Added SearcherManager om te deel en die heropening van IndexSearchers oor verskeie search drade te bestuur. Onderliggende IndexReader gevalle veilig gesluit indien nie meer gekla.
  • Added SearcherLifetimeManager wat veilig bied 'n konsekwente siening van die indeks oor verskeie versoeke (bv blaai / detail vertoning).
  • Herdoop IndexWriter.optimize om forceMerge gebruik van hierdie metode ontmoedig omdat dit verskriklik duur en selde meer geregverdig.

Wat is nuut in die weergawe 3.3.0:

  • Die speltoetser module sluit nou stel / motor-volledige funksies, met drie implementering. Jaspell, drieledige Trie, en Eindige staat
  • Steun vir die samesmelting van die resultate van verskeie skerwe, vir beide & quot; normale & quot; resultate (TopDocs.merge) sowel as gegroepeer resultate met die groepering module (SearchGroup.merge, TopGroups.merge).
  • 'n optimale implementering van KStem, 'n minder aggressief Stemmer vir die Engelse.
  • Enkellopend-pass groepering implementering gebaseer op blok dokument kruip.
  • Verbeterings aan MMapDirectory (nou ook die standaard implementering teruggekeer met FSDirectory.open op 64-bit Linux).
  • NRTManager vergemaklik hantering naby-real-time soek met verskeie search drade, sodat die aansoek om te beheer wat kruip veranderinge sigbaar moet wees om wat navrae.
  • TwoPhaseCommitTool fasiliteer die uitvoering van 'n multi-hulpbron twee fases te pleeg, insluitend IndexWriter.
  • Die standaard merge beleid TieredMergePolicy, het 'n nuwe metode (set / getReclaimDeletesWeight) om te bepaal hoe aggressief dit teikens segmente met weglatings, en is nou meer aggressief as voor by verstek.
  • PKIndexSplitter instrument split 'n indeks deur 'n mid-punt termyn.

Wat is nuut in die weergawe 3.2.0:

  • 'n nuwe groepering module, onder Lucene / contrib / groepering, in staat stel om die resultate te gegroepeer deur 'n enkel-gewaardeer geïndekseer veld.
  • 'n nuwe IndexUpgrader instrument ten volle vat 'n ou indeks van die huidige formaat.
  • 'n nuwe gids implementering, NRTCachingDirectory, caches klein segmente in die geheue, die I / O vrag te verminder vir aansoeke met 'n vinnige NRT heropen tariewe.
  • 'n nuwe Versamelaar implementering, CachingCollector, is in staat om search treffers (dokument ID's en opsioneel ook tellings) in te samel en dan speel hulle. Dit is nuttig vir versamelaars wat twee of meer passe vereis om resultate te lewer.
  • Index 'n dokument blok met behulp van nuwe addDocuments of updateDocuments metodes IndexWriter se. Hierdie eksperimentele APIs te verseker dat die blok van dokumente vir ewig aangrensende sal bly in die indeks, sodat interessante toekomstige funksies soos groepering en sluit.
  • 'n nuwe standaard merge beleid TieredMergePolicy, wat is meer doeltreffend as gevolg van in staat is om nie-aangrensende segmente saam te smelt.
  • NumericField is nou korrek teruggekeer wanneer jy 'n dokument gestoor laai (voorheen 'n normale Field terug ontvang, met die numeriese waarde omgeskakel string).

Wat is nuut in die weergawe 3.1.0:.

  • ConstantScoreQuery nou laat direk wikkel 'n Query
  • IndexWriter is nou ingestel met 'n nuwe aparte bouer API, IndexWriterConfig. Jy kan nou beheer IndexWriter se voorheen vaste interne draad limiet deur die roeping setMaxThreadStates.
  • IndexWriter.getReader vervang IndexReader.open (IndexWriter). Daarbenewens kan jy nou spesifiseer of uitvee moet opgelos word wanneer jy 'n NRT leser oop te maak.
  • MultiSearcher is afgekeur; ParallelMultiSearcher is direk opgeneem in IndexSearcher.
  • Op 64bit Windows en Solaris JVMs, MMapDirectory is nou die standaard implementering (teruggestuur deur FSDirectory.open). MMapDirectory stel ook unmapping indien die JVM dit ondersteun.
  • New TotalHitCountCollector net tel totale aantal hits.
  • ReaderFinishedListener API stel eksterne caches inskrywings sit een keer 'n segment is klaar.

Wat is nuut in die weergawe 3.0.1:.

  • Verwyder onnodige sinchronisasie in FuzzyTermEnum
  • Wanneer die oplossing verwyder terme, doen dit in die tweede kwartaal sorteervolgorde vir beter prestasie.
  • Moenie verkeerd hou waarskuwing oor die dieselfde groot termyn, wanneer IndexWriter.infoStream is op.
  • Fix Min / MaxPayloadFunction terugkeer 0 wanneer slegs een loonvrag teenwoordig is.
  • Navrae bestaande uit al zero-hupstoot klousules (byvoorbeeld die teks: cat ^ 0) gesorteer verkeerd en vervaardig ongeldig docids
  • .
  • verwyder die beskermde innerlike klas ScoreTerm van FuzzyQuery. Die verandering is nodig omdat die vergelyker van hierdie klas het om in 'n stryd manier verander. Die klas was nooit bedoel publiek.

Wat is nuut in die weergawe 2.9.2:

  • BooleanQuery ignoreer disableCoord in sy hashCode en gelyk metodes veroorsaak slegte dinge om te gebeur wanneer die kas BooleanQueries.
  • Moenie verkeerd hou waarskuwing oor die dieselfde groot termyn, wanneer IndexWriter.infoStream is op.
  • Op 'n hoë kruip tariewe, NRT leser kan tydelik weglatings verloor.

Wat is nuut in die weergawe 3.0.0:

  • verwyder die eiendom stelsel SegmentReader klas implementering stel.
  • Change terugkeer tipe SnapshotDeletionPolicy # snapshot () van IndexCommitPoint om IndexCommit. Kode wat hierdie metode gebruik moet word gehercompileerd teen Lucene 3,0 in om te werk. Die voorheen afgekeur IndexCommitPoint ook verwyder.
  • Verskaf 'n gerief AttributeFactory dat 'n Token byvoorbeeld skep vir alle basiese eienskappe.
  • Verwyder rekursie in NumericRangeTermEnum.
  • Optimaliseer Levenshtein Afstand berekening in FuzzyQuery.

Soortgelyke sagteware

Mr. Bigglesworth
Mr. Bigglesworth

13 May 15

pyelasticsearch
pyelasticsearch

20 Jul 15

Spidr
Spidr

12 May 15

Ander sagteware ontwikkelaar Apache Software Foundation

Apache Flink
Apache Flink

9 Apr 16

Apache Falcon
Apache Falcon

10 Dec 15

Apache Gora
Apache Gora

10 Dec 15

Apache Subversion
Apache Subversion

16 Aug 18

Kommentaar te Apache Lucene

Kommentaar nie gevind
Kommentaar te lewer
Draai op die foto!
Soek op kategorie