Apache Nutch is gebou op die top van Apache Lucene , 'n kragtige Java soektog.
Nutch ontwikkelaars verander die Lucene kodebasis, die transformasie van die data-agnostikus Lucene kodebasis in 'n projek toegewy vir die soek data op die web spesifiek.
Hierdie tegnologie kan gebruik word om te soek op jou eie webblaaie as 'n ingeboude soek bediener, of kruip die Web soek na data te ontleed en skraap in jou databasis.
Nutch kan hardloop op 'n masjien nie, maar werk beter in Hadoop clusters.
Verskeie plugins beskikbaar is vir die uitbreiding van die gebruik spektrum
Wat is nuut in hierdie release:.
- Maak seker duplikaat tags bestaan nie in microformat-reltag tag stel.
- 'n beter om terug te val waarde vir datum veld.
- Raak ontslae van die gevreesde.
- opgradeer na Hadoop 1.2.0.
- opgradeer na Tika 1.3.
Wat is nuut in weergawe 2.0:.
- Herdoop HTMLParseFilter in ParseFilter
- Verwyder oorblywende robots / IP blokkeer kode in lib-http.
- Port meld aan slf4j.
- Eksterne parser ondersteun encoding kenmerk.
- Ivy konfigurasie-instellings sluit nie Gora.
- injection moet die metadata voeg voordat hy injectedScore.
- Port Nutch maatstaf Nutchbase.
- Voeg parse-html terug.
- MoreIndexingFilter ontbrekende datum formaat.
- Tydverstreke vir Parser.
- Weer interval in crawl datum is ingestel op 0.
- Genereer log uitset vir solr indexer en dedup.
- Verbeterde NutchConfiguration.
- SolrDeleteDuplicates moet die SolrRecord voorwerpe te kloon.
- Native hadoop libs nie beskikbaar is deur Maven.
- Skei die bou en runtime omgewings.
Wat is nuut in weergawe 1.5:
- Hierdie release sluit verskeie verbeterings insluitend opgraderings van verskeie belangrike komponente insluitend Tika 1.1 en Hadoop 1.0.0, verbeterings aan LinkRank en WebGraph elemente sowel as 'n aantal nuwe plugins wat swartlys, filter en die ontleding van 'n paar te noem.
Wat is nuut in die weergawe 1.4:.
- Added Solr 4x (stam) voorbeeld skema
- Bygevoeg '/ runtime' te svn ignoreer.
- Aansoek / xhtml + xml moet aangesit wees in plugin.xml van parse-html; toelaat dat verskeie mime vir plugin.xml.
- Vaste parse-tika en ontleed-html relatiewe URL resolusie per RFC-3986 te gebruik.
- opgegradeer na Tika 0.10. NOTA:. Tika se nuwe RTF parser kan meer teks in misvormde dokumente as wat voorheen ignoreer - sien Tika-748 vir besonderhede
- Added Sonar teikens te Ant build.xml.
- opgegradeer SolrJ na weergawe 3.4.0.
- Ant pmd teiken is gebreek.
- opgegradeer Solr skema na weergawe 1.4.
Wat is nuut in die weergawe 1.3:
- Hierdie release sluit verskeie verbeterings (verbeterde RSS parsing ondersteuning, strenger integrasie met Apache Tika, eksterne parsing ondersteuning, verbeterde taal identifikasie en 'n orde van grootte kleiner bron release tarball -. net oor 2MB)
Wat is nuut in die weergawe 1.2:.
- Maak indeks-meer plug-in konfigureerbare
- Konfigureerbare lêer protokol ouer gids kruip.
- Tydverstreke vir Parser.
- Website steeds Lucene gebrandmerk.
- Weer interval in crawl datum is ingestel op 0.
Wat is nuut in weergawe 1.0:.
- Laat parsers verskeie Parse voorwerpe om terug te keer
- verwyder oortollige commons-meld jar van ontologie plugin.
- Bug in SegmentReader veroorsaak oneindige lus.
- Scoring filter moet telling op alle outlinks versprei in 'n keer.
- Verminder aantal waarskuwings in nutch kern.
Kommentaar nie gevind