Jericho HTML Parser

Sagteware kiekie:
Jericho HTML Parser
Sagteware besonderhede:
Weergawe: 3.4
Upload datum: 10 Dec 15
Ontwikkelaar: Martin Jericho
Lisensie: Gratis
Populariteit: 105

Rating: 5.0/5 (Total Votes: 1)

Dit kan die bediener-kant en kliënt-kant tags wysig, terwyl reproduseer woordeliks enige onerkende of ongeldig HTML.

Dit bied ook 'n hoë-vlak HTML vorm manipulasie funksies

Eienskappe :.

  • Die teenwoordigheid van erg geformatteerde HTML nie inmeng met die ontleding van die res van die dokument, wat die biblioteek ideaal vir gebruik maak met & quot; die werklike wêreld & quot; HTML dat ander parsers verstik.
  • ASP, JSP, PSP, PHP en Mason bediener tags uitdruklik erken word deur die ontleder. Dit beteken dat die normale HTML steeds behoorlik ontleed selfs al is daar bediener tags in hulle, wat is 'n algemene byvoorbeeld wanneer dinamiese opstel element eienskappe.
  • 'n nuwe stroom gebaseer parsing opsie met behulp van die StreamedSource klas, wat die geheue doeltreffende verwerking van groot lêers met behulp van 'n gebeurtenis Iterator toelaat. Dit is in wese 'n Stax alternatiewe met die vermoë om HTML en nie-bekragtiging van XML, asook verskeie ander funksies nie beskikbaar in ander streaming parsers verwerk.
  • In sy standaard vorm dit is nie 'n gebeurtenis nie boom gebaseer parser nie, maar eerder 'n kombinasie van 'n eenvoudige teks soek, doeltreffende tag erkenning en 'n tag posisie kas. Die teks van die hele bron dokument is die eerste in die geheue gelaai, en dan slegs die relevante segmente gesoek vir die betrokke karakters van elke soektog.
  • In vergelyking met 'n boom gebaseer parser soos DOM, die geheue en hulpbron vereistes kan baie beter wees as net 'n klein deel van die dokument moet ontleed word of verander. Verkeerde of swak geformatteerde HTML kan maklik geïgnoreer word nie, in teenstelling met boom gebaseer parsers wat elke node in die dokument van bo moet identifiseer na onder.
  • In vergelyking met 'n gebeurtenis gebaseer parser soos SAX, die koppelvlak is op 'n veel hoër vlak en meer intuïtief, en 'n boom voorstelling van die dokument element hiërargie is maklik geskep word indien nodig.
  • Die begin en eindig posisies in die brondokument van alle segmente ontleed is toeganklik, sodat die wysiging van slegs geselekteerde segmente van die dokument sonder om die hele dokument te rekonstrueer uit 'n boom.
  • Die ry en kolom nommer van elke posisie in die brondokument is maklik toeganklik.
  • Verskaf 'n eenvoudige, maar omvattende koppelvlak vir die analise en manipulasie van HTML vorm kontrole, insluitend die ontginning en bevolking van aanvanklike waardes, en die omskakeling na lees-alleen of data vertoon modes. Ontleding van die vorm kontroles ook toelaat data ontvang van die vorm gestoor word en aangebied in 'n gepaste wyse.
  • ingeboude funksie om al die teks van HTML opmaak, wat geskik is vir die voeding in 'n teks soekenjin soos Apache Lucene onttrek.
  • ingeboude funksie om HTML opmaak met 'n eenvoudige teks formatering te lewer.
  • ingeboude funksie om HTML bron-kode wat elemente koppeltekens volgens hul diepte in die dokument element hiërargie formaat. (Klik hier vir 'n aanlyn demonstrasie)
  • ingeboude funksie om kompakte HTML bron-kode deur die verwydering van alle onnodige wit ruimte.
  • Custom tipes tag kan maklik omskryf en geregistreer is vir die erkenning deur die ontleder.

Wat is nuut in hierdie release:.

  • Added Bron (File) constructor
  • metode Added OutputDocument.getSegment ().
  • Added OutputDocument.remove (int begin, int end) metode.
  • metode Added Renderer.setHRLineLength ().
  • Added RenderToText.jsp webapp monster.
  • metode Added Segment.getRowColumnVector ().
  • Encoding opsporing ignoreer nou algemeen enkoderings gespesifiseer in metatags 'n kode-eenheid grootte in stryd is met die voorlopige encoding het.

Wat is nuut in die weergawe 3.1:

  • Bug fixes:
  • oneindige lus op Segment.getAllStartTags ()
  • oneindige lus op Segment.getAllElements ()
  • Segment.getFirst * metodes teruggekeer segmente buite die jaag segment.
  • Segment.getAllElements metodes het nie al ingeslote elemente terug in sommige omstandighede.
  • Vaste dokumentasie foute in Segment.getAllElements metodes.
  • Added StreamedSource klas.
  • Wysigings wat die gedrag van bestaande programme kan beïnvloed:
  • verander ParseText van klas tot koppelvlak.
  • Segment.getNodeIterator () gee terug nou karakter verwysings as afsonderlike nodes.
  • Bygevoeg tag search metodes gebaseer op kenmerk waarde gereelde uitdrukkings.
  • Bygevoeg tag search metodes gebaseer op HTML klas kenmerk.
  • Bygevoeg statiese Source.LegacyNodeIteratorCompatabilityMode eiendom tydelik Segment.getNodeIterator () funksie te herstel aan dié van die vorige weergawes.
  • verwyder char [] gebaseer search metodes in ParseText.
  • Added CharacterReference.appendCharTo (aandrywer) metode.
  • Added OutputDocument (Segment) constructor.
  • Added StreamedSourceCopy monster program.

Soortgelyke sagteware

SlidePanel
SlidePanel

23 Jul 15

Python-SCSS
Python-SCSS

12 May 15

Ander sagteware ontwikkelaar Martin Jericho

Kommentaar te Jericho HTML Parser

Kommentaar nie gevind
Kommentaar te lewer
Draai op die foto!
Soek op kategorie