Jericho HTML Parser

Sagteware kiekie:
Jericho HTML Parser
Sagteware besonderhede:
Weergawe: 3.3
Upload datum: 20 Feb 15
Ontwikkelaar: Martin Jericho
Lisensie: Gratis
Populariteit: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser is 'n oop bron, eenvoudige, maar kragtige biblioteek is geskryf in Java.
Dit laat programmeerders te manipuleer en ontleed dele van 'n HTML-dokument.
Jerich HTML Parser sluit ook 'n hoë-vlak HTML vorm manipulasie funksies

Wat is nuut in hierdie release:.

  • Bug fixes:
  • [3581664] CharacterReference.decode () nie entiteite wat syfers ontsyfer - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor nie respekteer TEXTAREA
  • [3519131] Renderer uitset verkeerde wanneer gebou met 'n element voorwerp.
  • [3538829] Renderer uitset van font versiering op die blok grense verkeerd.
  • Segment.getAllStartTags (naam) en Segment.getFirstElement (naam) nie werk nie indien die argument bevat hoofletters karakters.
  • Die einde delimiter van 'n gemeenskaplike bediener tag binne 'n ontsnap bediener tag valslik erken as die einde delimiter van die ontsnap tag.
  • veranderinge voor wat die GEDRAG VAN bestaande programme RAAK:
  • [3427073] Segment.getStyleURISegments () sluit nou styl element inhoud, sowel as styl kenmerk waardes.
  • [3427927] Segment.getURIAttributes () sluit nou die argief eienskappe van voorwerp en applet elemente.
  • Kommentaar nie meer in volle opeenvolgende parse binne script elemente erken. Voorheen was hulle erken vir verenigbaarheid met groot implementeer, maar moderne leser gedrag verander het.
  • Verander die log vlak van al die ontleding van foute van INFO te fout, en die log vlak van die Source.fullSequentialParse () adviserende boodskap van waarsku INFO. Die vorige vlakke het die raadgewende boodskap 'n hoër erns as die ontleding foute, die voorkoming meld stelsels van die wegsteek van die raadgewende boodskap terwyl die wat parsing foute. Karakter enkodering waarskuwings bly onveranderd op WAARSKU vlak.
  • verander die gedrag van die Renderer.renderHyperlinkURL (StartTag) metode sodat relatiewe URL's nie gelewer word nie.
  • verander die gedrag van die Renderer sodat hyperlink element inhoud is nie gelewer is dit dieselfde as die hyperlink URL, enige http ignoreer. // Vooraan of / agtervoegsel
  • EndTag.tidy () verwyder nou witspasie voor die sluitingsdatum bracket.
  • Added Bron (File) constructor.
  • Added OutputDocument.getSegment () metode.
  • Added OutputDocument.remove (int begin, int einde) metode.
  • Added Renderer.setHRLineLength () metode.
  • Added RenderToText.jsp webapp monster.
  • Added Segment.getRowColumnVector () metode.
  • Encoding opsporing ignoreer nou algemeen enkoderings gespesifiseer in metatags wat 'n kode eenheid grootte in stryd is met die voorlopige enkodering.
  • opgegradeer na die volgende logger APIs: slf4j-api-1.7.2, log4j-1.2.17

Wat is nuut in die weergawe 3.1:

  • Bug fixes:
  • [2793556] oneindige lus op Segment.getAllStartTags ()
  • oneindige lus op Segment.getAllElements ()
  • Segment.getFirst * metodes teruggekeer segmente buite die jaag segment.
  • Segment.getAllElements metodes het nie al ingeslote elemente terug in sekere omstandighede.
  • Vaste dokumentasie foute in Segment.getAllElements metodes.
  • Added StreamedSource klas.
  • veranderinge voor wat die GEDRAG VAN bestaande programme RAAK:
  • verander ParseText uit die klas te koppel.
  • Segment.getNodeIterator () gee nou karakter verwysings as afsonderlike nodes.
  • Bygevoeg tag search metodes gebaseer op kenmerk waarde gereelde uitdrukkings.
  • Bygevoeg tag search metodes gebaseer op HTML klas kenmerk.
  • Bygevoeg statiese Source.LegacyNodeIteratorCompatabilityMode eiendom tydelik Segment.getNodeIterator () funksie te herstel aan dié van die vorige weergawes.
  • verwyder char [] gebaseer search metodes in ParseText.
  • Added CharacterReference.appendCharTo (aandrywer) metode.
  • Added OutputDocument (Segment) constructor.
  • Added StreamedSourceCopy monster program.

Wat is nuut in die weergawe 3.0:

  • Bug fixes:
  • Character verwysings verteenwoordig unicode aanvullende karakters is nie korrek gedekodeer UTF-16-kode eenheid pare.
  • [2188446] Element.getDepth () en Element.getParentElement () terug foutiewe uitslae as genoem in parse op aanvraag af.
  • Kommentaar is nou binne & lt erken; script & gt; elemente.
  • API veranderinge wat NIE backwards compatible:
  • verander pakket naam net.htmlparser.jericho
  • kenmerk waardes moet nou String eerder as CharSequence.
  • verwyder al afgekeur metodes / klasse van vorige weergawes.
  • Alle vind * metodes afgekeur ten gunste van kry * metodes om 'n konsekwente naamkonvensie oor al tag search metodes toe te pas.
  • Tag, Element en HTMLElements klasse nie meer implementeer die HTMLElementName koppelvlak. (Gebruik statiese invoer plaas)
  • Alle versamelings nou stongly getik generiese.
  • verander FormControlOutputStyle klas enum.
  • verander FormControlType klas enum.
  • Added CharStreamSource.appendTo (aandrywer) metode.
  • Added Source.iterator () metode.
  • Bron implemente nou Iterable.
  • Intern gebruik StringBuilder vir beter prestasie.
  • Added Source.getNextStartTag (StartTagType) metode.
  • Added Source.getNextEndTag (EndTagType) metode.
  • Added Source.getPreviousStartTag (StartTagType) metode.
  • Added Source.getPreviousEndTag (EndTagType) metode.
  • Added Segment.getAllStartTags (StartTagType) metode.
  • Bygevoeg al Segment.getFirst * metodes.
  • Added Renderer.renderHyperlinkURL (StartTag) metode.
  • Added HTMLSanitiser monster program.
  • opgegradeer na slf4j-api-1.5.6

Vereistes :

  • Java 2 Standard Edition Runtime Environment

Soortgelyke sagteware

hexedit
hexedit

18 Feb 15

Moo
Moo

20 Feb 15

Pybtex
Pybtex

14 Apr 15

Nemo Templates
Nemo Templates

14 Apr 15

Ander sagteware ontwikkelaar Martin Jericho

Kommentaar te Jericho HTML Parser

Kommentaar nie gevind
Kommentaar te lewer
Draai op die foto!