Jericho HTML Parser

Software kuvakaappaus:
Jericho HTML Parser
Ohjelmiston tiedot:
Versio: 3.3
Lähetyksen päivämäärä: 20 Feb 15
Kehittäjä: Martin Jericho
Lupa: Vapaa
Suosio: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser on avoimen lähdekoodin, yksinkertainen, mutta tehokas kirjasto kirjoitettu kokonaan Javalla.
Sen avulla ohjelmoijat voivat muokata ja analysoida osaa HTML-dokumentti.
Jerich HTML Parser sisältää myös korkean tason HTML muodossa muokkaamistoimintoja.

Mitä uutta tässä julkaisussa:

  • Virhekorjauksia:
  • [3581664] CharacterReference.decode () ei purkaa yhteisöt sisältävät numeroa - & frac12; -kertainen & Frac14; -kertainen & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor ei kunnioita TEXTAREA
  • [3519131] Renderer lähtö virheellinen, kun rakennettu Element esine.
  • [3538829] Renderer tuotos font koriste lohkon rajojen virheellinen.
  • Segment.getAllStartTags (nimi) ja Segment.getFirstElement (nimi) eivät toimi, jos väite sisältää isoja merkkejä.
  • pää Delimiter yhteisen palvelimen tunnisteen sisällä karannut palvelimen tunniste on virheellisesti kirjattu loppuun Delimiter pakeni tag.
  • muutoksia, jotka vaikuttavat KÄYTTÄYTYMINEN nykyisten ohjelmien:
  • [3427073] Segment.getStyleURISegments () sisältää nyt tyylielementin sisältöä sekä tyyli määreet.
  • [3427927] Segment.getURIAttributes () nyt myös arkiston ominaisuudet esineen ja applet elementtejä.
  • Kommentit enää tunnustettu sisällä skriptielementtejä aikana koko juokseva jäsentää. Aiemmin ne kirjattiin yhteensopivuus suuria selaimilla, mutta moderni selain käyttäytyminen on muuttunut.
  • Muuttunut lokitaso kaikkien jäsennysvirheitä INFO ERROR, ja lokin taso Source.fullSequentialParse () neuvoa-antava viesti WARN INFO. Edellisen tasot antoi neuvoa-antavan viestin suurempi vakavuus kuin jäsennysvirheitä estäen puunkorjuu järjestelmät piilosta neuvonta- -viesti näytetään jäsennysvirheitä. Merkkikoodaus varoitukset jäävät ennallaan WARN tasolla.
  • Muuttunut käyttäytyminen Renderer.renderHyperlinkURL (alkutagista) menetelmällä siten, että suhteellinen URL-osoitteita ei suoritettu.
  • Muuttunut käyttäytyminen Rendereriä jotta hyperlinkin elementti sisältö ei suoritettu, jos se on sama kuin hyperlinkin URL, välittämättä mitään etuliitettä http: // tai / pääte.
  • EndTag.tidy () nyt poistaa välilyönnit ennen sulkemista kiinnike.
  • Lisätty Source (File) rakentaja.
  • Lisätty OutputDocument.getSegment () menetelmä.
  • Lisätty OutputDocument.remove (int alkaa, int loppu) menetelmällä.
  • Lisätty Renderer.setHRLineLength () menetelmä.
  • Lisätty RenderToText.jsp webapp näyte.
  • Lisätty Segment.getRowColumnVector () menetelmä.
  • koodaus havaitseminen ohittaa nyt Yleisimpiä merkistöjä määritelty sisällönkuvauskentistä on koodi yksikkökoko ristiriidassa alustavan koodauksen.
  • Uusittu seuraaviin metsuri API: slf4j-api-1.7.2, log4j-1.2.17

Mitä uutta versiossa 3.1:

  • Virhekorjauksia:
  • [2793556] Infinite silmukka Segment.getAllStartTags ()
  • Infinite silmukka Segment.getAllElements ()
  • Segment.getFirst * menetelmiä palautetaan segmentit ulkopuolella rajaava segmentti.
  • Segment.getAllElements menetelmät eivät palanneet kaikissa suljetuissa elementit joissakin olosuhteissa.
  • Kiinteät asiakirjat virheitä Segment.getAllElements menetelmiä.
  • Lisätty StreamedSource luokka.
  • muutoksia, jotka vaikuttavat KÄYTTÄYTYMINEN nykyisten ohjelmien:
  • Vaihtoi ParseText luokan rajapinta.
  • Segment.getNodeIterator () nyt palauttaa mainetta koskevat erilliset solmut.
  • Lisätty tag haku perustuvat menetelmät ominaisuuden arvo säännöllisiä lausekkeita.
  • Lisätty tag hakutavasta perustuu HTML-luokan attribuutti.
  • Lisätty staattinen Source.LegacyNodeIteratorCompatabilityMode omaisuuden tilapäisesti palauttaa Segment.getNodeIterator () toiminnallisuus kuin aiemmat versiot.
  • Poistettu char [] perustuva haku menetelmiä ParseText.
  • Lisätty CharacterReference.appendCharTo (täydennettävälle) menetelmä.
  • Lisätty OutputDocument (segmentti) rakentaja.
  • Lisätty StreamedSourceCopy näyte ohjelma.

Mitä uutta 3.0:

  • Virhekorjauksia:
  • Luonne viittaukset edustavat Unicode täydentävää merkkiä ei dekoodata oikein UTF-16 koodi yksikköä paria.
  • [2188446] Element.getDepth () ja Element.getParentElement () palautti virheellisiä tuloksia, jos kutsutaan jäsentää demand-tilassa.
  • Kommentit ovat nyt tunnustettu sisällä & lt; käsikirjoitus & gt; elementtejä.
  • API muutoksia, joita ei ole taaksepäin yhteensopiva:
  • Muuttunut paketin nimi net.htmlparser.jericho
  • Taito arvot on nyt String sijaan CharSequence.
  • Poistettu kaikki vanhentunut menetelmiä / luokat aiemmista versioista.
  • Kaikki löytää * menetelmiä vanhentunut hyväksi saada * menetelmiä voidakseen soveltaa johdonmukaisesti nimeämiskäytäntöä kaikissa tag hakutavoista.
  • Tag, Element ja HTMLElements luokat enää toteuttaa HTMLElementName käyttöliittymä. (Käytä staattinen tuonti sen sijaan)
  • Kaikki kokoelmat nyt stongly kirjoittaa käyttämällä geneerisiä.
  • Muuttunut FormControlOutputStyle luokan enum.
  • Muuttunut FormControlType luokan enum.
  • Lisätty CharStreamSource.appendTo (täydennettävälle) menetelmä.
  • Lisätty Source.iterator () menetelmä.
  • Lähde nyt toteuttaa Iterable.
  • Sisäisesti käyttää StringBuilder paremman suorituskyvyn.
  • Lisätty Source.getNextStartTag (StartTagType) menetelmä.
  • Lisätty Source.getNextEndTag (EndTagType) menetelmä.
  • Lisätty Source.getPreviousStartTag (StartTagType) menetelmä.
  • Lisätty Source.getPreviousEndTag (EndTagType) menetelmä.
  • Lisätty Segment.getAllStartTags (StartTagType) menetelmä.
  • Lisätty kaikki Segment.getFirst * menetelmiä.
  • Lisätty Renderer.renderHyperlinkURL (alkutagista) menetelmä.
  • Lisätty HTMLSanitiser näyte ohjelma.
  • Päivittää slf4j-api-1.5.6

Vaatimukset :

  • Java 2 Standard Edition Runtime Environment

Vastaavia ohjelmistoja

xslet / xsltester
xslet / xsltester

14 Apr 15

Sweave2knitr
Sweave2knitr

20 Feb 15

rst2html5
rst2html5

20 Feb 15

Moo
Moo

20 Feb 15

Muu ohjelmistojen kehittäjä Martin Jericho

Kommentit Jericho HTML Parser

Kommentteja ei löytynyt
Lisää kommentti
Ota kuvia!