Jericho HTML Parser

Software kuvakaappaus:
Jericho HTML Parser
Ohjelmiston tiedot:
Versio: 3.3
Lähetyksen päivämäärä: 20 Feb 15
Kehittäjä: Martin Jericho
Lupa: Vapaa
Suosio: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser on avoimen lähdekoodin, yksinkertainen, mutta tehokas kirjasto kirjoitettu kokonaan Javalla.
Sen avulla ohjelmoijat voivat muokata ja analysoida osaa HTML-dokumentti.
Jerich HTML Parser sisältää myös korkean tason HTML muodossa muokkaamistoimintoja.

Mitä uutta tässä julkaisussa:

  • Virhekorjauksia:
  • [3581664] CharacterReference.decode () ei purkaa yhteisöt sisältävät numeroa - & frac12; -kertainen & Frac14; -kertainen & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor ei kunnioita TEXTAREA
  • [3519131] Renderer lähtö virheellinen, kun rakennettu Element esine.
  • [3538829] Renderer tuotos font koriste lohkon rajojen virheellinen.
  • Segment.getAllStartTags (nimi) ja Segment.getFirstElement (nimi) eivät toimi, jos väite sisältää isoja merkkejä.
  • pää Delimiter yhteisen palvelimen tunnisteen sisällä karannut palvelimen tunniste on virheellisesti kirjattu loppuun Delimiter pakeni tag.
  • muutoksia, jotka vaikuttavat KÄYTTÄYTYMINEN nykyisten ohjelmien:
  • [3427073] Segment.getStyleURISegments () sisältää nyt tyylielementin sisältöä sekä tyyli määreet.
  • [3427927] Segment.getURIAttributes () nyt myös arkiston ominaisuudet esineen ja applet elementtejä.
  • Kommentit enää tunnustettu sisällä skriptielementtejä aikana koko juokseva jäsentää. Aiemmin ne kirjattiin yhteensopivuus suuria selaimilla, mutta moderni selain käyttäytyminen on muuttunut.
  • Muuttunut lokitaso kaikkien jäsennysvirheitä INFO ERROR, ja lokin taso Source.fullSequentialParse () neuvoa-antava viesti WARN INFO. Edellisen tasot antoi neuvoa-antavan viestin suurempi vakavuus kuin jäsennysvirheitä estäen puunkorjuu järjestelmät piilosta neuvonta- -viesti näytetään jäsennysvirheitä. Merkkikoodaus varoitukset jäävät ennallaan WARN tasolla.
  • Muuttunut käyttäytyminen Renderer.renderHyperlinkURL (alkutagista) menetelmällä siten, että suhteellinen URL-osoitteita ei suoritettu.
  • Muuttunut käyttäytyminen Rendereriä jotta hyperlinkin elementti sisältö ei suoritettu, jos se on sama kuin hyperlinkin URL, välittämättä mitään etuliitettä http: // tai / pääte.
  • EndTag.tidy () nyt poistaa välilyönnit ennen sulkemista kiinnike.
  • Lisätty Source (File) rakentaja.
  • Lisätty OutputDocument.getSegment () menetelmä.
  • Lisätty OutputDocument.remove (int alkaa, int loppu) menetelmällä.
  • Lisätty Renderer.setHRLineLength () menetelmä.
  • Lisätty RenderToText.jsp webapp näyte.
  • Lisätty Segment.getRowColumnVector () menetelmä.
  • koodaus havaitseminen ohittaa nyt Yleisimpiä merkistöjä määritelty sisällönkuvauskentistä on koodi yksikkökoko ristiriidassa alustavan koodauksen.
  • Uusittu seuraaviin metsuri API: slf4j-api-1.7.2, log4j-1.2.17

Mitä uutta versiossa 3.1:

  • Virhekorjauksia:
  • [2793556] Infinite silmukka Segment.getAllStartTags ()
  • Infinite silmukka Segment.getAllElements ()
  • Segment.getFirst * menetelmiä palautetaan segmentit ulkopuolella rajaava segmentti.
  • Segment.getAllElements menetelmät eivät palanneet kaikissa suljetuissa elementit joissakin olosuhteissa.
  • Kiinteät asiakirjat virheitä Segment.getAllElements menetelmiä.
  • Lisätty StreamedSource luokka.
  • muutoksia, jotka vaikuttavat KÄYTTÄYTYMINEN nykyisten ohjelmien:
  • Vaihtoi ParseText luokan rajapinta.
  • Segment.getNodeIterator () nyt palauttaa mainetta koskevat erilliset solmut.
  • Lisätty tag haku perustuvat menetelmät ominaisuuden arvo säännöllisiä lausekkeita.
  • Lisätty tag hakutavasta perustuu HTML-luokan attribuutti.
  • Lisätty staattinen Source.LegacyNodeIteratorCompatabilityMode omaisuuden tilapäisesti palauttaa Segment.getNodeIterator () toiminnallisuus kuin aiemmat versiot.
  • Poistettu char [] perustuva haku menetelmiä ParseText.
  • Lisätty CharacterReference.appendCharTo (täydennettävälle) menetelmä.
  • Lisätty OutputDocument (segmentti) rakentaja.
  • Lisätty StreamedSourceCopy näyte ohjelma.

Mitä uutta 3.0:

  • Virhekorjauksia:
  • Luonne viittaukset edustavat Unicode täydentävää merkkiä ei dekoodata oikein UTF-16 koodi yksikköä paria.
  • [2188446] Element.getDepth () ja Element.getParentElement () palautti virheellisiä tuloksia, jos kutsutaan jäsentää demand-tilassa.
  • Kommentit ovat nyt tunnustettu sisällä & lt; käsikirjoitus & gt; elementtejä.
  • API muutoksia, joita ei ole taaksepäin yhteensopiva:
  • Muuttunut paketin nimi net.htmlparser.jericho
  • Taito arvot on nyt String sijaan CharSequence.
  • Poistettu kaikki vanhentunut menetelmiä / luokat aiemmista versioista.
  • Kaikki löytää * menetelmiä vanhentunut hyväksi saada * menetelmiä voidakseen soveltaa johdonmukaisesti nimeämiskäytäntöä kaikissa tag hakutavoista.
  • Tag, Element ja HTMLElements luokat enää toteuttaa HTMLElementName käyttöliittymä. (Käytä staattinen tuonti sen sijaan)
  • Kaikki kokoelmat nyt stongly kirjoittaa käyttämällä geneerisiä.
  • Muuttunut FormControlOutputStyle luokan enum.
  • Muuttunut FormControlType luokan enum.
  • Lisätty CharStreamSource.appendTo (täydennettävälle) menetelmä.
  • Lisätty Source.iterator () menetelmä.
  • Lähde nyt toteuttaa Iterable.
  • Sisäisesti käyttää StringBuilder paremman suorituskyvyn.
  • Lisätty Source.getNextStartTag (StartTagType) menetelmä.
  • Lisätty Source.getNextEndTag (EndTagType) menetelmä.
  • Lisätty Source.getPreviousStartTag (StartTagType) menetelmä.
  • Lisätty Source.getPreviousEndTag (EndTagType) menetelmä.
  • Lisätty Segment.getAllStartTags (StartTagType) menetelmä.
  • Lisätty kaikki Segment.getFirst * menetelmiä.
  • Lisätty Renderer.renderHyperlinkURL (alkutagista) menetelmä.
  • Lisätty HTMLSanitiser näyte ohjelma.
  • Päivittää slf4j-api-1.5.6

Vaatimukset :

  • Java 2 Standard Edition Runtime Environment

Vastaavia ohjelmistoja

Docvert
Docvert

11 May 15

LaTeX2PS
LaTeX2PS

3 Jun 15

Sweave2knitr
Sweave2knitr

20 Feb 15

bib2xhtml
bib2xhtml

15 Apr 15

Muu ohjelmistojen kehittäjä Martin Jericho

Kommentit Jericho HTML Parser

Kommentteja ei löytynyt
Lisää kommentti
Ota kuvia!