Ohjelmiston tiedot:
Jerich HTML Parser on avoimen lähdekoodin, yksinkertainen, mutta tehokas kirjasto kirjoitettu kokonaan Javalla.
Sen avulla ohjelmoijat voivat muokata ja analysoida osaa HTML-dokumentti.
Jerich HTML Parser sisältää myös korkean tason HTML muodossa muokkaamistoimintoja.
Mitä uutta strong> tässä julkaisussa:
- Virhekorjauksia:
- [3581664] CharacterReference.decode () ei purkaa yhteisöt sisältävät numeroa - & frac12; -kertainen & Frac14; -kertainen & Frac34; & Sup1; & Sup2; & Sup3; & There4;
- [3311286] SourceCompactor ei kunnioita TEXTAREA
- [3519131] Renderer lähtö virheellinen, kun rakennettu Element esine.
- [3538829] Renderer tuotos font koriste lohkon rajojen virheellinen.
- Segment.getAllStartTags (nimi) ja Segment.getFirstElement (nimi) eivät toimi, jos väite sisältää isoja merkkejä.
- pää Delimiter yhteisen palvelimen tunnisteen sisällä karannut palvelimen tunniste on virheellisesti kirjattu loppuun Delimiter pakeni tag.
- muutoksia, jotka vaikuttavat KÄYTTÄYTYMINEN nykyisten ohjelmien:
- [3427073] Segment.getStyleURISegments () sisältää nyt tyylielementin sisältöä sekä tyyli määreet.
- [3427927] Segment.getURIAttributes () nyt myös arkiston ominaisuudet esineen ja applet elementtejä.
- Kommentit enää tunnustettu sisällä skriptielementtejä aikana koko juokseva jäsentää. Aiemmin ne kirjattiin yhteensopivuus suuria selaimilla, mutta moderni selain käyttäytyminen on muuttunut.
- Muuttunut lokitaso kaikkien jäsennysvirheitä INFO ERROR, ja lokin taso Source.fullSequentialParse () neuvoa-antava viesti WARN INFO. Edellisen tasot antoi neuvoa-antavan viestin suurempi vakavuus kuin jäsennysvirheitä estäen puunkorjuu järjestelmät piilosta neuvonta- -viesti näytetään jäsennysvirheitä. Merkkikoodaus varoitukset jäävät ennallaan WARN tasolla.
- Muuttunut käyttäytyminen Renderer.renderHyperlinkURL (alkutagista) menetelmällä siten, että suhteellinen URL-osoitteita ei suoritettu.
- Muuttunut käyttäytyminen Rendereriä jotta hyperlinkin elementti sisältö ei suoritettu, jos se on sama kuin hyperlinkin URL, välittämättä mitään etuliitettä http: // tai / pääte.
- EndTag.tidy () nyt poistaa välilyönnit ennen sulkemista kiinnike.
- Lisätty Source (File) rakentaja.
- Lisätty OutputDocument.getSegment () menetelmä.
- Lisätty OutputDocument.remove (int alkaa, int loppu) menetelmällä.
- Lisätty Renderer.setHRLineLength () menetelmä.
- Lisätty RenderToText.jsp webapp näyte.
- Lisätty Segment.getRowColumnVector () menetelmä.
- koodaus havaitseminen ohittaa nyt Yleisimpiä merkistöjä määritelty sisällönkuvauskentistä on koodi yksikkökoko ristiriidassa alustavan koodauksen.
- Uusittu seuraaviin metsuri API: slf4j-api-1.7.2, log4j-1.2.17
Mitä uutta strong> versiossa 3.1:
- Virhekorjauksia:
- [2793556] Infinite silmukka Segment.getAllStartTags ()
- Infinite silmukka Segment.getAllElements ()
- Segment.getFirst * menetelmiä palautetaan segmentit ulkopuolella rajaava segmentti.
- Segment.getAllElements menetelmät eivät palanneet kaikissa suljetuissa elementit joissakin olosuhteissa.
- Kiinteät asiakirjat virheitä Segment.getAllElements menetelmiä.
- Lisätty StreamedSource luokka.
- muutoksia, jotka vaikuttavat KÄYTTÄYTYMINEN nykyisten ohjelmien:
- Vaihtoi ParseText luokan rajapinta.
- Segment.getNodeIterator () nyt palauttaa mainetta koskevat erilliset solmut.
- Lisätty tag haku perustuvat menetelmät ominaisuuden arvo säännöllisiä lausekkeita.
- Lisätty tag hakutavasta perustuu HTML-luokan attribuutti.
- Lisätty staattinen Source.LegacyNodeIteratorCompatabilityMode omaisuuden tilapäisesti palauttaa Segment.getNodeIterator () toiminnallisuus kuin aiemmat versiot.
- Poistettu char [] perustuva haku menetelmiä ParseText.
- Lisätty CharacterReference.appendCharTo (täydennettävälle) menetelmä.
- Lisätty OutputDocument (segmentti) rakentaja.
- Lisätty StreamedSourceCopy näyte ohjelma.
Mitä uutta strong> 3.0:
- Virhekorjauksia:
- Luonne viittaukset edustavat Unicode täydentävää merkkiä ei dekoodata oikein UTF-16 koodi yksikköä paria.
- [2188446] Element.getDepth () ja Element.getParentElement () palautti virheellisiä tuloksia, jos kutsutaan jäsentää demand-tilassa.
- Kommentit ovat nyt tunnustettu sisällä & lt; käsikirjoitus & gt; elementtejä.
- API muutoksia, joita ei ole taaksepäin yhteensopiva:
- Muuttunut paketin nimi net.htmlparser.jericho
- Taito arvot on nyt String sijaan CharSequence.
- Poistettu kaikki vanhentunut menetelmiä / luokat aiemmista versioista.
- Kaikki löytää * menetelmiä vanhentunut hyväksi saada * menetelmiä voidakseen soveltaa johdonmukaisesti nimeämiskäytäntöä kaikissa tag hakutavoista.
- Tag, Element ja HTMLElements luokat enää toteuttaa HTMLElementName käyttöliittymä. (Käytä staattinen tuonti sen sijaan)
- Kaikki kokoelmat nyt stongly kirjoittaa käyttämällä geneerisiä.
- Muuttunut FormControlOutputStyle luokan enum.
- Muuttunut FormControlType luokan enum.
- Lisätty CharStreamSource.appendTo (täydennettävälle) menetelmä.
- Lisätty Source.iterator () menetelmä.
- Lähde nyt toteuttaa Iterable.
- Sisäisesti käyttää StringBuilder paremman suorituskyvyn.
- Lisätty Source.getNextStartTag (StartTagType) menetelmä.
- Lisätty Source.getNextEndTag (EndTagType) menetelmä.
- Lisätty Source.getPreviousStartTag (StartTagType) menetelmä.
- Lisätty Source.getPreviousEndTag (EndTagType) menetelmä.
- Lisätty Segment.getAllStartTags (StartTagType) menetelmä.
- Lisätty kaikki Segment.getFirst * menetelmiä.
- Lisätty Renderer.renderHyperlinkURL (alkutagista) menetelmä.
- Lisätty HTMLSanitiser näyte ohjelma.
- Päivittää slf4j-api-1.5.6
Vaatimukset :
- Java 2 Standard Edition Runtime Environment
Kommentteja ei löytynyt