Jericho HTML Parser

Software kuvakaappaus:
Jericho HTML Parser
Ohjelmiston tiedot:
Versio: 3.4
Lähetyksen päivämäärä: 10 Dec 15
Kehittäjä: Martin Jericho
Lupa: Vapaa
Suosio: 12

Rating: nan/5 (Total Votes: 0)

Se voi muokata server-side ja client-side tunnisteet, toistettaessa sanatarkasti tahansa tunnistettuihin tai kiellettyihin HTML.

Se tarjoaa myös korkean tason HTML-lomakkeen manipuloinnin toiminnot.

Ominaisuudet :

  • Läsnäolo väärin muotoillun HTML ei häiritse jäsennys muun asiakirjan, joka tekee kirjastosta sopii käytettäväksi & quot; reaalimaailman & quot; HTML että tukahduttaa muut jäsentimiä.
  • ASP, JSP, PSP, PHP ja Mason palvelimen tunnisteita tunnustivat jäsennin. Tämä tarkoittaa, että normaali HTML on edelleen jäsennetään kunnolla vaikka on palvelimen tunnisteita niiden sisällä, joka on yhteinen esimerkiksi kun dynaamisesti asetteluelementti attribuutteja.
  • uusi virta perustuu jäsentämiseen vaihtoehto käyttäen StreamedSource luokka, joka mahdollistaa muistin tehokkaan suurien tiedostoja tapahtuma iteraattori. Tämä on lähinnä Stax vaihtoehto kyky käsitellä HTML ja ei-validointi XML, sekä useita muita ominaisuuksia ei saatavilla muissa streaming jäsentimiä.
  • sen vakiolomake se ei ole tapahtuma eikä puu perustuu parseri, vaan käyttää yhdistelmää yksinkertainen tekstihaku, tehokkaat tag tunnustaminen ja tag asema välimuisti. Teksti kokonaisuudessaan lähdeasiakirjan ensin ladataan muistiin, ja sitten vain markkinasegmenttien etsitään asiaan merkkiä kunkin hakutoimenpide.
  • Verrattuna puu perustuva jäsennin kuten DOM, muistin ja resurssien vaatimukset voivat olla paljon parempi, jos vain pieni osa asiakirjan täytyy jäsennetään tai muuttaa. Virheelliset tai väärin muotoillun HTML voidaan helposti sivuuttaa, toisin kuin puu perustuu jäsentimiä joka on tunnistettava jokainen solmu dokumentin ylhäältä alas.
  • Verrattuna tapahtumapohjaista jäsennin kuten SAX, käyttöliittymä on paljon korkeampi ja enemmän intuitiivinen, ja puu edustus asiakirjan osa hierarkia helposti luodaan tarvittaessa.
  • alkaa ja päättyy tehtävissä lähdeasiakirjan kaikkien jäsentää segmentit ovat saatavilla, jolloin muutos vain tietyillä segmenteillä asiakirjan ilman rekonstruoida koko asiakirja puusta.
  • rivi ja sarake määrä kunkin aseman lähdeasiakirjan ovat helposti saatavilla.
  • Tarjoaa yksinkertaisen mutta monipuolinen käyttöliittymä analysointiin ja käsittelyyn HTML-lomakkeen ohjaimet, mukaan lukien louhinta ja väestön alkuarvoistaan ​​ja muuntaminen vain luku tai tietojen näyttötilat. Analyysi lomake-mahdollistaa myös saadut lomake varastoitava ja esitettävä tarkoituksenmukaisella tavalla.
  • Sisäänrakennettu toiminnallisuus poimia kaikki teksti HTML markup, sopii syötettäväksi tekstin hakukoneen, kuten Apache Lucene.
  • Sisäänrakennettu toimintoja tehdä HTML markup kanssa yksinkertaiset muotoilut.
  • Sisäänrakennettu toimintoja muotoilla HTML-koodia, joka sisentää elementit mukaan niiden syvyys asiakirjassa elementin hierarkiassa. (Klikkaa tästä online-esittelyn)
  • Sisäänrakennettu toimintoja kompakti HTML-lähdekoodiin poistamalla kaikki tarpeetonta tyhjää tilaa.
  • Custom tunnistetyypit voidaan helposti määritellä ja rekisteröity tunnustaa jäsennin.

Mikä on uusi tässä julkaisussa:

  • Lisätty Source (File) rakentaja.
  • Lisätty OutputDocument.getSegment () menetelmä.
  • Lisätty OutputDocument.remove (int alkaa, int loppu) menetelmällä.
  • Lisätty Renderer.setHRLineLength () menetelmä.
  • Lisätty RenderToText.jsp webapp näyte.
  • Lisätty Segment.getRowColumnVector () menetelmä.
  • Encoding havaitseminen nyt jättää yleiset koodauksia määritelty sisällönkuvauskentistä on koodi yksikkökoko ristiriidassa alustavan koodauksen.

Mikä on uusi versiossa 3.1:

  • Virhekorjauksia:
  • Infinite silmukka Segment.getAllStartTags ()
  • Infinite silmukka Segment.getAllElements ()
  • Segment.getFirst * menetelmiä palautetaan segmentit ulkopuolella muokkausalueen segmentin.
  • Segment.getAllElements menetelmiä ei palannut kaikki suljettu elementit joissakin olosuhteissa.
  • Kiinteät asiakirjat virheitä Segment.getAllElements menetelmiä.
  • Lisätty StreamedSource luokka.
  • muutoksia, jotka vaikuttavat käyttäytymiseen nykyisten ohjelmien:
  • Muuttunut ParseText luokan käyttöliittymä.
  • Segment.getNodeIterator () nyt palauttaa luonne viittaukset erillisinä solmut.
  • Lisätty tag haku perustuvia menetelmiä attribuuttiarvo säännöllisiä lausekkeita.
  • Lisätty tag haku perustuvia menetelmiä HTML luokan attribuutti.
  • Lisätty staattinen Source.LegacyNodeIteratorCompatabilityMode omaisuutta tilapäisesti palauttaa Segment.getNodeIterator () toimintoja kuin aiemmissa versioissa.
  • Poistettu char [] perustuva haku menetelmien ParseText.
  • Lisätty CharacterReference.appendCharTo (täydennettävälle) menetelmä.
  • Lisätty OutputDocument (segmentti) rakentaja.
  • Lisätty StreamedSourceCopy näyte ohjelma.

Vastaavia ohjelmistoja

HTML5 Ruler
HTML5 Ruler

5 Jun 15

url2html
url2html

13 Apr 15

ExplorerCanvas
ExplorerCanvas

21 Jul 15

jQuery.loadHtml
jQuery.loadHtml

5 Jun 15

Muu ohjelmistojen kehittäjä Martin Jericho

Kommentit Jericho HTML Parser

Kommentteja ei löytynyt
Lisää kommentti
Ota kuvia!
Haku luokan mukaan