Apache Tika

Software kuvakaappaus:
Apache Tika
Ohjelmiston tiedot:
Versio: 1.4
Lähetyksen päivämäärä: 20 Feb 15
Lupa: Vapaa
Suosio: 102

Rating: nan/5 (Total Votes: 0)

Apache Tikan on avoimen lähdekoodin työkalupakki suunniteltu havaitsemaan ja metatietoja, sekä rakenteeltaan tekstin sisältöä useista asiakirjoista, pelkällä nykyisten parseri kirjastot.
Apache Tikan tukee seuraavia tiedostomuotoja: Hypertext Markup Language (HTTP), XML ja johdetut muodot, Microsoft Office tiedostomuotoja, OpenDocument Format (ODF), Portable Document Format (PDF), elektroninen julkaiseminen Format (EPF), Rich Text Format (RTF ), puristus ja pakkausmuotoja teksti / ääni / kuva / videoformaatteja, mbox-muodossa, ja Java-luokan tiedostot ja arkistot.
Aiemmin Apache Tikan oli osahankkeen Apache Lucene ohjelmisto kirjasto. Nyt se jaetaan erillisenä paketin Apache Software Foundation.

Mitä uutta tässä julkaisussa:

  • Poistettu testi HTML-tiedoston huonosti valittu GPL tekstiä se (Tika-1129).
  • Parannuksia Tikan-palvelimelle, jotta se tuottaa text / html ja teksti / xml sisältöä (TIKA-1126, Tika-1127).
  • tehtiin parannuksia Kompressori Parser käsitellä g'zipped vaativat tiedostot decompressConcatenated vaihtoehto true (Tika-1096).
  • Osoitteellisen typografinen virhe, joka estää maasta havaitseminen awk tiedostoja (Tika-1081).
  • Lisätty uusi päätepiste on Tikan n JAX-RS REST palvelin, joka tunnistaa vain median tyypin perusteella pieni osa toimittaman asiakirjan (Tika-1047).
  • RTF: Tilattu ja järjestämättömiä listoja nyt uutetaan (Tika-1062).
  • MP3: Audio kesto on nyt uutetaan (Tika-991)
  • Java .class tiedostoja: päivittänyt ASM 3,1 ASM 4.1 jäsentämiseen Java bytecodes (Tika-1053).
  • MIME-tyypit: Määritelmät laajennetaan mahdollisesti sisältää Link (URL) ja virtsatietulehdus, sekä tiedot useita yhteisiä formaatteja (Tika-1012 / Tika-1083)
  • Poikkeukset jäsennettäessä OLE10 upotettu asiakirjoja, kun jäsentämiseen yhteenveto tietoja Office-asiakirjoja, ja tallennettaessa upotettu documennts vuonna TikaCLI nyt kirjautunut sijaan keskeytyksiä louhinta (Tika-1074)
  • MS Word: linja taulukkomuodossa merkki on nyt korvattu rivinvaihto (TIKA-1128)
  • XML: ElementMetadataHandlers voi nyt mahdollisesti hyväksyä päällekkäisiä ja tyhjät arvot (Tika-1133).

Vaatimukset :

  • Java 2 Standard Edition Runtime Environment

Muu ohjelmistojen kehittäjä The Apache Software Foundation

Kommentit Apache Tika

Kommentteja ei löytynyt
Lisää kommentti
Ota kuvia!