Apache Tika

Software kuvakaappaus:
Apache Tika
Ohjelmiston tiedot:
Versio: 1.9 Päivitetty
Lähetyksen päivämäärä: 20 Jul 15
Lupa: Vapaa
Suosio: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tikan on kehitetty matalan tason työkalupakki etsimiseen sisällön sisällä muita tiedostoja.
Tikan ei tee paljon omasta on yksinkertainen kirjasto, mutta se voidaan integroida tehokkaampia työkaluja, kuten hakukoneet, digitaalinen hallintajärjestelmien tai CMSS tarjota täysin toimiva in-tiedostoon hakujärjestelmä.
Kirjasto voi käyttää vain tiedoston otsikko nopeaa yleistä tiedoston tietoja, tai se voi mennä todella syvälle ja etsiä jopa tiedoston kehon eritasoisten tietojen, tekstiä tai binäärimuodossa.
Monenlaisia ​​tiedostotyyppejä tuetaan ja Tikan voidaan käyttää myös muiden ohjelmointikieliä ansiosta sarjan kolmannen osapuolen siteet ja kääreet.

Mikä on uusi tässä julkaisussa :

  • Tämä julkaisu sisältää korjauksia ja uusia ominaisuuksia, kuten uusi Tesseract OCR Parser; uusi Gdańsk Parser; enemmän tuettuja formaatteja, ja yleinen parannuksia Tikan vakautta.

Mikä on uusi versio 1.8:

  • Tämä julkaisu sisältää korjauksia ja uusia ominaisuuksia, kuten uusi Tesseract OCR Parser; uusi Gdańsk Parser; enemmän tuettuja formaatteja, ja yleinen parannuksia Tikan vakautta.

Mikä on uusi versiossa 1.7:

  • Tämä julkaisu sisältää korjauksia ja uusia ominaisuuksia, kuten uusi Tesseract OCR Parser; uusi Gdańsk Parser; enemmän tuettuja formaatteja, ja yleinen parannuksia Tikan vakautta.

Mikä on uusi versiossa 1.6:

  • Tämä julkaisu sisältää korjauksia ja uusia ominaisuuksia, kuten uusi Käännös API, enemmän tuettuja formaatteja, ja yleinen parannuksia Tikan vakautta.

Mikä on uusi versiossa 1.5:

  • Kiinteä vika käsittelyssä sulautettujen tiedostojen käsittely PDF-tiedostoja.
  • Lisätty SourceCodeParser tukea java, Groovy, C ++ tiedostoja.
  • Päivitetty Tikan palvelin tukee multipart / form-data hyötykuormia.
  • Päivitetty Tikan Server CXF 2.7.8.
  • Päivitetty Tikan Server hyväksy yli jokerina osoitteita.
  • Lisätty mahdollisuus käyttää vaihtoehtoisia NonSequentialPDFParser.
  • Sisältö PDF AcroForms on nyt purettu.
  • Kiinteät kelpaa tähdellä Master dian PPT.
  • Lisätty testitapaukset vahvistaa automaattiohjauksen tasalla PPT ja PPTX.

Mikä on uusi versio 1.4:

  • Poistettu testi HTML-tiedoston huonosti valittu GPL teksti se.
  • Parannuksia Tikan-palvelimeen, jotta se tuottaa text / html ja teksti / xml sisältöä.
  • tehtiin parannuksia Kompressori Parser käsitellä g'zipped vaativat tiedostot decompressConcatenated vaihtoehto true.
  • Osoitteellinen typografinen virhe, joka esti alkaen havaitsemista awk tiedostoja.

Mikä on uusi versiossa 1.2:

  • Apache Tikan 1.2 sisältää useita parannuksia ja korjauksia.

Mikä on uusi versiossa 1.0:

  • Apache Tikan 1.0 sisältää useita parannuksia ja korjauksia.

Mikä on uusi versiossa 0.9:

  • Tämä julkaisu sisältää useita tärkeitä korjauksia ja uusia ominaisuuksia.

Mikä on uusi versiossa 0.8:

  • Kieli tunnistaminen on nyt dynaamisesti konfiguroitavissa, hallitaan config tiedosto ladataan classpath.
  • Tikan tukee nyt jäsentämiseen syötteet kietomalla taustalla Rooman kirjasto.
  • pikaopas varten Tika jäsentämiseen vaikuttivat.
  • lähestymistapa LVI kautta XHTML määritteitä lisättiin.
  • Mediatyyppi hierarkia tiedot on nyt otettu huomioon valittaessa paras jäsennin tietyn tulon asiakirja.
  • Tuki jäsentämiseen yhteisten tieteellisten tietojen formaatit kuten netCDF ja HDF4 / 5 lisättiin.
  • yksikkö testit Windows on vahvistettu, jolloin TestParsers loppuun.

Mikä on uusi versiossa 0.7:

  • MP3-tiedoston jäsentämiseen parannettiin, kuten Channel ja Samplerate louhinta ja ID3v2 tukea. Edelleen, audio jäsennys miimikko havaitseminen parannettiin myös varten MIDI-muodossa.
  • Tikan enää vetoa X11 sen RTF jäsentämiseen toimintoja.
  • ketju turvallinen vian AutoDetectParser löydettiin ja osoitettu.
  • Päivitä PDFBox 1.0.0. Uusi PDFBox versio parantaa PDF jäsentämiseen suorituskykyä ja korjaa useita tekstin louhinnan kysymyksiä.

vaatimukset :

  • Java 6 tai uudempi

Vastaavia ohjelmistoja

Valentine
Valentine

1 Oct 15

clinch
clinch

10 Dec 15

Paperclip.js
Paperclip.js

10 Feb 16

ODX-Lib
ODX-Lib

5 Jun 15

Muu ohjelmistojen kehittäjä Apache Software Foundation

Apache Archiva
Apache Archiva

12 Apr 15

Apache Deltacloud
Apache Deltacloud

13 Apr 15

Apache Buildr
Apache Buildr

20 Jul 15

Kommentit Apache Tika

Kommentteja ei löytynyt
Lisää kommentti
Ota kuvia!
Haku luokan mukaan