Apache Nutch

Software kuvakaappaus:
Apache Nutch
Ohjelmiston tiedot:
Versio: 2.3
Lähetyksen päivämäärä: 1 Mar 15
Lupa: Vapaa
Suosio: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch rakennettiin päälle Apache Lucene , tehokas Java hakukone.
Nutch kehittäjät muutettu Lucene Codebase, mittaustulosten muuntamista-agnostikko Lucene codebase projektiin omistettu tietojen hakemisen Webissä erityisesti.
Tätä teknologiaa voidaan käyttää etsiä omia web-sivuja kuin sisäänrakennettu Search Server, tai indeksoida Web etsii tietoa jäsentää ja haalimaan omaan tietokantaan.
Nutch voi ajaa samalla koneella, mutta toimii paremmin Hadoop klustereita.
Eri liitännäiset ovat laajentamassa käyttöä taajuuksien.

Mitä uutta tässä julkaisussa:

  • Varmista kahtena tunnisteet eivät ole in -mikromuodolla-reltag tag asetettu.
  • parempi turvautua vastinetta päivämäärän kenttään.
  • Eroon pelätty.
  • Päivitä Hadoop 1.2.0.
  • Päivitä Tikan 1.3.

Mitä uutta versiossa 2.0:

  • Nimeksi HTMLParseFilter osaksi ParseFilter.
  • Poista jäljellä robotteja / IP esto koodin lib-http.
  • Port hakkuut slf4j.
  • Ulkoinen parseri tukee koodausta määrite.
  • Ivy kokoonpanon käyttö ei kuuluu Gora.
  • Suutin pitäisi lisätä metatietoja ennen kutsuvan injectedScore.
  • Port Nutch vertailuarvo Nutchbase.
  • Lisää jäsentää-html takaisin.
  • MoreIndexingFilter puuttuvat päiväyksen muoto.
  • Aikavalvonta Parser.
  • Yritä aikaväli ryömiä päivämäärä on asetettu 0.
  • Luo lähdöistä varten SOLR indeksointitoiminnon ja dedup.
  • Parempi NutchConfiguration.
  • SolrDeleteDuplicates tarvitsee kloonata SolrRecord esineitä.
  • Native Hadoop libs ole saatavana Maven.
  • Erota rakentaa ja ajoympäristöihin.

Mitä uutta versiossa 1.5:

  • Tämä julkaisu sisältää useita parannuksia kuten päivityksiä useita merkittäviä komponentteja kuten Tika 1.1 ja Hadoop 1.0.0, parannuksia LinkRank ja WebGraph elementtejä sekä useita uusia liitännäisiä kattaa mustalle listalle, suodatus ja jäsentämiseen muutamia.

Mitä uutta versiossa 1.4:

  • Lisätty Solr 4x (runko) esimerkiksi skeema.
  • Lisätty "/ runtime" SVN sivuuttaa.
  • Application / xhtml + xml pitäisi olla päällä plugin.xml on jäsentää-html; sallia useampia tiedostotyyppejä varten plugin.xml.
  • Kiinteät jäsentää-Tikan ja jäsentää-html käyttää suhteellista URL resoluutio RFC-3986.
  • Päivittää Tikan 0.10. HUOM: Tikan uusi RTF parseri voi sivuuttaa enemmän tekstiä epämuodostuneet asiakirjoja kuin aiemmin - katso Tikan-748 lisätietoja.
  • Lisätty Sonar tavoitteet Ant build.xml.
  • Uusittu SolrJ versioon 3.4.0.
  • Ant pmd tavoite on rikki.
  • Uusitut Solr skeema versioon 1.4.

Mitä uutta versiossa 1.3:

  • Tämä julkaisu sisältää useita parannuksia (parannettu RSS jäsentämiseen tukea, tiukempi integrointi Apache Tikan, ulkoinen jäsentämiseen tukea, parempaa kielen tunnistaminen ja kertaluokkaa pienempi lähde release-paketti - vain noin 2MB!).

Mitä uutta versiossa 1.2:

  • Tee indeksiin enemmän plug-in konfiguroitavissa.
  • Configurable tiedosto protokolla emohakemisto indeksoinnin.
  • Aikavalvonta Parser.
  • Sivusto on vielä Lucene merkkituotteiden.
  • Yritä aikaväli ryömiä päivämäärä on asetettu 0.

Mitä uutta versiossa 1.0:

  • Anna jäsentimet palata useita Parse esineitä.
  • Poistettu turha commons-puunkorjuu jar Ontologiasta plugin.
  • Bug SegmentReader aiheuttaa päättymättömään silmukkaan.
  • Scoring suodatin tulisi jakaa pisteet kaikille outlinks kerralla.
  • Vähennä varoitukset Nutch ydin.

Vastaavia ohjelmistoja

Spidr
Spidr

12 May 15

Lupyne
Lupyne

13 Apr 15

solrpy
solrpy

12 May 15

Searchkick
Searchkick

10 Feb 16

Muu ohjelmistojen kehittäjä Apache Software Foundation

Apache Chukwa
Apache Chukwa

9 Apr 16

Apache Oltu
Apache Oltu

10 Dec 15

Apache MRUnit
Apache MRUnit

12 May 15

Kommentit Apache Nutch

Kommentteja ei löytynyt
Lisää kommentti
Ota kuvia!
Haku luokan mukaan