Apache Nutch rakennettiin päälle Apache Lucene , tehokas Java hakukone.
Nutch kehittäjät muutettu Lucene Codebase, mittaustulosten muuntamista-agnostikko Lucene codebase projektiin omistettu tietojen hakemisen Webissä erityisesti.
Tätä teknologiaa voidaan käyttää etsiä omia web-sivuja kuin sisäänrakennettu Search Server, tai indeksoida Web etsii tietoa jäsentää ja haalimaan omaan tietokantaan.
Nutch voi ajaa samalla koneella, mutta toimii paremmin Hadoop klustereita.
Eri liitännäiset ovat laajentamassa käyttöä taajuuksien.
Mitä uutta strong> tässä julkaisussa:
- Varmista kahtena tunnisteet eivät ole in -mikromuodolla-reltag tag asetettu.
- parempi turvautua vastinetta päivämäärän kenttään.
- Eroon pelätty.
- Päivitä Hadoop 1.2.0.
- Päivitä Tikan 1.3.
Mitä uutta strong> versiossa 2.0:
- Nimeksi HTMLParseFilter osaksi ParseFilter.
- Poista jäljellä robotteja / IP esto koodin lib-http.
- Port hakkuut slf4j.
- Ulkoinen parseri tukee koodausta määrite.
- Ivy kokoonpanon käyttö ei kuuluu Gora.
- Suutin pitäisi lisätä metatietoja ennen kutsuvan injectedScore.
- Port Nutch vertailuarvo Nutchbase.
- Lisää jäsentää-html takaisin.
- MoreIndexingFilter puuttuvat päiväyksen muoto.
- Aikavalvonta Parser.
- Yritä aikaväli ryömiä päivämäärä on asetettu 0.
- Luo lähdöistä varten SOLR indeksointitoiminnon ja dedup.
- Parempi NutchConfiguration.
- SolrDeleteDuplicates tarvitsee kloonata SolrRecord esineitä.
- Native Hadoop libs ole saatavana Maven.
- Erota rakentaa ja ajoympäristöihin.
Mitä uutta strong> versiossa 1.5:
- Tämä julkaisu sisältää useita parannuksia kuten päivityksiä useita merkittäviä komponentteja kuten Tika 1.1 ja Hadoop 1.0.0, parannuksia LinkRank ja WebGraph elementtejä sekä useita uusia liitännäisiä kattaa mustalle listalle, suodatus ja jäsentämiseen muutamia.
Mitä uutta strong> versiossa 1.4:
- Lisätty Solr 4x (runko) esimerkiksi skeema.
- Lisätty "/ runtime" SVN sivuuttaa.
- Application / xhtml + xml pitäisi olla päällä plugin.xml on jäsentää-html; sallia useampia tiedostotyyppejä varten plugin.xml.
- Kiinteät jäsentää-Tikan ja jäsentää-html käyttää suhteellista URL resoluutio RFC-3986.
- Päivittää Tikan 0.10. HUOM: Tikan uusi RTF parseri voi sivuuttaa enemmän tekstiä epämuodostuneet asiakirjoja kuin aiemmin - katso Tikan-748 lisätietoja.
- Lisätty Sonar tavoitteet Ant build.xml.
- Uusittu SolrJ versioon 3.4.0.
- Ant pmd tavoite on rikki.
- Uusitut Solr skeema versioon 1.4.
Mitä uutta strong> versiossa 1.3:
- Tämä julkaisu sisältää useita parannuksia (parannettu RSS jäsentämiseen tukea, tiukempi integrointi Apache Tikan, ulkoinen jäsentämiseen tukea, parempaa kielen tunnistaminen ja kertaluokkaa pienempi lähde release-paketti - vain noin 2MB!).
Mitä uutta strong> versiossa 1.2:
- Tee indeksiin enemmän plug-in konfiguroitavissa.
- Configurable tiedosto protokolla emohakemisto indeksoinnin.
- Aikavalvonta Parser.
- Sivusto on vielä Lucene merkkituotteiden.
- Yritä aikaväli ryömiä päivämäärä on asetettu 0.
Mitä uutta strong> versiossa 1.0:
- Anna jäsentimet palata useita Parse esineitä.
- Poistettu turha commons-puunkorjuu jar Ontologiasta plugin.
- Bug SegmentReader aiheuttaa päättymättömään silmukkaan.
- Scoring suodatin tulisi jakaa pisteet kaikille outlinks kerralla.
- Vähennä varoitukset Nutch ydin.
Kommentteja ei löytynyt