Apache Nutch projekti on avoimen lähdekoodin, skaalautuva, erittäin venyvä ja ilmainen web-pohjainen web crawler ohjelmisto, joka perustuu Apache Lucene (Java-versio) kirjasto.
Se lisää Web yksityiskohtia, kuten tela, linkki-graafisen tietokannan, jäsentimet HTML ja muita tiedostomuotoja, jne. Se on kehitetty ja jaettu Apache Foundation, se kaksi erillistä oksat.
Koska modulaarinen ja kytkettävien, Apache Nutch on puolensa, tarjoamalla laajennettavissa käyttöliittymät kuten Parse, indeksi ja ScoringFilter mukautetun toteutuksia, kuten Apache Tikan jäsentämiseen.
Lisäksi Apache Nutch on suunniteltu toimimaan samalla koneella, mutta se on tehokkaampi, kun käynnissä Hadoop klusterin. Kytkettävien indeksointi olemassa Elastinen haku, Apache Solr jne.
Mikä on uusi tässä julkaisussa:
- Nutch-1779 Käytä palauttamalla koodi (lewismc)
- Nutch-1907 virheellinen lähtö outlinks isännät sisällä HostDbUpdateReducer (lewismc)
- Nutch-1856 Asiakirjan webpage.avsc ja host.avsc (lewismc)
- Nutch-1834 GeneratorMapper käyttäytyminen riippuu log tasolla (Gerhard Gossen kautta snagel)
- Nutch-1899 päivitys restlet lib estämiseksi rakentaa vajaatoiminta (Talat)
- Nutch-1797 poistaa käyttämättömät paketti oanhtml (Saurabh Chhajed kautta snagel)
- Nutch-1888 Määritä HTMLMapper käyttää TikaParser (Halil Simsek kautta jnioche)
- Nutch-1897 Helpompi vikojen Plugin XML virheiden (Markus)
- Nutch-1823 Päivitä elasticsearch 1.4.1 (Phu Kieu, Markus, lewismc)
- Nutch-1829 Generator: pysty erottamaan todellinen virheitä (Mathieu Bouchard, jnioche, snagel)
- Nutch-1778 Generaattori ei kirjautumisen URL-osoitteiden määrän erän oikein (jnioche kautta snagel)
- Nutch-1877-liite URL-suodatin sivuuttaa kyselymerkkijonossa oletuksena (Markus kautta snagel)
- Nutch-1825 protokolla-http voi ripustaa tiettyjen verkkosivujen (Phu Kieu kautta snagel)
- Nutch-1483 ei voi indeksoida tiedostojärjestelmä protokolla-tiedosto plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
- Nutch-1885 pöytäkirja-tiedoston pitäisi kohdella symboliset linkit ohjaukset (Mengying Wang, snagel)
- Nutch-1880 URLUtil saisi lisätä viiltää tiedostojen URL (snagel)
- Nutch-1879 Regex URL normalisoija pitäisi poistaa useita kauttaviivaa jälkeen file: protokolla (snagel)
- Nutch-1820 eliminoida alalla & quot; touring & quot; jotka toistuvat & quot; id & quot; (Lewismc, snagel)
- Nutch-1843 Päivitä Gora 0,5 (Talat, lewismc, Kiril Menshikov, drazzib)
- Nutch-1883 bin / ryömiä: käyttötarkoitusta ajaa bin / Nutch ja tarkista irtautumisarvoon (snagel)
- Nutch-1882 muurahainen Eclipse tavoite lisätä lähtö polku src / testi (snagel)
- Nutch-1827 Port Nutch-1467 ja Nutch-1561 2.x (snagel)
- Nutch-1876 Päivitä Crawler Commons 0.5 (jnioche)
- Nutch-1866 muurahainen Eclipse tavoite pitäisi poistaa runtime (nimafl kautta lewismc)
- Nutch-1859 Make Nutch webapp portti konfiguroitavissa (Nima Falaki kautta lewismc)
- Nutch-1848 Bug DashboardPage.html tapauksissa laskuri (Nima Falaki kautta lewismc)
- Nutch-841 Luo Wicket-pohjainen web-sovellusten Nutch (Fjodor Vershinin kautta lewismc)
- Nutch-1832 Make Nutch työtä ilman indeksointitoiminnolle (mattmann kautta lewismc)
- Nutch-1840 kuvaavat toiminto SolrIndexWriter ei ole oikea (Kaveh minooie kautta jnioche)
- Nutch-1837 Päivitä Tikan 1.6 (lewismc)
- Nutch-1829 Generator: pysty erottamaan todellinen virheitä (Mathieu Bouchard kautta jnioche)
- Nutch-1828 bin / ryömiä: virheellinen käsittely Nutch virheitä (Mathieu Bouchard kautta jnioche)
- Nutch-1693 TextMD5Signature laskettava tekstisisältöä (Tien Nguyen Manh, Markus kautta snagel)
- Nutch-1409 eliminoida vanhentuneita ominaisuuksia dB. {Oletus, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle kautta snagel)
- Nutch-1819 batchId in GeneratorJob (Fjodor Vershinin kautta lewismc)
- Nutch-1708 käyttää samaa id kun indeksointi ja poistamalla ohjaukset (snagel)
- Nutch-1817 Poista pom.xml lähteestä (jnioche)
- Nutch-1811 bin / Nutch junit käyttää JUnit 4 testi runner (snagel)
- Nutch-1776 Kirjaudu virheellinen plugin.folder tiedoston polku (Diaa kautta snagel)
- Nutch-1566 bin / Nutch jotta välilyönnillä poluille (tejasp, snagel)
- Nutch-1605 MIME-tyyppi ilmaisin tunnistaa xlsx kuten zip-tiedosto (snagel)
- Nutch-385 Paranna kuvaus säiettä liittyvien kokoonpano hakijaa (jnioche, Lufeng)
- Nutch-1798 Crawl kirjoitus ei soittamalla index-komento oikein (Aaron Bedward kautta jnioche)
- Nutch-1769 REST API refaktorointi (Fjodor Vershinin kautta lewismc)
- Nutch-1633 slf4j tarjoaa Hadoop eikä niitä pitäisi sisällyttää työtiedoston (Kaveh minooie kautta jnioche)
- Nutch-1787 päivitys ja täydellinen API doc yleiskatsaus sivu (snagel)
- Nutch-1767 poistaa erityiskohtelu & quot; params & quot; suhteellisten linkkien (snagel)
- Nutch-1718 uudelleen http.robots.agent & quot; lisäaine nimet & quot; (Snagel, Tejas Patil, Daniel Kugel)
- Nutch-1796 Varmista Gora esine rakentajat käytetään vastustaa tyhjä rakentajille (snagel kautta lewismc)
- Nutch-1590 [SECURITY] Frame injektio haavoittuvuus julkaistaan Javadoc (jnioche)
- Nutch-1736 ei voi hakea sivu jos http vastaus otsikko sisältää Transfer-Encoding: chunked (Ysc kautta jnioche)
- Nutch-1782 NodeWalker palata nykyisen solmun (Markus)
- Nutch-1781 päivitys gora - * - mapping.xml ja gora.proeprties pohtia Gora 0,4 (lewismc)
- Nutch-1768 Päivitä ElasticSearch 1.1.0 (jnioche)
- Nutch-1634 readdb -stats esittää tulosta kahdesti (Kaveh minooie kautta jnioche)
- Nutch-1780 TTL ja gc_grace_seconds määritteet puuttuu Gora-Cassandra-mapping.xml tiedosto (Kaveh minooie kautta lewismc)
- Nutch-1676 Lisää alkeellinen SSL-tukea protokolla-http (jnioche, Markus)
- Nutch-1674 Käytä batchId suodatin, jotta skannaus (GORA-119) ja Hae, Parse, päivitys, indeksi (Tien Nguyen Manh ja Alparslan Avci kautta jnioche)
- Nutch-1714 Päivitä Gora 0,4 (Alparslan Avci kautta jnioche)
- Nutch-1752 Cache robots.txt säännöt per protokolla: isäntä: portti (snagel)
- Nutch-1613 Aikakatkaisut pöytäkirjassa-httpclient kun indeksoinnin sama isäntä & gt; 2-kertainen (brian44 kautta jnioche)
- Nutch-1182 hakija kirjautua Hung kierteet (snagel)
- Nutch-1618 Turn spekulatiivinen suoritus pois Haetaan (Talat)
- Nutch-1657 ORIGINAL_CHAR_ENCODING ja CHAR_ENCODING_FOR_CONVERSION koskaan asetettu HTMLParser (Talat)
- Nutch-1725 CleaningJob n vähennysventtiilillä ei sido poistetut dokumentit. (Ilhamikalkan kautta Talat)
- Nutch-1728 indeksointitoiminnon-SOLR plugin ei poista dokumentteja Solr (ilhamikalkan kautta Talat)
- Nutch-1753 Eclipse dependecy ongelma 2.x (Talat)
- Nutch-1720 Monista radoilla HttpBase.java (Walter Tietze kautta jnioche)
- Nutch-797 URL ei oikein rakennettu, kun linkin kohde alkaa & quot;? & Quot; (Doug Cook, Robert Hohman, Stondet, ab kautta snagel)
- Nutch-1759 Päivitä Crawler Commons 0.4 (jnioche)
- Nutch-1700 Poista vanhentuneita koodin src / plugin / creativecommons / build.xml (lewismc)
- Nutch-1761 Crawl skripti ei löydä työtä tiedoston, jos ei alkanut sisältä bin DIR (David Hosking, jnioche)
- Nutch-1603 ZIP jäsennintä valittaa katkaistu PDF-tiedostona (snagel kautta lewismc)
- Nutch-1743 parsechecker näyttää outlinks (snagel)
- Nutch-1732 Parempi cmd linja jäsentämiseen varten NutchServer (Fjodor Vershinin kautta lewismc)
- Nutch-1751 Tyhjä ankkureita ei pitäisi indeksi (Sertac Turkel kautta lewismc)
- Nutch-1733 parse-html tukea HTML5 charset määritelmät (snagel)
- Nutch-1727 Konfiguroitava pituus Aluetunnukset (Sertac Turkel kautta lewismc)
- Nutch-1738 Paljasta lukumäärä URL syntyy erää kohden vuonna GeneratorJob (Talat UYARER kautta ewismc)
- Nutch-1671 indexchecker lisätä sulattaa kenttä (snagel, Lufeng)
- Nutch-1645 JUnit koetinkivi Adaptive Nouda Aikataulu luokka (Yasin Kılınç, Lufeng, Sertac Urkel kautta snagel)
- Nutch-1478 Parse-metatagit ja indeksi-metatiedot plugin Nutch 2.x-sarjan (Kiran, Nguyen Anh Tien, Talat UYARER, Vangelis Karvounis kautta lewismc)
- Nutch-1729 Päivitä Tikan 1,5 (jnioche)
- Nutch-1721 Päivitä Crawler yhteiseen 0.3 (tejasp)
- Nutch-1719 DomainStatistics epäonnistuu 2.x koska URL-osoitetta ei oikein päin näkyvä (Gerhard Gossen kautta lewismc)
- Nutch-1253 yhteensopimaton neko ja Xerces versiot (snagel, lewismc, Talat UYARER)
- Nutch-1715 RobotRulesParser lisää ylimääräistä "*" ja robotteja nimi (tejasp)
- Nutch-356 Plugin arkiston välimuisti voi johtaa muistivuoto (Enrico Triolo, Dogacan Guney kautta Markus)
- Nutch-1164 Kirjoita JUnit testit protokolla-http (Sertac Turkel kautta tejasp)
- Nutch-1710 Lisää Gora paketti puunkorjuun log4j.properties (lewismc)
- Nutch-1655 Indexer Plugin Elastinen Search (Talat UYARER kautta lewismc)
- Nutch-1699 Tikan Parser - Kuva Parse Bug (Mehmet Zahid Yuzuguldu, snagel kautta lewismc)
- Nutch-1568 portti liitettävää indeksointi arkkitehtuurin 2.x (Talat UYARER kautta lewismc)
- Nutch-1672 inlinks lisätään kahdesti DbUpdateReducer (Tien Nguyen Manh kautta lewismc)
- Nutch-1667 updatedb aina sivuuttaa batchId (Tien Nguyen Manh kautta lewismc)
- Nutch-1695 NutchDocument.toString () (Markus kautta lewismc)
- Nutch-1696 Salli käyttö (Gora) SNAPSHOT riippuvuudet (lewismc)
- Nutch-1681 In URLUtil.java, toUNICODE menetelmä ei toimi oikein (
Kommentteja ei löytynyt