Ohjelmiston tiedot:
Voidaan käyttää kirjallisesti haku indeksoijat (hämähäkit), että minun verkkosivuja eri tietoja.
PHPCrawl hankkii tietoa sen konfiguroitu hakemaan ja siirtää sen tehokkaampia sovelluksia jatkojalostukseen.
Ominaisuudet :
- Suodattimet URL ja Content-Type tiedot
- Määritä tapoja käsitellä evästeitä
- Määritä tapoja käsitellä robots.txt tiedostoja
- Rajoita toimintaansa eri tavoin
- Multi--toimintatiloista li>
Mitä uutta strong> tässä julkaisussa:
- Kiinteä vikoja:
- Linkkejä, jotka ovat osittain urlencoded ja osittain ei jää uudelleen / koodattu oikein nyt.
- Poistettu tarpeeton debug var_dump () kohteesta PHPCrawlerRobotsTxtParser.class.php
- Palvelin-nimi-merkinnällä TLS / SSL toimii oikein nyt.
- & quot; base-href & quot; -tags vuonna sivustot saavat tulkita oikein nyt uudelleen.
Mitä uutta strong> versiossa 0.80 beta:
- Koodi oli täysin refactored, monille PHP5-OO- koodi ja paljon koodia kirjoitettiin uudelleen.
- Lisätty kyky käyttää käytössä useita prosesseja hämähäkki verkkosivuilla. Method & quot; goMultiProcessed () & quot; lisätty.
- Uusi overridable menetelmä & quot; initChildProcess () & quot; Lisätään aloittamisen lapsen prosesseja käytettäessä tela in moniajoa-tilassa.
- Implementet vaihtoehto, sisäinen SQLite välimuistia-mekanismi URL-osoitteita, joiden avulla voidaan hämähäkki erittäin suuret sivustot.
- Method & quot; setUrlCacheType () & quot; lisätty.
- Uusi menetelmä setWorkingDirectory () lisätään määrittelemiseksi sijainti telaketjutraktoreille tilapäinen työskentely-hakemistoon manuaalisesti. Sentähden menetelmä & quot; setTmpFile () & quot; merkitään vanhentunut (ei ole toimintoa enää).
- Uusi menetelmä & quot; addContentTypeReceiveRule () & quot; korvaa vanhan menetelmän & quot; addReceiveContentType () & quot;.
- toiminto & quot; addReceiveContentType () & quot; edelleen läsnä, mutta oli merkitty vanhentunut.
Vaatimukset :
- PHP 5 tai uudempi
- PHP OpenSSL tuki
Kommentteja ei löytynyt