Apache Spark on suunniteltu parantamaan käsittelyä nopeuksilla tietojen analysointia ja manipulointi ohjelmia.
Se oli kirjoitettu Javalla ja Scala ja tarjoaa ominaisuuksia ei löydy muita järjestelmiä, lähinnä koska he eivät valtavirran eikä kovin hyödyllinen ei-tietojenkäsittelyn sovelluksia.
Spark oli ensimmäinen luotu UC Berkeley AMP Lab ja myöhemmin lahjoitti Apache Software Foundation.
Mikä on uusi tässä julkaisussa:
- Unified Memory Management - Jaettu muisti toteutettavaksi ja välimuistin sijasta yksinomainen jako alueilla.
- Parketti Performance - parantaa Parketti scan suorituskyky käytettäessä tasainen skeema.
- Parannettu kyselyn suunnittelija kyselyihin, joissa on erilliset aggregoinneista - Kyselyn suunnitelmia erillisten koosteita ovat vakaampia, kun erillisiä sarakkeita on korkea kardinaliteetiltaan.
- Adaptive kyselyn toteuttamisen - Alustava tuki valitsemalla automaattisesti määrän pienennysnysä liittyy ja koosteita.
- Vältetään kaksinkertainen suodattimia Tietolähde API - toteutettaessa tietolähteen suodattimella pushdown, kehittäjät voivat nyt kertoa Spark SQL Kaksinkertaisen arvioitaessa työnnetään alas suodatin.
- Fast null-turvallinen liittyy - Liitosten avulla null-turvallinen tasa (& # X3C; = & # x3e;) nyt toteuttaa käyttämällä SortMergeJoin sijasta laske cartisian tuote.
- -muisti Columnar Cache Performance - Merkittävä (jopa 14x) nopeuttaa kun välimuistin tiedot, joka sisältää monimutkaisia tyyppejä DataFrames tai SQL.
- SQL suorittamisen käyttäminen Off-Heap muisti - Tuki konfigurointiin kyselyn suorittamisen tapahtua käyttämällä off-keko muisti välttää GC yläpuolella
Mikä on uusi versiossa 1.5.2:
- Ydin API tukee nyt monitasoista aggregaatiota puita nopeuttamaan kallis vähentää toimintaa.
- Parannettu virheiden raportointi on lisätty tiettyihin gotcha toimintaan.
- Spark n laituri riippuvuus on nyt tummennetut auttaa välttämään ristiriidat käyttäjäohjelmia.
- Spark tukee nyt SSL-salausta joidenkin viestintää vasteita.
- Realtime GC mittareita ja tallentaa määrään on lisätty UI.
Mikä on uusi versiossa 1.4.0:
- Ydin API tukee nyt monitasoista aggregaatiota puita nopeuttamaan kallis vähentää toimintaa.
- Parannettu virheiden raportointi on lisätty tiettyihin gotcha toimintaan.
- Spark n laituri riippuvuus on nyt tummennetut auttaa välttämään ristiriidat käyttäjäohjelmia.
- Spark tukee nyt SSL-salausta joidenkin viestintää vasteita.
- Realtime GC mittareita ja tallentaa määrään on lisätty UI.
Mikä on uusi versiossa 1.2.0:
- PySpark n sort operaattori tukee nyt ulkoisia vuotoja suurille aineistoja .
- PySpark tukee nyt broadcast muuttujista yli 2 Gt ja suorittaa ulkoinen valuu aikana tapaisena.
- Spark lisää työtä tason edistystä sivun Spark UI, vakaa API edistymisen raportointia, ja dynaaminen päivittäminen tuotoksen käyttötiedot työpaikkojen valmis.
- Spark nyt tukee lukemista binääritiedostojen kuvien ja muiden binary formaatteja.
Mitä uutta strong> versiossa 1.0.0:
- Tämä julkaisu laajenee Spark standardikirjastot, otetaan käyttöön uusi SQL-paketti (Spark SQL), jonka avulla käyttäjät integroida SQL-kyselyjä olemassa oleviin Spark työnkulkuihin.
- MLlib, Spark koneoppimisen kirjasto, laajenee harvaa vektori tukea ja useita uusia algoritmeja.
Mikä on uusi versiossa 0.9.1:
- Kiinteät hash törmäys vian ulkoista vuotoa
- Kiinteät ristiriidassa Spark log4j käyttäjille enemmän muita puunkorjuu backends
- Kiinteät Graphx puuttuu Spark kokoonpano jar maven rakentaa
- Kiinteät hiljainen epäonnistumisista johtuu kartta lähdön tila ylittää Akka kehyskoko
- Poistettu Spark tarpeetonta suoraa riippuvuutta ASM
- Poistettu mittarit-hermosolmun default rakentaa takia LGPL-lisenssin konfliktin
- Kiinteä vika jakelussa tarrapallon sisältämättömät kipinää kokoonpano jar
Mikä on uusi versiossa 0.8.0:
- Kehitys on muuttanut Apache Sowftware Foundation kuin yrityshautomo hanke.
Mitä uutta strong> versiossa 0.7.3:
- Python suorituskyky: Spark n mekanismi kutu Python VM on parannettu tehdä niin nopeammin, jos JVM on suuri keon kokoa, nopeuttaa Python API.
- Mesos korjaa: JAR lisätään työ nyt olla classpath kun deserializing tehtävän tuloksia Mesos.
- Virhe raportointi: Parempi virheiden raportointi ei-sarjoittaa poikkeuksia ja liian suuri tehtävä tuloksia.
- Esimerkkejä: Lisätty esimerkki tilallista stream käsittely updateStateByKey.
- Build: Spark Streaming enää riippuu Twitter4J repo, jonka pitäisi mahdollistaa se rakentaa Kiinassa.
- Virheenkorjauksia vuonna foldByKey, streaming count, tilastot menetelmiä, dokumentointi, ja web UI.
Mikä on uusi versiossa 0.7.2:
- Scala versio päivitetty 2.9.3.
- useita parannuksia Bagel, mukaan lukien suorituskyvyn korjaukset ja konfiguroitavissa varastointi tasolla.
- Uusi API menetelmät: subtractByKey, foldByKey, mapWith, filterWith, foreachPartition, ym.
- Uusi mittareita käyttöliittymää, SparkListener, kerätä tietoja kunkin laskenta vaihe: tehtävä pituudet, tavut sekoitetaan, jne.
- Useita uusia esimerkkejä käyttäen Java API, mukaan lukien K-välineiden ja tietojenkäsittelyn pi.
Mikä on uusi versiossa 0.7.0:
- Spark 0,7 lisää Python API nimeltään PySpark.
- Spark työpaikat nyt käynnistää web kojelauta seurantaan muistin käyttö kunkin jaettu aineisto (RDD) ohjelmassa.
- Spark voidaan nyt rakentaa käyttäen Maven lisäksi SBT.
Mikä on uusi versiossa 0.6.1:
- Kiinteät liian aggressiivinen viesti aikakatkaisut, jotka voivat aiheuttaa työntekijöiden katkaista klusterin.
- Kiinteä vika itsenäisessä käyttöönottoprosentti tila, joka ei altista isäntänimien aikataulu, jotka vaikuttavat HDFS paikkakunnalla.
- Parannettu yhteys uudelleenkäyttö shuffle, joka voi suuresti nopeuttaa vähäisiä sekoituksia.
- Kiinteät joitakin mahdollisia umpikujia lohkonhallinnassa.
- Kiinteä vika saada tunnukset epäonnistuneiden koneet Mesos.
- Useita EC2 kirjoitus parannuksia, kuten parempi käsittely spot tapauksissa.
- Valmistettu paikallisen IP-osoitteen, Spark sitoutuu muokattavissa.
- Tuki Hadoop 2 jakaumat.
- Tuki paikallistamiseen Scala Debian-jakeluiden.
Mikä on uusi versiossa 0.6.0:
- Yksinkertaisempi käyttöönottoa.
- Spark ohjeista on laajennettu uudella pikaopas ylimääräisiä käyttöönotto ohjeet, kokoonpano opas, viritys opas, ja parannettu Scaladoc API-dokumentaation.
- Uusi viestintä johtaja käyttää asynkronista Java NIO avulla shuffle toiminnot ajaa nopeammin, varsinkin kun lähettävät suuria määriä tietoja tai kun työt on monia tehtäviä.
- Uusi varasto johtaja tukee per-aineisto varastointi tasoasetuksineen (esim. Onko pitämään aineisto muistissa, deserialized, levyllä jne, tai jopa mallia koko solmut).
- Parannettu virheenkorjaus.
Kommentteja ei löytynyt