Apache Spark

Sagteware kiekie:
Apache Spark
Sagteware besonderhede:
Weergawe: 1.6.0 Opgedateer
Upload datum: 6 Mar 16
Lisensie: Gratis
Populariteit: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark is ontwerp om die verwerking spoed vir data-analise en manipulasie programme te verbeter.

Dit is in Java en Scala geskryf en bied funksies nie gevind in ander stelsels, meestal omdat hulle nie hoofstroom nie wat nuttig is vir nie-data verwerking van aansoeke.

Spark is die eerste keer geskep by die UC Berkeley AMP Lab en later geskenk aan die Apache Software Foundation

Wat is nuut in hierdie release:.

  • Unified geheuebestuur -. Gedeelde geheue vir uitvoering en caching plaas van 'n eksklusiewe verdeling van die streke
  • Parket Performance - Verbeter Parket scan prestasie by die gebruik van plat skemas
  • .
  • Verbeterde navraag beplanner vir navrae met duidelike riffen -. Query planne van afsonderlike riffen is meer robuuste toe duidelike kolomme het 'n hoë aantal elemente
  • Adaptive navraag uitvoering -. Aanvanklike ondersteuning vir outomaties kies die aantal reducers vir aansluit en riffen
  • Vermy dubbele filters in Databron API -. Wanneer die uitvoering van 'n data bron met filter afdrukoutomaat, kan ontwikkelaars nou vertel Spark SQL om te verhoed dat dubbele evaluering van 'n gestoot-down filter
  • Fast nul-veilige aansluit - sluit aan by die gebruik van nul-veilige gelykheid (& # x3c; = & # x3e;) sal nou uit te voer met behulp van SortMergeJoin in plaas van die berekening van 'n cartisian produk
  • .
  • In-geheue Columnar Cache Performance - Beduidende (tot 14x) bespoedig wanneer kas data wat komplekse tipes in DataFrames of SQL bevat
  • .
  • SQL uitvoering Gebruik Off-Heap Memory - Steun vir die instel van navraag uitvoering te voorkom met behulp van off-hoop geheue te GC oorhoofse vermy

Wat is nuut in weergawe 1.5.2:

  • Die kern API ondersteun nou 'n multi-vlak samevoeging bome om te help bespoedig duur te verminder bedrywighede.
  • Verbeterde fout verslagdoening is bygevoeg vir sekere Gotcha bedrywighede.
  • Spark se Jetty afhanklikheid is nou skadu te help in stryd is met die gebruiker programme te vermy.
  • Spark ondersteun nou SSL enkripsie vir 'n paar kommunikasie eindpunte.
  • Realtime GC statistieke en rekord tellings is bygevoeg om die UI.

Wat is nuut in weergawe 1.4.0:

  • Die kern API ondersteun nou 'n multi-vlak samevoeging bome om te help bespoedig duur te verminder bedrywighede.
  • Verbeterde fout verslagdoening is bygevoeg vir sekere Gotcha bedrywighede.
  • Spark se Jetty afhanklikheid is nou skadu te help in stryd is met die gebruiker programme te vermy.
  • Spark ondersteun nou SSL enkripsie vir 'n paar kommunikasie eindpunte.
  • Realtime GC statistieke en rekord tellings is bygevoeg om die UI.

Wat is nuut in weergawe 1.2.0:

  • PySpark se soort operateur ondersteun nou eksterne mors vir groot datastelle .
  • PySpark ondersteun nou uitsending veranderlikes groter as 2GB en voer eksterne mors tydens vorme.
  • Spark voeg 'n werk-vlak vooruitgang bladsy in die Spark UI, 'n stabiele API vir vordering verslagdoening, en dinamiese opdatering van uitset statistieke soos werk voltooi.
  • Spark het nou ondersteuning vir die lees van binêre lêers vir beelde en ander binêre formaat.

Wat is nuut in weergawe 1.0.0:

  • Die vrystelling brei standaard biblioteke Spark se bekendstelling van 'n nuwe SQL pakket (Spark SQL) waarmee gebruikers te integreer SQL navrae in bestaande Spark werkstromen.
  • MLlib, Spark se rekenaar leer biblioteek, word uitgebrei met yl vektor ondersteuning en 'n paar nuwe algoritmes.

Wat is nuut in weergawe 0.9.1:

  • Vaste hash botsing fout in eksterne mors
  • Vaste konflik met log4j Spark se vir gebruikers vertrou op ander te meld back ends
  • Vaste Boulevart ontbreek Spark vergadering pot in Maven bou
  • Vaste stil mislukkings as gevolg van uitset status karteer oorskry Akka raam grootte
  • onnodige direkte afhanklikheid verwyder Spark se ASM
  • verwyder statistieke-ganglia van standaard bou as gevolg van LGPL lisensie konflik
  • Vaste fout in die verspreiding tarball nie met vonk vergadering jar

Wat is nuut in weergawe 0.8.0:

  • Ontwikkeling het verskuif na die Apache sowftware Foundation as 'n broeikas projek.

Wat is nuut in weergawe 0.7.3:

  • Python prestasie: meganisme Spark se paai Python VMS het verbeter om dit vinniger te doen wanneer die JVM het 'n groot hoop klippe grootte, die bespoediging van die Python API.
  • months vasgestel: pype by jou werk sal nou op die classpath wanneer deserializing taak resultate in months
  • .
  • Fout verslagdoening. Beter fout verslagdoening vir nie-serialiseerbaar uitsonderings en té groot taak resultate
  • Voorbeelde:. Bygevoeg 'n voorbeeld van Stateful stroom verwerking met updateStateByKey
  • Bou:. Spark Streaming nie meer afhanklik van die Twitter4J repokoers, wat toegelaat moet word om dit op te bou in China
  • Bug fixes in foldByKey, streaming telling, statistieke metodes, dokumentasie, en web UI.

Wat is nuut in weergawe 0.7.2:.

  • Scala weergawe opgedateer om 2.9.3
  • Verskeie verbeterings aan Bagel, insluitend prestasie verbeterings en 'n konfigureerbare stoor vlak.
  • Nuwe API metodes:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, en ander
  • 'n Nuwe statistieke verslagdoening koppelvlak, SparkListener, om inligting oor elke berekening stadium in te samel. Taak lengtes, grepe skuifel, ens
  • Verskeie nuwe voorbeelde gebruik te maak van die Java API, insluitend K-middel en rekenaar PI.

Wat is nuut in weergawe 0.7.0:

  • Spark 0.7 voeg 'n Python API genoem PySpark <. / li>
  • Spark werk nou begin 'n web paneelbord vir die monitering van die geheue gebruik van elke versprei dataset (RDD) in die program.
  • Spark kan nou gebou met behulp van Maven bykomend tot SBT.

Wat is nuut in weergawe 0.6.1:

  • Vaste té aggressiewe boodskap time-outs wat werkers kan laat los te maak van die groep.
  • Vaste 'n fout in die selfstandige installeer af wat nie gasheername om skeduleerder het bloot, wat HDFS omgewing.
  • Verbeterde hergebruik verband in shuffle, wat grootliks kan bespoedig klein skud.
  • Vaste sommige potensiële dooiepunte in die blok bestuurder.
  • Vaste 'n fout om ID's van mislukte gashere van months.
  • Verskeie EC2 script verbeterings, soos beter hantering van kol gevalle.
  • Made die plaaslike IP-adres wat Spark bind aan te pas.
  • Ondersteuning vir Hadoop 2 verdelings.
  • Ondersteuning vir die opspoor van Scala op Debian verspreiding.

Wat is nuut in weergawe 0.6.0:.

  • Eenvoudige ontplooiing
  • dokumentasie Spark se is uitgebrei met 'n nuwe vinnige begin gids, bykomende ontplooiing instruksies, opset gids, tuning gids, en verbeterde Scaladoc API dokumentasie.
  • 'n Nuwe kommunikasiebestuurder behulp asynchrone Java NIO kan shuffle bedrywighede vinniger te hardloop, veral wanneer die stuur van groot hoeveelhede data of wanneer werk het baie take.
  • 'n nuwe stoor bestuurder ondersteun per dataset stoor vlak instellings (bv of die dataset daaraan vashou, deserialized, op die skyf, ens, of selfs herhaal oor knope).
  • Verbeterde debugging.

Ander sagteware ontwikkelaar Apache Software Foundation

Apache Crunch
Apache Crunch

10 Dec 15

Apache Tajo
Apache Tajo

10 Feb 16

Apache Cassandra
Apache Cassandra

25 May 16

Apache Felix
Apache Felix

12 May 15

Kommentaar te Apache Spark

Kommentaar nie gevind
Kommentaar te lewer
Draai op die foto!