Microsoft і .NET Foundation опублікували реліз .NET 1.0 для Apache Spark. Проєкт має відкритий вихідний код, завантажити його можна з GitHub або з NuGet.
У спільноті .NET довгий час хотіли створювати застосунки для Big Data так, щоб не вчити при цьому Scala чи Python. Тож інженери з Azure Data і команда .NET почали розробляти такий проєкт. Вперше його опублікували під час Microsoft Build у 2019 році, а загалом перед релізом випустили 12 попередніх версій.
Адаптований .NET дозволяє писати застосунки для Apache Spark і використовувати UDF-функції та .NET Standard 2.0 (рекомендується .NET Core 3.1 чи пізніші версії). Тож його можна використовувати усюди, де й код .NET. Також є підтримка Apache Spark 2.4/3.0 DataFrame API-інтерфейсів (зокрема можна писати Spark SQL).
Ще до релізу проєкт показував кращу продуктивність, ніж, наприклад, Python. Розробники кажуть, що у версії 1.0 це не змінилось. Тож від програм з UDF-функціями можна очікувати мінімум тієї ж швидкості, що й у PySpark-застосунків (детальніше про продуктивність .NET для Apache Spark можна дізнатись у цьому пості Microsoft).
Проєкт вбудований в Azure Synapse й Azure HDInsight, версія 1.0 має увійти в наступний великий реліз. Також NET для Apache Spark можна запускати в AWS EMR Spark та на Windows, MacOS і Linux.
Ще немає коментарів