.Net大数据平台Microsoft.Spark环境构建附可运行源码。_小言_互联网的博客

.Net大数据平台Microsoft.Spark环境构建附可运行源码。

2022-11-03 12:55 357人阅读评论(0)

前言：大什么数据？什么大数据？什么数据大？挖野菜才是正道。

NBNBNB 老资终于可以不用花太多精力搞python了。

window环境的.Net大数据平台环境构建附带可运行源码。

.NET for Apache Spark 使用 .NET Core 在 Windows、Linux 和 macOS 上运行。它还使用 .NET Framework 在 Windows 上运行。可以将应用程序部署到所有主要云提供商，包括 Azure HDInsight Spark、Amazon EMR Spark、Azure Databricks 和 AWS 上的 Databricks。

.NET for Apache Spark 性能

与使用 TPC-H 基准的 Python 和 Scala 相比，.NET for Apache Spark 在大多数情况下表现良好，并且当用户定义的函数性能至关重要时，其速度比 Python 快两倍。目前正在努力提升基准性能。

1下载并安装 Apache Spark。

spark/docs/release-notes at main · dotnet/spark · GitHub 下载并安装 Apache Spark 3.0.1

运行以下命令，以设置用于查找 Apache Spark 的环境变量。在 Windows 上，确保在管理员模式下运行命令提示符。

Windows


  
   
    
     
    
    
     
      setx /M HADOOP_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
     
    
   
    
     
    
    
     
      setx /M SPARK_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
     
    
   
    
     
    
    
     
      setx /M PATH 
      "%PATH%;%HADOOP_HOME%;%SPARK_HOME%bin"

安装所有内容并设置环境变量后，打开新的命令提示符或终端并运行以下命令：

spark-submit --version

如果该命令运行并打印出版本信息，则可转到下一步。

如果收到 'spark-submit' is not recognized as an internal or external command 错误，请确保已打开新的命令提示符。

spark/docs/release-notes at main · dotnet/spark · GitHub

---分割线现在只是hadoop 装好 .net 还用不起来-----

4、安装 .NET for Apache Spark

从 .NET for Apache Spark GitHub 下载 Microsoft.Spark.Worker。

要提取 Microsoft.Spark.Worker：

解压 Microsoft.Spark.Worker.netcoreapp3.1.win-x64-1.0.0.zip 文件。

5、安装 WinUtils（仅限 Windows）

.NET for Apache Spark 要求与 Apache Spark 一起安装 WinUtils。下载 winutils.exe。然后，将 WinUtils 复制到 spark-3.2.1-bin-hadoop3.2\bin。

6、设置 DOTNET_WORKER_DIR 并检查依赖项，指向Worker解压目录

path

setx /M DOTNET_WORKER_DIR <PATH-DOTNET-WORKER-DIR>

---------------分割线 .net 大数据平台搭建完毕了 ------------

NBNBNB 好像和搜索引擎之Lucence.Net_云草桑的博客-CSDN博客这个和Lucence.Net一样分词也有点智障。。


  
   
    
     
    
    
      
      static void Main(string[] args)
     
    
   
    
     
    
    
     
              {
     
    
   
    
     
    
    
                 
      // Create a Spark session/Job
     
    
   
    
     
    
    
     
                  SparkSession spark = SparkSession
     
    
   
    
     
    
    
     
                      .Builder()
     
    
   
    
     
    
    
     
                      .AppName(
      "word_count_sample")
     
    
   
    
     
    
    
     
                      .GetOrCreate();
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
                 
      // Create initial DataFrame
     
    
   
    
     
    
    
     
                  DataFrame dataFrame = spark.Read().Text(
      "美猴王.txt");
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
                 
      // Count words
     
    
   
    
     
    
    
     
                  DataFrame words = dataFrame
     
    
   
    
     
    
    
     
                      .Select(Functions.Split(Functions.Col(
      "value"), 
      " ").Alias(
      "words"))
     
    
   
    
     
    
    
     
                      .Select(Functions.Explode(Functions.Col(
      "words"))
     
    
   
    
     
    
    
     
                      .Alias(
      "word"))
     
    
   
    
     
    
    
     
                      .GroupBy(
      "word")
     
    
   
    
     
    
    
     
                      .Count()
     
    
   
    
     
    
    
     
                      .OrderBy(Functions.Col(
      "count").Desc());
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
                 
      // Show results
     
    
   
    
     
    
    
     
                  words.Show();
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
                 
      // Stop Spark session
     
    
   
    
     
    
    
     
                  spark.Stop();
     
    
   
    
     
    
    
     
              }

NBNBNB 老资终于可以不用花太多精力搞python了

好像不能调试。。。就先这样吧

转载：https://blog.csdn.net/cao919/article/details/127602482

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章