前言:大什么数据?什么大数据?什么数据大?挖野菜才是正道。
NBNBNB 老资终于可以不用花太多精力搞python了 。
window环境的.Net大数据平台环境构建 附带可运行源码。
windows 安装jdk 相关坑 java jdk1.8.0_221 安装步骤_云草桑的博客-CSDN博客_jdk1.8.0_221
.NET for Apache Spark 使用 .NET Core 在 Windows、Linux 和 macOS 上运行。 它还使用 .NET Framework 在 Windows 上运行。 可以将应用程序部署到所有主要云提供商,包括 Azure HDInsight Spark、Amazon EMR Spark、Azure Databricks 和 AWS 上的 Databricks。
.NET for Apache Spark 性能
与使用 TPC-H 基准的 Python 和 Scala 相比,.NET for Apache Spark 在大多数情况下表现良好,并且当用户定义的函数性能至关重要时,其速度比 Python 快两倍。 目前正在努力提升基准性能。
spark/docs/release-notes at main · dotnet/spark · GitHub下载并安装 Apache Spark 3.0.1
运行以下命令,以设置用于查找 Apache Spark 的环境变量。 在 Windows 上,确保在管理员模式下运行命令提示符。
-
setx /M HADOOP_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
-
setx /M SPARK_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
-
setx /M PATH
"%PATH%;%HADOOP_HOME%;%SPARK_HOME%bin"
安装所有内容并设置环境变量后,打开新的命令提示符或终端并运行以下命令:
spark-submit --version
如果该命令运行并打印出版本信息,则可转到下一步。
如果收到 'spark-submit' is not recognized as an internal or external command
错误,请确保已打开新的命令提示符。
spark/docs/release-notes at main · dotnet/spark · GitHub
---分割线 现在只是hadoop 装好 .net 还用不起来-----
4、安装 .NET for Apache Spark
从 .NET for Apache Spark GitHub 下载 Microsoft.Spark.Worker。
要提取 Microsoft.Spark.Worker:
-
解压 Microsoft.Spark.Worker.netcoreapp3.1.win-x64-1.0.0.zip 文件。
5、安装 WinUtils(仅限 Windows)
.NET for Apache Spark 要求与 Apache Spark 一起安装 WinUtils。 下载 winutils.exe。 然后,将 WinUtils 复制到 spark-3.2.1-bin-hadoop3.2\bin。
6、设置 DOTNET_WORKER_DIR 并检查依赖项,指向Worker解压目录
path
setx /M DOTNET_WORKER_DIR <PATH-DOTNET-WORKER-DIR>
---------------分割线 .net 大数据平台搭建完毕了 ------------
NBNBNB 好像和 搜索引擎之Lucence.Net_云草桑的博客-CSDN博客 这个和Lucence.Net一样分词也有点智障。。
-
static void Main(string[] args)
-
{
-
// Create a Spark session/Job
-
SparkSession spark = SparkSession
-
.Builder()
-
.AppName(
"word_count_sample")
-
.GetOrCreate();
-
-
// Create initial DataFrame
-
DataFrame dataFrame = spark.Read().Text(
"美猴王.txt");
-
-
// Count words
-
DataFrame words = dataFrame
-
.Select(Functions.Split(Functions.Col(
"value"),
" ").Alias(
"words"))
-
.Select(Functions.Explode(Functions.Col(
"words"))
-
.Alias(
"word"))
-
.GroupBy(
"word")
-
.Count()
-
.OrderBy(Functions.Col(
"count").Desc());
-
-
// Show results
-
words.Show();
-
-
// Stop Spark session
-
spark.Stop();
-
}
NBNBNB 老资终于可以不用花太多精力搞python了
好像不能调试。。。就先这样吧
转载:https://blog.csdn.net/cao919/article/details/127602482