2021 年年度最佳开源软件_飞道的博客

2021 年年度最佳开源软件

2022-12-14 08:20 807人阅读评论(0)

Svelte

https://svelte.dev/

Svelte 是一种全新的构建用户界面的方法。传统框架如 React 和 Vue 在浏览器中需要做大量的工作，而 Svelte 将这些工作放到构建应用程序的编译阶段来处理。

与使用虚拟（virtual）DOM 差异对比不同。Svelte 编写的代码在应用程序的状态更改时就能像做外科手术一样更新 DOM。

Minikube

https://minikube.sigs.k8s.io/

Minikube 可以在本地单机上运行Kubernetes集群的工具。Minikube可跨平台工作，不需要虚拟机，不需要在MacOS或Windows上安装Linux。支持多种容器，如Docker，CRI-O，Containerd等。

Pixie

https://px.dev

Pixie是查看Kubernetes的工具。可查看Kubernetes集群的状态，比如，服务器集群性能，网络状况，集群资源已经相关应用程序等。还可以查看更详细的内容，比如，pod状态，请求量，热点图等。Pixie的资源占用仅有5%左右。

FastAPI

https://fastapi.tiangolo.com/

FastAPI是一个Python网页框架。FastAPI以其高效、易用赢得了开发者的青睐，直接挑战了Django和Flash的传统地位。FastAPI的优点是，类型检查、自动 swagger UI、支持异步、强大的依赖注入。

Crystal

https://crystal-lang.org/

Crystal已经面试很多年了，Crystal的特点是兼具C语言的高效和Ruby的静态类型。今年初已经发布了1.0版本，目前最新版本为1.2.1，已经足够稳定。

Microsoft Terminal

https://github.com/Microsoft/Terminal

Microsoft Terminal 是一个开源的Windows的终端，提供类似Mac和Linux命令行的体验。Microsoft Terminal具有GPU加速渲染，较传统控制台具有更好的性能提升。

OBS Studio

https://obsproject.com/

OBS Studio 是一款用于直播和屏幕录制的软件，为高效捕获，合成，编码，记录和流传输视频内容而设计，支持所有流媒体平台。快捷键可让试图平滑切换，甚至还有画中画和实时字幕的新功能。

Shotcut

https://shotcut.org/

Shotcut是一个强大的视频编辑工具。Shotcut具有中文版支持，可在Windows，MacOS，Linux，BSD等操作系统上运行，Shotcut具有数百种音频、视频格式，以及编解码器，且无需导入，可直接编辑。

Weave GitOps

https://github.com/weaveworks/weave-gitops

Weave GitOps 是一个GitOps工具。其目的是简化DevOps的工作流程，通过声明配置使Kubernetes更加稳定和安全。Weave GitOps 基于云原生基金会的 Flux。

Apache Solr

https://solr.apache.org/

Apache Solr 是基于 Lucene 的全文搜索服务器，也是最流行的企业级搜索引擎。Solr 放弃了开源的许可证，不过现在仍然是免费的。Solr 可集群部署、可在云端部署，甚至包括 LTR 算法，可自动调整加权结果。

MLflow

https://mlflow.org/

MLflow 是由 Apache Spark 技术团队开源的一个机器学习平台。MLflow 由 Databricks 创建，并由 Linux 基金会托管，是一个 MLOps 平台，可让用户跟踪、管理和维护各种机器学习模型、实验及其部署。MLflow提供了记录和查询实验（代码、数据、配置、结果）的工具，将数据科学代码打包成项目，并将这些项目接入工作流程。

Orange

https://orangedatamining.com/

Orange 是一款用于开源机器学习和数据可视化的工具。Orange与 R Studio 和 Jupyter等程序化或文本工具相比，Orange 更直观易操作。Orange 包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。

Flutter

https://flutter.dev/

Flutter是谷歌推出的一个新用于构建跨平台的手机、网页、桌面，嵌入式设备应用的SDK。Flutter 的组件，比如，滚动条、导航、图标和字体，整合了IOS和安卓平台的差异。

Apache Superset

https://github.com/apache/superset

Apache Superset是一个现代的、轻量级可视化BI分析工具。Apache Superset在可视化、易用性和交互性上非常有特色，用户可以轻松对数据进行可视化分析。而且Apache Superset 已经达到企业级商业软件的水平。

Presto

https://prestodb.io/

Presto 是一个开源的分布式 SQL 引擎，用于集群中的在线分析处理。Presto 可以查询各种各样的数据源，从文件到数据库，并将结果输出到BI和分析环境。更重要的是，Presto 可以在 Hive、Cassandra、关系型数据库中进行查询，而且Presto 还可以结合多个来源的数据查询。

脸书、Uber、推特和阿里巴巴创立了 Presto 基金会。其他成员现在包括 Alluxio、Ahana、Upsolver 和英特尔。

Apache Arrow

https://arrow.apache.org/

Apache Arrow 是一个列式内存分析层，旨在为CPU和GPU上加速大数据的分析。它包含了一套平面和分层数据的典型内存表示，Arrow 内存格式支持零拷贝读取，并且不必序列化的情况下访问数据极快。目前Apache Arrow支持的语言包括 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。

InterpretML

https://interpret.ml/

InterpretML是微软推出的可解释机器学习包。其中包含了几个最先进的机器学习可解释性技术。InterpretML提供了两类解释性类型：明箱（glassbox）模型和黑箱（blackbox）模型。InterpretML 可让实践者通过在一个统一的 API 下，借助内置的可扩展可视化平台，使用多种方法来轻松地比较可解释性算法。InterpretML 也包含了可解释 Boosting 机（EBM）的首个实现，这是一种强大的可解释明箱模型，可以做到与许多黑箱模型同等准确。

Lime

https://github.com/marcotcr/lime

Lime（Local interpretable model-agnostic explanations 局部可解释模型-不可知解释的缩写），Lime用于表格或图片的解释机器学习的分类器。Lime 能够解释两个或更多类的黑盒分类器。分类器实现了一个函数，该函数接收原始文本或 numpy 数组并输出每个类的概率。

Dask

https://dask.org/

Dask 是一个用于并行计算的开源库，可将 Python 包扩展到多台机器上。Dask 可将数据和计算分布在多个 GPU 上，即可在单一系统也可在多节点集群中运行。Dask 可与 Rapids cuDF、XGBoost 和 Rapids cuML 集成，用于 GPU 加速的数据分析和机器学习。Dask还可与 NumPy、Pandas 和 Scikit-learn 集成进行并行化工作。

BlazingSQL

https://blazingsql.com/

BlazingSQL 是一个基于 Rapids 生态系统构建的 GPU 加速 SQL 引擎。BlazingSQL基于 Apache 2.0 许可证开源。BlazingSQL是cuDF的SQL接口，具有支持大规模数据科学工作流（包括提取，转换，加载）和企业数据集的各种功能。

Rapids

https://rapids.ai/

Nvidia 的 Rapids是由英伟达开源的一款开源机器学习GPU加速平台。Rapids 使用英伟达 CUDA 基元进行底层计算优化，通过Python 将 GPU 的并行和高带宽内存以接口方式向外开放。Rapids 依赖于 Apache Arrow 柱状内存格式，包括cuDF（类似 Pandas 的 DataFrame 库）；cuML（机器学习库集合，提供 Scikit-learn 中大多数算法的 GPU 版本）；以及cuGraph（类似 NetworkX 的加速图分析库）。

PostHog

https://posthog.com/

PostHog 是一个为开发者构建的开源产品分析平台。自动收集网站或应用程序上的每个事件，无需向第三方发送数据。PostHog 提供基于用户事件的分析，捕获网站的使用数据，统计各用户在网站中的具体操作。PostHog会自动捕获点击次数和综合浏览量，以分析网站用户在做什么，而无需手动推送事件。

LakeFS

https://lakefs.io/

LakeFS 提供了一种"像管理代码一样管理数据湖"的方式，独特引入类似Git功能来管理数据的版本。LakeFS 可以帮助用户创建独立、零拷贝（Zero-copy）的数据分支，且在运行、测试和建模分析中，又不存在破坏共享对象的风险。与Git类似，LakeFS 的数据中会带有提交记录、元数据字段和回滚等信息，此外还有hooks，即在分支合并到主分支前，hooks会检查数据，确保完整性和质量。Amazon S3 和 Azure Blob已在使用 LakeFS。

Meltano

https://meltano.com/

Meltano始于2018年GitLab的内部项目，服务于 GitLab 数据管理。2021年从GitLab独立出来成为一个初创公司。

Meltano是一款免费 DataOps 时代的ETL工具，旨在替代替代传统 ELT的工具，ELT是指数据提取、加载、转换操作的统称。

Meltano特点是开源、自托管、CLI（命令行）、可调试和可扩展。

Meltano创建管道即代码的概念，Meltano项目可进行版本控制、代码审查、持续集成和部署 (CI/CD ）以及容器化等。

Trino

https://trino.io/

Trino 用于大数据分析的快速分布式 SQL 查询引擎

2019年PrestoDB的开发者创建了一个名为PrestoSQL项目分支。由于所属基金会的转移，PrestoSQL于2020年12月更名为 Trino。

Trino是一款用于大数据分析且性能优越的分布式 SQL 分析引擎。Trino 可同时对EB 级数据湖和海量数据仓库进行高效查询。Trino 符合 ANSI SQL 的查询标准，可与 R、Tableau、Power BI、Superset 等 BI 工具配合使用。可在 Hadoop、S3、Cassandra、MySQL 的数据仓库中联合查询。

StreamNative

https://streamnative.io/

StreamNative 是一款弹性部署且可扩展的消息和事件流平台，大大简化了实时报告和分析工具以及企业应用流的数据管道架设。StreamNative 将 Apache Pulsar 分布式流处理架构与 Kubernetes 和混合云支持等，以及企业级功能、大型数据、认证和授权、性能监控等工具相结合，既简化了应用程序的开发，又简化了流数据应用的部署和管理。

Hugging Face

https://huggingface.co/

Hugging Face是一个公司，也是一个网站。

Hugging Face 提供了以非常有用的深度学习资源库，比如深度学习的模型，数据集，还有网站的使用空间的等，不过大多是要付费的。

另外Hugging Face的主要产品是聊天机器人，为此Hugging Face 开发了自己的自然语言处理 (NLP) 模型，称为分层多任务学习 (HMTL) 并在PyTorch-Transformers下管理了一个预训练的 NPL 模型库。

EleutherAI

https://www.eleuther.ai/

EleutherAI是一个开源的社区人工智能项目，旨在创建一个完全去中心化的、具有自治文明的单例人工智能。EleutherAI 项目始于 2011 年，任何能连接互联网且有GitHub 帐户的人都可以参与。社区成员可通过提交开发功能以或提案来参与项目。EleutherAI 的开发者每周会更新项目进度，这些更新会在 YouTube 上进行现场直播。

2021年 EleutherAI 发布了The Pile，是一个 825GB 用于训练的多样化文本数据集；并在6月公布了 GPT-J，一个 60 亿参数的模型，大致相当于 OpenAI 的 GPT-3 的居里变量。随着 GPT-NeoX 的出现，EleutherAI计划将参数一直提高到 1750 亿，发起了争夺最大GPT-3模型的挑战赛。

补充，OpenAI的 GPT-3 模型在文本生成方面实现了惊人的飞跃，甚至具有了人类级别的性能。但其API始终未能完全开放，目前只有 OpenAI 和微软内部才有完全访问全部训练集。

Colab notebooks for generative art/Colab notebooks用于生成艺术品

首先是 OpenAI 的 CLIP（对比语言-图像预训练）模型，一种用于生成文本和图像矢量嵌入的多模态模型。虽然 CLIP 是完全开源的，但 OpenAI 的神经网络 DALL-E 却不开源。为了弥补这一空白，Ryan Murdoch 和 Katherine Crowson 开发了 Colab notebooks，将 CLIP 与其他开源模型（如 BigGAN 和 VQGAN）结合起来，制作 Prompt-based 生成性艺术作品。这些 notebooks 基于 MIT 的开源许可证，过去几十年间在互联网上广泛传播，被重新混合、修改、转译，并被用来生成了惊人的艺术作品。

还可以留言说说你用过哪些，觉得有什么优缺点，思想碰撞。

转载：https://blog.csdn.net/xiaoyaozizai017/article/details/128131410

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章