飞道的博客

字节有『芯』在跳动,了吗?YOLOv7目标检测实现:确实挺好;伯克利博士找工作的6个月;软件工程资源大列表 | ShowMeAI资讯日报

472人阅读  评论(0)

ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。

🎵 字节正大量招聘芯片工程师,或准备自研芯片

字节跳动的芯片研发团队已经组建超1年,目前主攻方向为『服务器芯片』、『AI芯片』以及『视频云芯片』三大类。据悉字节跳动正招聘大量芯片相关工程师,包括SoC和Core的前端设计、模型性能分析、验证、底层软件和驱动开发、低功耗设计、后端、芯片安全等岗位。有接近字节的人士表示,字节应该很快会拥有自己的芯片,以降低芯片采购成本,并满足业务的定制化需求。(科创板日报)

工具&框架

🚧 『ONNX YOLOv7』目标检测实现

https://github.com/ibaiGorordo/ONNX-YOLOv7-Object-Detection

7月6号 YOLOv7 的论文被提交到 arXiv,其优秀的表现引发了广泛关注。YOLOv7 在 5~160FPS 的范围内,速度和准确度都超过了已知的所有目标检测器。在GPU V100上,30FPS(或更高)的所有已知实时目标检测器中,YOLOv7 具有最高的准确度 56.8%AP。本 repo 为 YOLOv7 目标检测的ONNX项目实现。通过与 YOLOv5、YOLOv6 的对比可以看出 YOLOv7 在速度和精度上的优秀表现。

🚧 『KeyPhraseTransformer』基于 T5 Transformer 的关键词/主题抽取工具

https://github.com/Shivanandroy/KeyPhraseTransformer

KeyPhraseTransformer 基于 T5 Transformer,经过了50万个样本的训练,可以从任何长度的文本中提取重要的短语、话题、主题(phrases、topics、themes)。操作起来也非常简单,不需要进行任何形式的预处理、不需要提供任何与 n-gram 相关的输入、不需要人工干预,你只需要将数据传给模型!

🚧 『Primary』拓展与主题工具,温暖漂亮的 Obsidian 主题

https://github.com/ceciliamay/obsidianmd-theme-primary

Primary 以 Bauhaus、Scandinavian 和泛黄的杂志页面为灵感,设计了这款温暖怀旧的主题,并获得了 Obsidian 2021年10月的『Best Theme』!Primary 有浅色和深色两种模式,并提供了大量的定制选项和功能切换选项,可以提供绝美的视觉体验!像童年的糖果、那天的阳光、蹦蹦跳跳的放学路,真的很难不心动啊~

🚧 『Poniard』scikit-learn 的配套工具库,简化了拟合不同机器学习模型和比较的过程

https://github.com/rxavier/poniard

Poniard 并不提供 end-to-end 解决方案,而是衡量一个问题或数据集的『挑战性』,判断哪些模型能很好地完成任务,并为最终算法的选择提供参考。相似的库还有『LazyPredict』『PyCaret』等等。通常 Poniard 流程为:定义estimators(估计器),定义metrics(度量准则),定义交叉验证策略、拟合、输出评估结果。

🚧 『mayo』基于 Qt+OpenCascade 的三维 CAD 查看器和转换器

https://github.com/fougue/mayo

Mayo 可以从 STEP、IGES、STL 等多种 CAD 格式中读/写 3D 文件,支持平面剪辑、组件拆分、显示/隐藏零件等可视化操作,并最终将文件输出成多种格式的 CAD 文件。Mayo 支持主流的 Windows、Linux 和 MacOS 操作系统。

博文&分享

📚 『2022开源操作系统训练营』Open-Source OS Training Comp 2022

https://github.com/LearningOS/rust-based-os-comp2022

这是一个公益性质的暑期学习活动(7月1日~9月10日),通过集合各种学习资源,搭建一个学习&交流的平台,探讨『如何用Rust语言进行OS研发』,思考未来的操作系统应该是什么样。整个活动持续两个月,分为『线上自学OS基础』『线上实践OS拓展』两个阶段。

📚 『博士就业经验分享』人工智能 / 机器学习 / 强化学习

https://www.natolambert.com/writing/ai-phd-job-hunt

作为 Berkeley AI Research 的博士毕业生,作者怀抱着『在行业顶级实验室获得研究科学家职位』的雄心壮志,开始了求职之路。文章记录了求职的种种数据、收获、反思,还有对低年级朋友的真诚建议。在整个过程中,作者收到了 53 次 one-off interviews、46 次网络面试、6 次(虚拟)现场面试,以及 4 个Offer。下面两张图分别记录了作者面试的时间-频次分布、公司-面试结果。推荐RL方向的同学,一定要读一下原文~

数据&资源

🔥『软件工程』相关论文大列表 2.1k

https://github.com/facundoolano/software-papers

研究&论文

可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.07.05『计算机视觉』 AvatarCap: Animatable Avatar Conditioned Monocular Human Volumetric Capture
  • 2022.02.13『时间序列』 Flowformer: Linearizing Transformers with Conservation Flows
  • 2022.07.04『时间序列』 Back to MLP: A Simple Baseline for Human Motion Prediction
  • 2022.07.04『时间序列』 Disentangling Random and Cyclic Effects in Time-Lapse Sequences

⚡ 论文:AvatarCap: Animatable Avatar Conditioned Monocular Human Volumetric Capture

论文标题:AvatarCap: Animatable Avatar Conditioned Monocular Human Volumetric Capture

论文时间:5 Jul 2022

所属领域计算机视觉

论文地址:https://arxiv.org/abs/2207.02031

代码实现:https://github.com/lizhe00/avatarcap

论文作者:Zhe Li, Zerong Zheng, Hongwen Zhang, Chaonan Ji, Yebin Liu

论文简介:Then given a monocular RGB video of this subject, our method integrates information from both the image observation and the avatar prior, and accordingly recon-structs high-fidelity 3D textured models with dynamic details regardless of the visibility./给定该对象的单眼RGB视频,我们的方法整合了来自图像观察和头像先验的信息,并相应地重新构建了具有动态细节的高保真3D纹理模型,而不考虑可见度。

论文摘要:为了解决单眼人类捕捉中由部分观察引起的问题,我们提出了AvatarCap,这是一个新颖的框架,将可动化身引入捕捉流程,以便在可见和不可见区域进行高保真重建。我们的方法首先从少量(约20个)3D扫描中为受试者创建一个可动的头像作为先验。然后给定该主体的单眼RGB视频,我们的方法整合了来自图像观察和头像先验的信息,并相应地重建了具有动态细节的高保真三维纹理模型,而不考虑可见性。为了从少数样本中学习有效的头像,我们提出了GeoTexAvatar,它利用几何和纹理监督,以分解的隐含方式约束姿势相关的动态。我们进一步提出了一种以avatar化身为条件的空间捕捉方法,该方法涉及典型的法线融合和重建网络,以整合图像观察和化身动态,在观察和不可见区域进行高保真重建。总的来说,我们的方法能够实现单眼人类体积捕捉,并具有详细的和与姿势相关的动态,实验表明我们的方法优于现有技术水平。代码可在 https://github.com/lizhe00/AvatarCap 获取。

⚡ 论文:Flowformer: Linearizing Transformers with Conservation Flows

论文标题:Flowformer: Linearizing Transformers with Conservation Flows

论文时间:13 Feb 2022

所属领域时间序列

对应任务:时间序列

论文地址:https://arxiv.org/abs/2202.06258

代码实现:https://github.com/thuml/Flowformer

论文作者:Haixu Wu, Jialong Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long

论文简介:By respectively conserving the incoming flow of sinks for source competition and the outgoing flow of sources for sink allocation, Flow-Attention inherently generates informative attentions without using specific inductive biases./通过分别保存用于源竞争的汇的入流和用于汇分配的源的出流,Flow-Attention内在地产生了信息性的注意,而没有使用特定的感应偏向。

论文摘要:基于注意力机制的Transformers在各个领域都取得了令人印象深刻的成功。然而,注意力机制具有二次复杂性,极大地阻碍了Transformers处理众多标记和扩展到更大的模型。以前的方法主要是利用相似性分解和矩阵乘法的关联性来设计线性时间注意机制。他们通过重新引入归纳性偏差,如位置性,来避免注意力退化为琐碎的分布,从而牺牲了模型的通用性和表现力。在本文中,我们在流网络理论的基础上对Transformers进行了线性化,不存在特定的归纳性偏差。我们把注意力看作是通过所学的流动能力(注意力)从源(值)到汇(结果)的信息流汇总。在这个框架内,我们将流量守恒的特性应用于注意力,并提出了线性复杂性的流量-注意力机制。通过分别保护源竞争的汇入流量和汇分配的源流出流量,Flow-Attention在不使用特定的归纳偏见的情况下,内在地产生了信息性注意。在Flow-Attention的支持下,Flowformer在线性时间内产生了强大的性能,包括长序列、时间序列、视觉、自然语言和强化学习等广泛领域。代码和配置可在这个资源库中找到:https://github.com/thuml/Flowformer。

⚡ 论文:Back to MLP: A Simple Baseline for Human Motion Prediction

论文标题:Back to MLP: A Simple Baseline for Human Motion Prediction

论文时间:4 Jul 2022

所属领域时间序列

对应任务:Human motion prediction,motion prediction,人体动作预估,运动预估

论文地址:https://arxiv.org/abs/2207.01567

代码实现:https://github.com/dulucas/simlpe

论文作者:Wen Guo, Yuming Du, Xi Shen, Vincent Lepetit, Xavier Alameda-Pineda, Francesc Moreno-Noguer

论文简介:This paper tackles the problem of human motion prediction, consisting in forecasting future body poses from historically observed sequences./本文解决了人类运动预测的问题,包括从历史上观察到的序列中预测未来的身体姿势。

论文摘要:本文讨论了人类运动预测的问题,包括从历史上观察到的序列中预测未来的身体姿势。尽管性能良好,但目前最先进的方法依赖于复杂的深度学习架构,如循环神经网络(RNN)、Transformers或图卷积网络(GCN),通常需要多个训练阶段和超过300万的参数。在本文中,我们表明这些方法的性能可以被一个只有0.14万个参数的轻量级纯MLP架构所超越,如果适当地结合一些标准做法,如用离散余弦变换(DCT)表示身体姿势,预测关节的残余位移和优化速度作为一个辅助损失。对Human3.6M、AMASS和3DPW数据集的详尽评估表明,我们的方法(我们称之为siMLPe)始终优于所有其他方法。我们希望,我们的简单方法可以为社区提供一个强大的基准,并允许重新思考人类运动预测的问题,以及目前的基准是否真的需要复杂的架构设计。我们的代码可在 https://github.com/dulucas/siMLPe获取。

⚡ 论文:Disentangling Random and Cyclic Effects in Time-Lapse Sequences

论文标题:Disentangling Random and Cyclic Effects in Time-Lapse Sequences

论文时间:4 Jul 2022

所属领域时间序列

对应任务:时间序列

论文地址:https://arxiv.org/abs/2207.01413

代码实现:https://github.com/harskish/tlgan

论文作者:Erik Härkönen, Miika Aittala, Tuomas Kynkäänniemi, Samuli Laine, Timo Aila, Jaakko Lehtinen

论文简介:We introduce the problem of disentangling time-lapse sequences in a way that allows separate, after-the-fact control of overall trends, cyclic effects, and random effects in the images, and describe a technique based on data-driven generative models that achieves this goal./我们介绍了以一种允许单独的、事后控制图像中的总体趋势、周期性效应和随机效应的方式分解延时序列的问题,并描述了一种基于数据驱动的生成模型的技术来实现这一目标。

论文摘要:延时图像序列提供了视觉上令人信服的动态过程,这些过程太慢,无法实时观察。然而,由于天气等随机效应以及昼夜循环等周期性效应,以视频形式回放长的延时摄影序列往往会导致干扰性的闪烁。我们介绍了分解延时序列的问题,允许对图像中的整体趋势、周期性效应和随机效应进行单独的事后控制,并描述了一种基于数据驱动的生成模型的技术来实现这一目标。这使我们能够以单独输入图像不可能实现的方式 "重新渲染 "序列。例如,我们可以稳定一个长的序列,在可选择的、一致的天气下,关注多个月的植物生长。我们的方法是基于生成对抗网络(GAN),它以延时摄影序列的时间坐标为条件。我们的结构和训练程序是这样设计的:网络学会使用GAN的潜在空间来模拟随机变化,如天气,并通过使用具有特定频率的傅里叶特征向模型提供条件时间标签来区分总体趋势和周期性变化。我们表明,我们的模型对训练数据中的缺陷具有鲁棒性,使我们能够修正捕捉长延时序列中的一些实际困难,如临时遮挡、不均匀的帧间隔和缺失的帧。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击 这里 回复关键字 日报 免费获取AI电子月刊与资料包。


转载:https://blog.csdn.net/ShowMeAI/article/details/125776067
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场