架构
溯源架构发展的脉络,关注科技企业的架构实践,帮助传统行业、中小型企业找到可供参考的架构
- 全部
- SOA
- 微服务
- 业务架构
- 框架
- 领域驱动设计
- 多云/混合云
- 其他

Slack 增强 Chef 基础设施,提升安全性并降低部署影响范围
Slack 工程团队发表了一篇博文,深入分析了他们近期对基于 Chef 的配置管理系统所做的改进,目的是在不干扰现有工作流程的情况下,使部署更安全、更有弹性。更新后的基础设施消除了单点故障,并在可用区之间引入了分阶段的环境感知型部署流程,降低了在资源配置和配置变更过程中发生大规模故障的风险。

英特尔 DeepMath 引入智能架构,助力大型语言模型提升数学计算能力
英特尔宣布了 DeepMath,这是一个基于 Qwen3-Thinking 构建的轻量级代理,专门用于解决数学问题。

架构师困境:选择已被验证的道路,还是自行开辟一条新路?
软件平台和框架就像铺设好的道路:它们可以加速 MVP(最小可行产品)和 MVA(最小可行架构)的交付,但同时也可能会强加一些团队无法接受的决策。如果这些“铺好的道路”无法通往你的目的地,那么你可能不得不驶下匝道,自行构建解决方案。通过实验来确定哪条路径最能满足你的特定需求是必不可少的过程。

API 平台 Unkey 因性能问题放弃无服务器架构
开发者平台 Unkey 近日撰文介绍了他们如何从零开始彻底重构整个 API 认证服务,从无服务器的 Cloudflare Workers 迁移至有状态的 Go 服务器。这一决策源于对无服务器架构限制的重新评估,这次重构最终带来了六倍的性能提升,并消除了此前占据工程团队大量精力的各种临时变通方案。

Patreon 年度回顾中的架构经验
2025 年,Patreon 工程团队在为超过 1000 万名会员持续交付新功能的同时,出色地推进了关键基础设施的升级。在年度回顾中,团队重点总结了 12 个以维护与演进为核心的项目,突出展现了三大工程主题:韧性迁移模式、面向基数扩展的数据模型重构,以及分布式系统中的一致性权衡。这些工作不仅重塑了后端架构,也显著提升了系统的可靠性与整体性能。

亚马逊云科技宣布推出新的 Amazon EKS Capabilities,以简化工作负载编排
亚马逊云科技推出了 Amazon EKS Capabilities,这是一套完全托管的、Kubernetes 原生特性,旨在简化工作负载编排、AWS 云资源管理以及 Kubernetes 资源组合和自动化。这些能力现在已在大多数 AWS 商业区域普遍可用,它将流行的开源工具捆绑到一个托管的平台层中,减轻了工程团队的运维负担,并在 Amazon Elastic Kubernetes Service(EKS)上实现了更快的应用程序部署和扩展。

在 AI 增强的变革流中,架构师要承担何种角色?
尽管 AI 的采用正在激增,但大多数组织未能突破试点阶段。解决方案在于组织结构,而不仅仅是技术。本文详细介绍了架构师如何通过定义清晰的领域和护栏来实现“快速流动”。了解如何从控制结果转向策划上下文,使 AI 推动持续、有价值的业务变革。

大规模云和分布式应用:教训与策略
本文分享了扩展云和分布式应用程序的目标与策略,重点介绍了摩根大通(JPMorgan Chase)旗下 Chase.com 在云迁移过程中汲取的经验教训。讨论围绕三大核心目标展开,并详细阐述了实现这些目标的具体策略,最后说明了这些方法在实践中的落地方式。对于管理大规模系统的从业者而言,这些经验源自我们在摩根大通及其他金融机构多年来的实战积累,具有宝贵的指导意义。

亚马逊云科技扩展 Well-Architected Framework,新增 Data Residency with Hybrid Cloud Services Lens
今年早些时候,亚马逊云科技正式发布了 Well‑Architected Data Residency with Hybrid Cloud Services Lens,这是 AWS Well‑Architected Framework 中新增的一个扩展,旨在帮助组织设计和运营必须满足复杂数据驻留和主权要求的混合云工作负载。

SIMA 2 利用 Gemini 和自我改进技术在未见过的 3D 和逼真世界中进行泛化
DeepMind 的研究人员推出了 SIMA 2,这是一个建立在 Gemini 基础模型上的通用智能体,可以理解并在多个 3D 虚拟游戏环境中行动。

Authress 如何设计以增强弹性并成功应对亚马逊云科技的重大宕机事件
身份和认证服务公司 Authress 分享了其在重大云基础设施中断期间保持运营的策略,比如 2025 年 10 月亚马逊云科技(AWS)的大规模中断,这次中断影响了众多主要服务。Authress 首席技术官 Warren Parad 解释说,公司的弹性架构采用了依赖于多区域部署和最小化对 AWS 控制平面服务的依赖等策略。

Cloudflare 开源 tokio‑quiche,简化 QUIC 和 HTTP/3 的 Rust 实现
Cloudflare 开源 tokio-quiche,这是一个异步 QUIC 和 HTTP/3 Rust 库,它将 Cloudflare 经过实战检验的 quiche 实现与 Tokio 运行时封装在一起,旨在简化高性能 QUIC 应用程序的开发。

超越应用层的基准测试:Uber 如何评估基础设施变更与云服务单元
Uber 分享了 Ceilometer 的细节,这是他们内部的一个自适应基准测试框架,旨在评估应用级指标之外的基础设施性能。

优步采用 Amazon OpenSearch 进行语义搜索,以更好地捕捉用户意图
为了提升搜索与推荐的用户体验,优步(Uber)从 Apache Lucene 迁移到了 Amazon OpenSearch,以支持大规模向量搜索并更精准地捕捉用户搜索意图。此次迁移带来了若干基础设施方面的挑战,优步的工程师通过针对性的解决方案逐一将其克服。

超越胜率:Spotify 如何在产品实验中量化学习成果
Spotify 在其 Confidence 实验平台之上引入了学习实验(EwL)指标,以衡量有多少测试提供了决策就绪的洞察,而不仅仅是“获胜”的次数。EwL 捕获了跨产品团队学习的数量和质量,帮助他们在规模上做出更快、更明智的产品决策。

Python Workers 重装上阵:Wasm 快照与原生 uv 工具支持
在 Python Workers 方面,Cloudflare 通过近乎即时的冷启动、更广泛的软件包兼容性,以及借助 uv 包管理器简化的工作流程,彻底革新了无服务器的性能。借助内存快照和 WebAssembly 技术,Cloudflare 大幅缩短了启动时间,使 Python 成为 AI 和数据科学应用的理想选择。

Nuxt 引入了原生请求取消和异步处理器提取以提升性能
Nuxt 4.2 通过原生支持数据抓取的中止控制、改进的错误处理和实验性的 TypeScript 支持,显著提升了开发者体验。凭借最高达 39% 的打包体积缩减和更简洁的 app 目录结构,该版本在性能与项目组织方面实现了全面增强,进一步巩固了 Nuxt 作为基于 Vue.js 构建全栈 Web 应用的首选框架地位。

亚马逊云科技和谷歌云预览安全多云网络
在一项令人惊讶的举措中,亚马逊云科技(AWS)和谷歌云最近合作简化多云网络,引入了一个通用标准,并利用“AWS 互联 - 多云”和“谷歌云的跨云互联”。这个新选项使得组织更容易管理和保护跨两个云的工作负载,预计 Azure 将在 2026 年加入。

AI 时代,软件架构师的角色该如何重新定位
本文通过“三个回路”模型,探讨架构师如何在效率、治理与责任之间重新定位自身价值。

Pinecone 在公开预览中引入专用读取节点,用于可预测的向量工作负载
Pinecone 最近公布了专用读节点(Dedicated Read Nodes,DRN)的公开预览版本,这是其向量数据库的一种新的容量模式,旨在为高吞吐量应用(如十亿向量语义搜索、推荐系统和关键任务 AI 服务)提供可预测的性能和大规模成本。此功能建立在 Pinecone 现有的无服务器按需模型之上,为企业提供了稳定的硬件资源,以应对持续的高查询量,而无需担心基于使用量的定价中的固有可变性。

构建可扩展的流媒体基础设施:因为观众不会等到明天
在流媒体领域,挑战是即时的:用户现在就在观看电视节目,而不是计划明天再看。当系统在黄金时段发生故障时,根本没有恢复窗口;观众会立即离开,并可能一去不返。一年半前,ProSiebenSat.1 Media SE 面临着为国际用户扩展流媒体应用的挑战。

Toad:一个统一管理所有大语言模型的 CLI 工具,承诺在用户体验上优于现有方案
这款新近公开发布的工具,旨在为多个代码智能体提供一个统一、“美观”的终端界面,并通过 智能体通信协议。

亚马逊云科技推出 NAT Gateway 的区域级可用性支持
这一新能力允许开发者在一个 VPC 中创建单个 NAT Gateway,并自动跨多个可用区(AZ)运行。

Meta 详细阐述基于 LLM 级训练、混合并行计算与知识迁移的 GEM 广告模型
Meta 发布了有关其生成式广告模型(GEM)的详细信息,这是一个旨在改善其平台广告推荐能力的基础模型。

IBM Research 在 Hugging Face 平台上推出开源可配置的代理框架 CUGA
IBM Research 在 Hugging Face Spaces 平台上发布了 CUGA(可配置通用代理),使得人们更容易通过开放模型和真实工作流评估其面向企业的代理框架。

oRPC 发布 1.0 版本,支持 OpenAPI 和端到端类型安全
oRPC 1.0 是一款前沿的 TypeScript 库,用于构建类型安全的 API,现已提供稳定、可用于生产的解决方案,并完整集成 OpenAPI。其核心特性包括企业级的类型安全性、对复杂类型(如 Date 和 File)的原生支持,以及与 React、Vue、Solid、Svelte 等主流前端框架的无缝集成。凭借卓越的性能表现和详尽的迁移指南,oRPC 已成为现代 API 开发的理想方案。

下一代搜索:通过 MCP 实现 AI 与 OpenSearch 的融合
在本文中,我们将探讨 MCP 如何在 AI 代理和 OpenSearch 之间建起一座桥梁从而创建智能搜索应用。我们还将探讨从关键词搜索到代理搜索的演变,了解架构组件, 并通过实际的案例演示具体的实现方法。

AlphaEvolve 作为面向算法优化的 Agentic 系统正式进入谷歌云
谷歌云宣布了 AlphaEvolve 的私有预览版,这是一款由 Gemini 提供支持的编码 Agent,旨在发现并优化复杂工程和科学问题的算法。该系统现在可以通过谷歌云上的早期访问计划获得,其目标是那些由于巨大的搜索空间而导致传统蛮力或手动优化方法难以应对的场景。

Lyft 采用 AWS SageMaker 与 Kubernetes 混合架构重构其机器学习平台
Lyft 将其机器学习平台 LyftLearn 重构为一个混合系统:将离线工作负载迁移至 AWS SageMaker,同时继续使用 Kubernetes 处理在线模型推理。该决策在运维复杂度最高的环节采用托管服务,在控制权至关重要的环节保留自定义基础设施,这样为统一平台战略提供了一种务实的替代方案。

Yelp 发布大规模管理 S3 服务器访问日志的方案
文章系统性地梳理了 Yelp 在日志体量、存储开销以及查询性能方面遇到的挑战。








