AWS Step Functions 监控
AWS Step Functions 支持您通过将工作流表示为状态机和任务,协调跨各种分布式组件的工作。通过 Site24x7 的 AWS 集成,您可以监控执行时间等指标并发出告警,以了解状态机的运行状况。
设置与配置
- 如果尚未完成,请通过在您的 AWS 账户和 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来开通 Site24x7 对 AWS 资源的访问权限。您也可以将 Site24x7 创建为 IAM 用户并生成安全凭据。了解更多
- 在集成 AWS 账户页面的待发现服务部分选择 Step Functions。了解更多。
策略和权限
将 AWS 托管策略 ReadOnlyAccess 分配给 Site24x7 实体(IAM 角色或 IAM 用户),以帮助 Site24x7 访问和收集有关您状态机的信息。如果要分配自定义策略,请确保策略 JSON 中包含以下读取级别操作。了解更多。
- "states:ListStateMachines",
- "states:DescribeStateMachine",
- "states:ListActivities",
- "states:DescribeExecution",
- "states:ListExecutions",
- "states:GetExecutionHistory",
- "states:ListTagsForResource"
轮询频率
Site24x7 按照设定的轮询频率(1 分钟至 1 天)采集 Step Function 执行的指标数据点。了解更多。
IT 自动化
您可以为 Site24x7 支持的 AWS 服务添加自动化操作。登录 Site24x7,进入管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化操作后,您可以安排它们按顺序依次执行。
现在,您可以使用 AWS Step Functions 自动化启动状态机执行。
许可证
每个 Step Function 均视为一个基础监视器。了解更多。
支持的指标
| 属性 | 描述 | 数据类型 | 统计方式 |
|---|---|---|---|
| 执行时间 | 衡量从执行开始到执行结束之间的时间间隔。 | 秒 | 平均值 |
| 执行受限 | 衡量状态进入事件和重试被限流的次数。 | 计数 | 求和 |
| 执行中止 | 衡量已中止或已终止的执行次数。 | 计数 | 求和 |
| 执行失败 | 衡量失败的执行次数。 | 计数 | 求和 |
| 执行已启动 | 衡量已启动的执行次数。 | 计数 | 求和 |
| 执行成功 | 衡量成功完成的执行次数。 | 计数 | 求和 |
| 执行超时 | 衡量因任何原因超时的执行次数。 | 计数 | 求和 |
预测
估算以下性能指标的未来值,并做出有关增加容量或扩展 AWS 基础设施的明智决策。
- 执行时间
- 执行受限
- 执行失败
- 执行超时
查看数据
- 登录 Site24x7 Web 控制台。在左侧导航栏中选择 AWS,并选择您受监控的 AWS 账户。
- 在菜单下拉列表中选择 Step Functions。
- 在受监控状态机列表中,选择您要查看指标的状态机。
AWS Step Functions 监控界面
摘要
使用摘要标签页深入了解 Step Function 执行情况。默认情况下,将显示所有状态机指标的时间序列图表。
拓扑视图
拓扑视图标签页提供以资源为中心的实时依赖关系图。它动态追踪您的 Step Function 资源与周围 AWS 基础设施的实时连接关系,当告警触发时可更快地定位根本原因。如果任何关联组件处于严重状态,将在拓扑视图中相应标记,并显示中断原因,让您无需离开监视器页面即可精确定位故障点。与账户范围的拓扑视图不同,此标签页将可视化范围限定于单个资源,精准回答:该 Step Function 资源连接到哪些组件,以及它故障后会影响什么?您可以从单个资源开始追踪完整的依赖链,直至其主要父实体、服务类型、区域和 AWS 账户层级。
工作流图
以彩色编码的可视化工作流显示您的状态机。您可以将鼠标悬停在每个状态上以查看更多信息。例如,将鼠标悬停在失败状态上时,您可以看到导致失败的运行时错误,以及被调用资源的服务名称和资源操作。

定义
显示状态机的 Amazon States Language(基于 JSON 的结构化语言)定义。

执行记录
状态机执行历史记录按时间倒序显示。您可以选择特定执行记录,查看该执行中发生的事件列表,包括时间戳、JSON 数据输入、类型、状态详情等。

资源
您状态机活动中引用的 AWS 资源——DynamoDB 表、SNS 主题、Lambda、ECS 和 SQS 队列——以及它们的状态将在此处显示(注意:仅当资源由 Site24x7 监控时才显示资源状态)。您还可以通过点击操作下的铅笔图标为这些服务设置阈值,并在任一服务发生故障时收到通知。

