帮助手册

AWS Step Functions 监控

AWS Step Functions 支持您通过将工作流表示为状态机和任务,协调跨各种分布式组件的工作。通过 Site24x7 的 AWS 集成,您可以监控执行时间等指标并发出告警,以了解状态机的运行状况。

设置与配置

  • 如果尚未完成,请通过在您的 AWS 账户和 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来开通 Site24x7 对 AWS 资源的访问权限。您也可以将 Site24x7 创建为 IAM 用户并生成安全凭据。了解更多
  • 在集成 AWS 账户页面的待发现服务部分选择 Step Functions。了解更多。

策略和权限

将 AWS 托管策略 ReadOnlyAccess 分配给 Site24x7 实体(IAM 角色或 IAM 用户),以帮助 Site24x7 访问和收集有关您状态机的信息。如果要分配自定义策略,请确保策略 JSON 中包含以下读取级别操作。了解更多。

  • "states:ListStateMachines",
  • "states:DescribeStateMachine",
  • "states:ListActivities",
  • "states:DescribeExecution",
  • "states:ListExecutions",
  • "states:GetExecutionHistory",
  • "states:ListTagsForResource"

轮询频率

Site24x7 按照设定的轮询频率(1 分钟至 1 天)采集 Step Function 执行的指标数据点。了解更多。

IT 自动化

您可以为 Site24x7 支持的 AWS 服务添加自动化操作。登录 Site24x7,进入管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化操作后,您可以安排它们按顺序依次执行。

现在,您可以使用 AWS Step Functions 自动化启动状态机执行。

许可证

每个 Step Function 均视为一个基础监视器。了解更多。

支持的指标

属性 描述 数据类型 统计方式
执行时间 衡量从执行开始到执行结束之间的时间间隔。 平均值
执行受限 衡量状态进入事件和重试被限流的次数。 计数 求和
执行中止 衡量已中止或已终止的执行次数。 计数 求和
执行失败 衡量失败的执行次数。 计数 求和
执行已启动 衡量已启动的执行次数。 计数 求和
执行成功 衡量成功完成的执行次数。 计数 求和
执行超时 衡量因任何原因超时的执行次数。 计数 求和

预测

估算以下性能指标的未来值,并做出有关增加容量或扩展 AWS 基础设施的明智决策。

  • 执行时间
  • 执行受限
  • 执行失败
  • 执行超时

查看数据

  • 登录 Site24x7 Web 控制台。在左侧导航栏中选择 AWS,并选择您受监控的 AWS 账户。
  • 在菜单下拉列表中选择 Step Functions。
  • 在受监控状态机列表中,选择您要查看指标的状态机。

AWS Step Functions 监控界面

摘要

使用摘要标签页深入了解 Step Function 执行情况。默认情况下,将显示所有状态机指标的时间序列图表。

拓扑视图

拓扑视图标签页提供以资源为中心的实时依赖关系图。它动态追踪您的 Step Function 资源与周围 AWS 基础设施的实时连接关系,当告警触发时可更快地定位根本原因。如果任何关联组件处于严重状态,将在拓扑视图中相应标记,并显示中断原因,让您无需离开监视器页面即可精确定位故障点。与账户范围的拓扑视图不同,此标签页将可视化范围限定于单个资源,精准回答:该 Step Function 资源连接到哪些组件,以及它故障后会影响什么?您可以从单个资源开始追踪完整的依赖链,直至其主要父实体、服务类型、区域和 AWS 账户层级。

工作流图

以彩色编码的可视化工作流显示您的状态机。您可以将鼠标悬停在每个状态上以查看更多信息。例如,将鼠标悬停在失败状态上时,您可以看到导致失败的运行时错误,以及被调用资源的服务名称和资源操作。

定义

显示状态机的 Amazon States Language(基于 JSON 的结构化语言)定义。

执行记录

状态机执行历史记录按时间倒序显示。您可以选择特定执行记录,查看该执行中发生的事件列表,包括时间戳、JSON 数据输入、类型、状态详情等。

资源

您状态机活动中引用的 AWS 资源——DynamoDB 表、SNS 主题、Lambda、ECS 和 SQS 队列——以及它们的状态将在此处显示(注意:仅当资源由 Site24x7 监控时才显示资源状态)。您还可以通过点击操作下的铅笔图标为这些服务设置阈值,并在任一服务发生故障时收到通知。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!