前言

官网: https://aws.amazon.com/certification/certified-ai-practitioner/


知识点

1. Intro to AWS

Cloud Computing

  • Cloud computing 是按需提供计算能力、数据库存储、应用程序和其他 IT 资源,通过云服务平台以 pay-as-you-go 定价模式,你可以获取所需的精确类型和大小的计算资源。

Deployment Models

  • Private Cloud: 单个组织使用的云服务,不对外公开
  • Public Cloud: 由第三方云服务商拥有和运营,通过互联网提供
  • Hybrid Cloud: 部分服务器保留在本地,部分能力扩展到云端

Types of Cloud Computing

  • IaaS (Infrastructure as a Service): 提供基础设施
  • PaaS (Platform as a Service): 提供平台
  • SaaS (Software as a Service): 提供软件


AWS Regions

  • AWS 在全球都有 Region,大多数 AWS 服务都是 region-scoped。

Availability Zones

  • 每个 Region 有多个 Availability Zone(通常 3 个,最少 3 个,最多 6 个)。每个 AZ 是一个或多个独立的数据中心,有冗余的电源、网络和连接。

Points of Presence

  • Amazon 在 40+ 个国家、90+ 个城市有 400+ 个 Points of Presence(400+ Edge Locations 和 10+ Regional Caches),用于以更低延迟向用户交付内容。


2. AWS GEN AI

Intro to GEN AI

  • Generative AI (Gen-AI) 是 Deep Learning 的一个子集,用于生成与训练数据相似的新数据。

Foundation Model

  • Foundation Model 是在大量多样化输入数据上训练的模型。

Large Language Models (LLM)

  • LLM 是一种 AI,用于生成连贯的、类人的文本。

Generative Language Models

  • 我们通常通过给 LLM 一个 prompt 来交互,模型会利用它学到的所有内容来生成新内容。
  • 值得注意的是,LLM 是 non-deterministic 的: 即使使用相同的 prompt,每次生成的文本也可能不同。


AWS Bedrock

AWS Bedrock 是一个用于构建 Generative AI 应用的服务

  • Fully-managed service,无需管理服务器
  • Pay-per-use 定价模式
  • 可以控制用于训练模型的数据



Bedrock - Fundamental Model

How to choose

  • Model types, performance requirements, capabilities, constraints, compliance
  • Level of customization, model size, inference options, licensing agreements, context windows, latency
  • Multimodal models(支持多种类型的输入和输出)

Amazon Titan

  • AWS 提供的高性能 Foundation Model
  • 通过全托管 API 提供 image、text、multimodal 等模型选择
  • Smaller models 更 cost-effective


Bedrock - Fine Tuning a Model

  • 用你自己的数据对 foundation model 的副本进行调整
  • Fine-tuning 会改变 base foundation model 的 weights
  • 必须使用 “Provisioned Throughput” 才能使用 fine-tuned model

Instruction-based Fine Tuning

  • 提升 pre-trained FM 在特定领域任务上的表现
  • 使用 labeled examples(prompt-response pairs)

Continued Pre-training

  • 提供 unlabeled data 继续训练 FM

Single-Turn Messaging

  • Instruction-based fine-tuning 的一部分

Multi-Turn Messaging

  • 为对话场景提供 instruction-based fine tuning(相对于 Single-Turn Messaging)

Transfer Learning

  • 重用 pre-trained model 并将其适配到新的相关任务的更广泛概念


Bedrock - FM Evaluation

Automatic Evaluation

  • 用于模型的质量控制
  • 一些 benchmark datasets 可以快速检测 bias 和潜在的歧视问题

Human Evaluation

  • 选择一个 work team 进行评估

Automated Metrics to Evaluate an FM

  • ROUGE: Recall-Oriented Understudy for Gisting Evaluation
  • BLEU: Bilingual Evaluation Understudy
  • BERTScore: 生成文本之间的语义相似度
  • Perplexity: 模型预测下一个 token 的能力(越低越好)


Bedrock - RAG & Knowledge Base

RAG (Retrieval-Augmented Generation)

  • 让 Foundation Model 可以引用训练数据之外的数据源

RAG Vector Databases by AWS

  • Amazon OpenSearch Service (Serverless & Managed Cluster): search & analytics database,支持 real time similarity queries,存储数百万 vector embeddings,scalable index management,fast nearest-neighbor (kNN) search
  • Amazon Aurora PostgreSQL: AWS 上的关系型数据库
  • Amazon Neptune Analytics: graph database,支持高性能 graph analytics 和 graph-based RAG (GraphRAG)
  • Amazon S3 Vectors: cost-effective 和 durable storage,sub-second query performance

RAG Data Sources

  • Amazon S3, Confluence, Microsoft SharePoint 等等

RAG Use Cases

  • Customer Service Chatbot: 产品、功能、规格、故障排除指南、FAQ
  • Legal Research and Analysis: 法律、法规、案例、法律意见、专家分析
  • Healthcare Question-Answering: 疾病、治疗、临床指南、研究论文、患者信息


GenAI Concepts

Tokenization

  • 将 raw text 转换成 token 序列

Context Window

  • LLM 在生成文本时能考虑的 token 数量
  • 选择模型时首先要看的因素

Embeddings

  • 将 text、images 或 audio 转换成 vectors(数值数组)
  • Embedding models 可以支持搜索应用


Bedrock - Guardrails

  • 控制用户与 Foundation Models (FMs) 之间的交互
  • 过滤不良和有害内容
  • 移除 Personally Identifiable Information (PII)
  • 可以创建多个 Guardrails,监控和分析违反 Guardrails 的用户输入


AWS Bedrock - Agents

  • 管理和执行与基础设施配置、应用部署和运维相关的多步骤任务
  • Agents 被配置为执行特定的预定义 action groups



Bedrock - CloudWatch Integration

  • Model Invocation Logging: 将所有调用日志发送到 Amazon CloudWatch 和 S3
  • CloudWatch Metrics: 将 Bedrock 的 metrics 发布到 CloudWatch


Bedrock - Pricing

  • On-Demand

    • Pay-as-you-go,无需承诺
    • Text Models: 按处理的 input/output token 收费
    • Embedding Models: 按处理的 input token 收费
    • Image Models: 按生成的图片收费
    • 只支持 Base Models
  • Batch

    • 一次多个 predictions,输出为 S3 中的单个文件
    • 最高可享 50% 折扣
  • Provisioned Throughput

    • 购买一定时间的 Model units(1 个月、6 个月…)
    • Throughput: 每分钟处理的最大 input/output tokens
    • 支持 Base、Fine-tuned 和 Custom Models

Model Improvement Techniques Cost Order

从便宜到贵

  1. Prompt Engineering ($) - 无需 model training,无额外计算或 fine-tuning
  2. RAG ($$) - 使用外部知识,FM 不需要”知道一切”,无需修改 FM
  3. Instruction-based Fine-tuning ($$$) - 用特定指令 fine-tune FM,需要额外计算
  4. Domain Adaptation Fine-tuning ($$$$) - 在特定领域数据集上训练,需要大量计算

Bedrock - Cost Savings

  • On-Demand: 适合不可预测的 workloads,无长期承诺
  • Batch: 最高 50% 折扣
  • Provisioned Throughput: 通常不是省钱的方式,适合 “reserve” capacity
  • Temperature, Top K, Top P: 对定价无影响
  • Model size: 通常 smaller model 更便宜(因 provider 而异)
  • Number of Input and Output Tokens: 成本的主要驱动因素


3. Prompt Engineering

What is Prompt Engineering

Prompt Engineering 是开发、设计和优化 prompts,以增强 FMs 输出以满足你的需求。

Improved Prompting 包含:

  • Instructions: 给模型的任务(描述、模型应该如何执行)
  • Context: 引导模型的外部信息
  • Input data: 你需要响应的输入
  • Output Indicator: 输出类型或格式


Negative Prompting

明确告诉模型在响应中不要包含或做什么的技术。

  • Avoid Unwanted Content: 明确说明不要包含什么,减少不相关或不当内容
  • Maintain Focus: 帮助模型保持主题,不偏离到无用的领域
  • Enhance Clarity: 防止使用复杂术语或详细数据,使输出更清晰易懂


Prompt Performance Optimization

  • System Prompts: 定义模型应该如何行为和回复
  • Temperature (0 to 1): 控制创造性,低值更保守,高值更有创意
  • Top P (0 to 1): 低值响应更连贯,高值更多样
  • Top K: 限制可能词的数量,低值更连贯,高值更多样
  • Length: 答案的最大长度
  • Stop Sequences: 信号模型停止生成输出的 tokens

  • Prompt Latency: 模型响应的速度,不受 Top P、Top K、Temperature 影响


Prompt Engineering Techniques

Zero-Shot Prompting

  • 不提供示例,完全依赖模型的通用知识

Few-Shots Prompting

  • 提供示例来引导模型输出

Chain of Thought Prompting

  • 将任务分解为一系列推理步骤,使输出更有结构和连贯性
  • 使用 “Think step by step” 这类句子有帮助

Retrieval-Augmented Generation (RAG) (这不算在 Technique 里)

  • 结合模型能力与外部数据源,生成更有信息量和上下文的响应


Prompt Templates

  • 简化和标准化生成 Prompts 的过程
  • 可与 Bedrock Agents 一起使用

Prompt Template Injections

  • 用户可能尝试输入恶意内容来劫持 prompt,获取禁止或有害话题的信息
  • 防护方法: 添加明确指令,忽略任何不相关或潜在恶意内容


4. AWS Q

AWS Q Business

  • 为员工打造的全托管 Gen-AI 助手
  • 基于公司的知识和数据
  • 构建在 Amazon Bedrock 上(但不能选择底层 FM)

Data Connectors (fully managed RAG)

  • 连接 40+ 企业数据源:Amazon S3, RDS, Aurora, WorkDocs, Microsoft 365, Salesforce, GDrive, Gmail, Slack, Sharepoint…
  • Plugins:与第三方服务交互,如 Jira, ServiceNow, Zendesk, Salesforce
  • Custom Plugins:通过 API 连接任何第三方应用

IAM Identity Center

  • 用户通过 IAM Identity Center 认证
  • 可配置外部 Identity Providers

Admin Controls

  • 控制和自定义响应以满足组织需求
  • Admin controls == Guardrails


AWS Q App

  • 用自然语言创建 Gen AI 应用,无需编码
  • 利用公司内部数据


AWS Q Developer

  • 回答关于 AWS 文档和服务选择的问题
  • 回答关于你 AWS 账户中资源的问题
  • AI 代码助手,帮助编写新应用(类似 GitHub Copilot)


AWS Q + AWS Services

Amazon Q for QuickSight

  • QuickSight 用于数据可视化和创建 dashboards
  • Amazon Q 理解自然语言,可以对数据提问
  • 可创建数据的 executive summaries

Amazon Q for EC2

  • EC2 是 AWS 上的虚拟服务器
  • Amazon Q 为新 workload 提供最适合的 EC2 instance 类型建议

Amazon Q for AWS Chatbot

  • AWS Chatbot 可在 Slack 或 Microsoft Teams 中部署,了解你的 AWS 账户
  • 通过 Amazon Q 加速理解 AWS 服务、排查问题、找到解决方案

Amazon Q for Glue

  • AWS Glue 是 ETL (Extract Transform and Load) 服务,用于数据迁移
  • Amazon Q 可以:回答 Glue 相关问题、提供文档链接、生成数据集成代码、排查 Glue job 错误


5. AI & ML

AI, ML, Deep Learning, GenAI

What is Artificial Intelligence

  • AI 是一个广泛的领域,开发能够执行通常需要人类智能任务的智能系统

AI Components

  • Data Layer: 收集大量数据
  • ML Framework and Algorithm Layer: 数据科学家和工程师合作理解 use cases、需求和可解决问题的框架
  • Model Layer: 实现并训练模型,包括结构、参数、函数和优化器
  • Application Layer: 如何服务模型,向用户提供能力

What is Machine Learning (ML)

  • ML 是一种 AI,用于构建让机器学习的方法
  • 利用数据提升计算机在特定任务上的表现
  • 基于训练数据进行预测

What is Deep Learning (DL)

  • 使用神经元和突触(类似大脑)来训练模型
  • 处理比传统 ML 更复杂的数据模式

What is Generative AI (Gen-AI)

  • Deep Learning 的子集
  • 由神经网络支持的多用途 foundation models

What is the Transformer Model (LLM)

  • 能够整体处理句子而不是逐词处理
  • 更快更高效的文本处理(更少训练时间)


ML Terms

  • GPT (Generative Pre-trained Transformer): 根据输入 prompts 生成人类文本或代码
  • BERT (Bidirectional Encoder Representations from Transformers): 类似 GPT,但双向读取文本
  • RNN (Recurrent Neural Network): 用于序列数据如时间序列或文本,适用于语音识别、时间序列预测
  • ResNet (Residual Network): 深度卷积神经网络 (CNN),用于图像识别、目标检测、人脸识别
  • SVM (Support Vector Machine): 用于分类和回归的 ML 算法
  • WaveNet: 生成原始音频波形的模型,用于语音合成
  • GAN (Generative Adversarial Network): 生成类似训练数据的合成图像、视频或声音,适用于数据增强
  • XGBoost (Extreme Gradient Boosting): 梯度提升的一种实现


Training Data

Labeled vs. Unlabeled Data

  • Labeled Data: 包含输入特征和对应输出标签,用于 Supervised Learning
  • Unlabeled Data: 只有输入特征没有输出标签,用于 Unsupervised Learning

Structured Data

  • 数据以结构化格式组织,通常是行和列
  • Tabular Data: 表格形式,行是记录,列是特征
  • Time Series Data: 按时间顺序收集的数据点

Unstructured Data

  • 没有特定结构,通常是文本或多媒体内容
  • Text Data: 文章、社交媒体帖子、客户评论等
  • Image Data: 图像数据,格式和内容多样


Supervised Learning

  • 学习一个映射函数,为新的未见输入数据预测输出
  • 需要 labeled data:很强大,但在百万级数据上难以执行

Regression

  • 根据输入数据预测数值
  • 输出是连续的,可以是范围内的任何值

Classification

  • 预测输入数据的类别标签
  • 输出是离散的,落入特定类别
  • 关键算法:K-nearest neighbors (k-NN)

Training vs. Validation vs. Test Set

  • Training Set: 用于训练模型
  • Validation Set: 用于调整参数和验证性能
  • Test Set: 用于评估最终模型性能

Feature Engineering

  • 使用领域知识将原始数据转换为有意义的特征
  • 帮助提升 ML 模型性能
  • Structured Data 例子:根据面积、位置、房间数预测房价
  • Unstructured Data 例子:客户评论的情感分析


Unsupervised Learning

  • 目标是发现数据中的内在模式、结构或关系
  • 常用技术:Clustering、Association Rule Learning、Anomaly Detection
  • Feature Engineering 可以提升训练质量

Clustering

  • 根据特征将相似数据点分组
  • 例子:Customer Segmentation
  • 结果:公司可以针对不同细分市场制定营销策略

Association Rule Learning

  • 例子:Market Basket Analysis
  • 结果:超市可以将关联商品放在一起提升销量

Anomaly Detection

  • 例子:Fraud Detection
  • 结果:系统标记可疑交易进行进一步调查

Semi-supervised Learning

  • 用少量 labeled data 和大量 unlabeled data 训练系统
  • 之后,部分训练的算法自动标注 unlabeled data


Self-Supervised Learning

  • 模型为自己的数据生成 pseudo-labels,无需人工标注
  • 然后用 pseudo labels 解决传统 Supervised Learning 的问题
  • 广泛用于 NLP(如 BERT、GPT)和图像识别任务


Reinforcement Learning

  • 一种 ML,agent 通过在环境中执行动作来学习决策,目标是最大化累积奖励


RLHF

  • RLHF = Reinforcement Learning from Human Feedback
  • 使用人类反馈帮助 ML 模型更高效地自我学习



Model Fit, Bias and Variance

Model Fit

  • Overfitting: 训练数据表现好,评估数据表现差
  • Underfitting: 训练数据表现差,可能模型太简单或特征不好
  • Balanced: 既不 overfitting 也不 underfitting

Bias

  • 预测值与实际值的差异或误差,由 ML 过程中的错误选择导致
  • High Bias: 模型不能很好匹配训练数据,属于 underfitting
  • 减少 Bias: 使用更复杂的模型,增加特征数量

Variance

  • 模型在不同但分布相似的数据集上训练时性能变化的程度
  • High Variance: 模型对训练数据变化很敏感,属于 overfitting
  • 减少 Variance: 特征选择(更少但更重要的特征),多次划分训练和测试数据集


Model Evaluation Metrics

Confusion Matrix

  • 用于分类模型的评估矩阵
  • True Positive (TP): 预测为正,实际为正
  • True Negative (TN): 预测为负,实际为负
  • False Positive (FP): 预测为正,实际为负(误报)
  • False Negative (FN): 预测为负,实际为正(漏报)
  • Accuracy = (TP + TN) / Total
  • Precision = TP / (TP + FP)
  • Recall = TP / (TP + FN)

Regression Metrics

  • MAE (Mean Absolute Error): 预测值与实际值差的绝对值平均
  • MSE (Mean Squared Error): 预测值与实际值差的平方平均
  • RMSE (Root Mean Squared Error): MSE 的平方根
  • R² (R-Squared): 模型解释数据变异的程度,越接近 1 越好


Machine Learning – Inferencing

  • Inferencing 是模型对新数据进行预测
  • Real Time: 数据到达时快速做出决策
  • Batch: 一次性分析大量数据

Inferencing at the Edge

  • Edge devices 是计算能力较弱、靠近数据源、网络连接可能有限的设备
  • Small Language Model (SLM) 部署在 edge device
  • Large Language Model (LLM) 部署在远程服务器


Phases of Machine Learning Project

  • Define Business Goals: 定义价值、预算、成功标准和 KPI
  • ML Problem Framing: 将业务问题转换为 ML 问题,判断 ML 是否合适
  • Data Processing: 数据收集、预处理、可视化、feature engineering
  • Exploratory Data Analysis: 用图表和 Correlation Matrix 分析数据
  • Model Development: 模型训练、调参、评估(迭代过程)
  • Deployment: 选择部署模式(real-time、batch、serverless 等)
  • Monitoring: 监控性能、debug 问题
  • Iterations: 持续改进模型


Hyperparameter

  • Hyperparameter: 定义模型结构和学习算法的设置
  • Hyperparameter tuning: 找到最佳参数值以优化模型性能,提高准确性、减少 overfitting、增强泛化能力

Important Hyperparameters

  • Learning rate, Batch size, Number of Epochs, Regularization

Overfitting

  • 模型在训练数据上表现好,但在新数据上表现差
  • 原因: 训练数据太少、训练太久、模型太复杂从 noise 中学习
  • 防止: 增加训练数据量、Early stopping、Data augmentation、调整 hyperparameters


6. AWS Managed AI Services

AWS Comprehend

  • 用于 Natural Language Processing (NLP)
  • 使用 ML 从文本中发现洞察和关系

Custom Classification

  • 将文档组织到你定义的类别中
  • Real-time Analysis: 单个文档,同步
  • Async Analysis: 多个文档(batch),异步

Named Entity Recognition (NER)

  • 从文本中提取预定义的通用实体,如人物、地点、组织、日期等

Custom Entity Recognition

  • 分析文本中的特定术语和名词短语
  • 提取如保单号或客户投诉相关短语等业务特定内容
  • 用自定义数据训练模型


AWS Translate

  • 自然准确的语言翻译
  • 用于本地化网站和应用内容,高效翻译大量文本


AWS Transcribe

  • 自动将语音转换为文本
  • 通过 Redaction 自动移除 PII(个人身份信息)
  • 支持多语言音频的自动语言识别

Toxicity Detection

  • 基于 ML 的语音毒性检测能力

Improving Accuracy

  • 允许 Transcribe 捕获领域特定或非标准术语
  • Custom Vocabularies: 添加特定词汇、短语、领域术语
  • Custom Language Models: 用自己的领域文本数据训练模型


AWS Polly

  • 使用 deep learning 将文本转换为逼真的语音
  • 创建会说话的应用

Advanced Features

  • Lexicons: 定义如何朗读特定文本
  • SSML: 标记文本以指示发音方式
  • Voice engine: generative、long-form、neural、standard
  • Speech mark: 标记音频中句子/单词的起始和结束位置


AWS Rekognition

  • 使用 ML 在图像和视频中识别物体、人物、文本、场景
  • 人脸分析和搜索,用于用户验证、人数统计

Custom Labels

  • 标记训练图像并上传到 Rekognition
  • 新图像将按你定义的自定义方式分类

Content Moderation

  • 自动检测不当、有害或冒犯性内容
  • Custom Moderation Adaptors: 提供自己标记的图像集扩展 Rekognition 能力


AWS Lex

  • 使用语音和文本快速为应用构建聊天机器人


AWS Personalize

  • 全托管 ML 服务,构建实时个性化推荐应用
  • 集成到现有网站、应用、SMS、邮件营销系统


AWS Textract

  • 使用 AI 和 ML 自动从扫描文档中提取文本、手写内容和数据
  • 读取和处理任何类型文档(PDF、图像等)


AWS Kendra

  • 全托管的 ML 文档搜索服务
  • 从文档中提取答案(text、pdf、HTML、PowerPoint、Word、FAQs 等)
  • 从用户交互/反馈中学习,提升首选结果(Incremental Learning)


AWS Mechanical Turk

  • 众包市场,用于执行简单的人工任务


AWS Augmented AI (A2I)

  • 在生产环境中对 ML 预测进行人工监督


AWS Transcribe Medical

  • 自动将医疗相关语音转换为文本(符合 HIPAA)
  • 支持实时(麦克风)和批量(上传文件)转录


AWS Comprehend Medical

  • 从非结构化临床文本中检测并返回有用信息
  • 使用 NLP 检测 Protected Health Information (PHI) — DetectPHI API
  • 配合 Amazon Transcribe 将患者叙述转录为文本,再由 Comprehend Medical 分析


AWS Hardware for AI

  • AWS Trainium: 用于 100B+ 参数模型 Deep Learning 的 ML 芯片,训练成本降低 50%
  • AWS Inferentia: 用于高性能低成本推理的 ML 芯片,吞吐量提升 4x,成本降低 70%
  • Trn 和 Inf 具有最低的环境足迹


7. AWS SageMaker

AWS SageMaker AI

  • 全托管服务,供开发者/数据科学家构建 ML 模型

End-to-End ML Service

  • 收集和准备数据
  • 构建和训练 ML 模型
  • 部署模型并监控预测性能

Built-in Algorithms

  • Supervised: Linear regressions/classifications, KNN
  • Unsupervised: PCA(降维), K-means(聚类), Anomaly Detection
  • Textual: NLP, 摘要
  • Image Processing: 分类, 检测

Automatic Model Tuning (AMT)

  • 定义 Objective Metric
  • AMT 自动选择 hyperparameter ranges、搜索策略、最大运行时间、早停条件
  • 节省时间和成本

Model Deployment & Inference

  • 一键部署,自动扩展,无需管理服务器
  • Real-time: 单次预测
  • Serverless: 流量高峰之间有空闲期
  • Asynchronous: 大 payload(最大 1GB),请求/响应在 S3
  • Batch: 整个数据集的预测


SageMaker Studio

  • 统一界面进行端到端 ML 开发


SageMaker Data Tools

SageMaker - Data Wrangler

  • 为 ML 准备表格和图像数据
  • 数据准备、转换和 feature engineering

SageMaker - Feature Store

  • 从多种来源摄取 features
  • 可在 Feature Store 内定义数据到 feature 的转换
  • Features 可在 SageMaker Studio 中发现


SageMaker - Models and Humans

SageMaker Clarify

  • 评估 Foundation Models
  • 评估人类因素如友好度或幽默感
  • SageMaker Studio 的一部分

SageMaker Clarify - Model Explainability

  • 帮助解释 ML 模型如何做出预测的工具集
  • 部署前理解模型整体特征

SageMaker Clarify - Detect Bias

  • 检测和解释数据集和模型中的偏见

SageMaker Ground Truth

  • RLHF: 将人类反馈纳入 reward function 的强化学习
  • Ground Truth Plus: 数据标注


SageMaker - Governance

  • SageMaker Model Cards: 基本模型信息
  • SageMaker Model Dashboard: 所有模型的集中仓库
  • SageMaker Role Manager: 为角色定义权限

Model Dashboard

  • 查看、搜索、探索所有模型的集中门户
  • 帮助发现违反数据质量、模型质量、偏见、可解释性阈值的模型

Model Monitor

  • 监控生产环境中模型质量:持续或按计划

Model Registry

  • 追踪、管理和版本控制 ML 模型的集中仓库
  • 管理模型审批状态、自动化部署、共享模型

SageMaker Pipelines

  • 自动化构建、训练、部署 ML 模型的工作流
  • ML 的 CI/CD 服务



SageMaker Consoles

SageMaker JumpStart

  • ML Hub,查找预训练 Foundation Model、计算机视觉模型、NLP 模型
  • 预建 ML 解决方案:需求预测、信用评级预测、欺诈检测、计算机视觉

SageMaker Canvas

  • 使用可视化界面构建 ML 模型(无需编码)
  • 使用 SageMaker Autopilot 的 AutoML 构建自定义模型
  • SageMaker Studio 的一部分
  • 利用 Data Wrangler 进行数据准备


8. AI Challenges and Responsibilities

Responsible AI

  • Amazon Bedrock: 人工或自动模型评估
  • Guardrails for Amazon Bedrock: 过滤内容、隐藏 PII、增强安全和隐私
  • SageMaker Clarify: FM 评估准确性、鲁棒性、毒性
  • SageMaker Data Wrangler: 通过平衡数据集修复偏见
  • SageMaker Model Monitor: 生产环境质量分析
  • Amazon Augmented AI (A2I): ML 预测的人工审核
  • Governance: SageMaker Role Manager, Model Cards, Model Dashboard

AWS AI Service Cards

  • 负责任 AI 的文档形式
  • 帮助理解服务及其功能

Interpretability Trade-Offs

  • Interpretability: 人类理解决策原因的程度
  • 高透明度 => 高可解释性 => 性能较差
  • Explainability: 理解模型的本质和行为

Partial Dependence Plots (PDP)

  • 显示单个特征如何影响预测结果,同时保持其他特征不变
  • 对 “black box” 模型(如 Neural Networks)特别有帮助

Human-Centered Design (HCD) for Explainable AI

  • Design for amplified decision-making: 在高压环境中最小化风险和错误
  • Design for unbiased decision-making: 决策过程无偏见
  • Design for human and AI learning: 认知学徒制、个性化、用户中心设计


GenAI Challenges

Toxicity

  • 生成冒犯性、令人不安或不当内容
  • 缓解:预先筛选训练数据,识别和移除冒犯性内容

Hallucinations

  • 听起来正确但实际错误的断言
  • 缓解:教育用户必须核实模型生成的内容

Plagiarism and Cheating

  • 担忧 Gen AI 被用于写论文、求职写作样本等作弊行为
  • 检测 AI 生成文本/图像的技术兴起

Prompt Misuses

  • Poisoning: 故意向训练数据集注入恶意或有偏见的数据
  • Hijacking/Prompt Injection: 在 prompt 中嵌入特定指令影响输出
  • Exposure: 训练或推理时暴露敏感信息的风险
  • Prompt Leaking: 无意泄露模型使用的 prompt 或输入
  • Jailbreaking: 绕过 AI 模型的伦理和安全约束


Governance of AI

  • 管理、优化和扩展组织 AI 计划
  • 治理对于建立信任至关重要

Governance Strategies

  • Policies: 原则、指南和负责任 AI 考量
  • Review Cadence: 技术、法律和负责任 AI 审查的结合

  • Transparency Standards: 发布 AI 模型、训练数据、关键决策的信息
  • Team Training Requirements: 培训相关政策、指南和最佳实践


Security and Privacy for AI Systems

  • Threat Detection: 检测假内容、篡改数据、自动化攻击
  • Vulnerability Management: 识别 AI 系统漏洞:软件 bug、模型弱点
  • Infrastructure Protection: 保护云计算平台、边缘设备、数据存储

  • Prompt Injection: 操纵输入 prompt 生成恶意或不良内容
  • Data Encryption: 静态和传输中数据加密

AWS Shared Responsibility Model

  • AWS 责任: Security of the Cloud(云的安全)
  • 客户责任: Security in the Cloud(云中的安全)


9. AWS Services

AWS IAM

  • Root Account(根账户) - 默认创建,拥有完全权限,不要与他人共享。
  • Users(用户) - 组织内的个人,可以属于多个组。
  • Groups(组) - 只能包含用户,不能包含其他组。


IAM Permissions

  • 定义用户或组的访问权限
  • 最小权限原则(Least Privilege Principle) - 只授予完成任务所需的最小权限,避免过度授权。


IAM Polices

  • 定义操作权限,与执行方法无关。

  • 策略结构 - Statements 必须包含:

    • Effect - Allow 或 Deny
    • Principal - 谁可以访问
    • Action - 允许或拒绝的操作
    • Resource - 作用于哪些资源
  • Inline Policy (内联策略) - 直接分配给单个用户、组或角色的策略。


IAM Roles

  • 授权 AWS 服务去做某些事 (比如 EB 需要 EC2 Role 和 Service Role)
  • 常见的 Role
    • EC2 Instance Role - 允许 EC2 实例访问其他 AWS 服务
    • Lambda Function Role - 授予 Lambda 函数执行权限
    • Service Role - 如 Elastic Beanstalk 需要 EC2 Role 和 Service Role


AWS S3 (Simple Storage Service)

S3 Buckets (存储桶)

  • S3 服务是全球性的,但 Bucket 是区域性的
  • 在 buckets 中存储对象(文件)
  • Bucket 名称必须全球唯一

Objects (对象)

  • 每个对象有一个 key(完整路径 = prefix + object name)
  • 最大对象大小 5TB
  • 单次上传限制 5GB,超过需使用 Multi-Part Upload
  • 可使用 S3 Transfer Acceleration 加速上传

S3 重要特性

  • S3 总是返回对象的最新版本
  • S3 无法加密 metadata
  • S3 是 serverless 服务
  • S3 sync 命令使用 CopyObject API 在 buckets 间复制对象
  • 对象所有权:默认情况下,S3 对象归上传它的 AWS 账户所有,即使 bucket 属于另一个账户


S3 Storage Classes

  • 共 7 种存储类别: 1 个 General + 2 个 IA + 3 个 Glacier + 1 个 Intelligent

S3 Standard (标准通用型)

  • 频繁访问的数据,最常见
  • 高持久性、高可用性、低延迟

S3 Infrequent Access (IA)

  • Standard-IA: 多 AZ,高可用,最少存储 30 天
  • One Zone-IA: 单 AZ,成本更低,AZ 可能故障所以不适合高可用需求

S3 Glacier (归档存储)

  • Instant Retrieval: 毫秒级检索,最贵,最少 90 天
  • Flexible Retrieval: 1-5 分钟 / 3-5 小时 / 5-12 小时,最少 90 天
  • Deep Archive: 12 小时 / 48 小时,最便宜,最少 180 天

S3 Intelligent-Tiering

  • 根据使用情况自动在存储类别之间移动
  • 无检索费用,无需手动管理


AWS EC2 (Elastic Compute Cloud)

  • 属于 Infrastructure as a Service (IaaS),绑定到特定 AZ。
  • User Data (用户数据) - EC2 启动时自动运行的脚本 (如安装 Apache)。
    • 默认只在首次启动时运行
    • 默认以 root 用户权限执行



AWS Lambda

  • 虚拟函数,Serverless,短期执行(最长 15 分钟)
  • 按需运行,自动扩展,按毫秒计费
  • 无需管理服务器
  • Event-Driven: S3 事件、DynamoDB 流、API Gateway 等
  • CRON Job: 使用 EventBridge 定期触发(如每小时)

Lambda Limits

  • Execution: Memory 128MB-10GB,最长 15 分钟
  • Deployment: 压缩包 50MB,解压 250MB,容器镜像 10GB
  • 有 account quota 限制,需联系 AWS 提高

VPC 访问

  • 默认 Lambda 运行在 AWS VPC,可访问公共互联网和 AWS API
  • 启用 VPC 后,需通过公共子网的 NAT Gateway 访问公共资源

AWS Macie

  • 使用机器学习保护敏感数据
    • 使用 ML 保护 AWS 中的敏感数据 (PII)
    • 自动发现和分类敏感数据
    • 持续监控 S3 存储桶


AWS Config

  • 资源配置监控和合规性服务
  • 提供 AWS 资源配置的详细视图,记录配置和随时间的变更
  • 示例:检查 ACM 证书是否临近过期

Config Rules

  • 自定义 Rule 检查资源合规性,也有 AWS managed rules
  • 常见规则:检查 S3 bucket 公开访问、EC2 是否使用批准的 AMI、EBS 卷是否加密

Config Remediations

  • 使用 SSM Automation Documents 自动修复不合规资源
  • 例如:自动关闭不受限制的 SSH 访问

Config Notifications

  • 使用 EventBridge 在资源不合规时触发通知
  • 集成 SNS、Lambda 等

CloudTrail vs. Config

  • CloudTrail:谁在什么时候做了什么(API 调用审计)
  • Config:资源配置是什么,如何变化(配置管理)

AWS Inspector

  • 自动化安全评估服
    • 自动化安全评估 (Automated Security Assessments)
    • 持续扫描漏洞
    • 生成安全发现报告
  • 支持的资源类型
    • EC2 Instance - 操作系统漏洞
    • Container Images (ECR) - 容器镜像漏洞
    • Lambda Functions - 函数代码和依赖漏洞


AWS CloudTrail

  • AWS 账户的治理、合规和审计服务
  • 记录事件历史和 API 调用,全球服务
  • 资源被误删时,第一时间查看 CloudTrail

CloudTrail Events

  • Management Events:创建、删除、修改资源等操作
  • Data Events:S3 对象级活动、Lambda 执行、DynamoDB 操作
  • Insights Events:使用 ML 检测异常活动

CloudTrail Insights

  • 检测账户中的异常活动
  • 检测场景:API 调用激增、资源配置异常变化


AWS Artifact

  • 提供AWS合规报告和协议的自助服务门户
  • 下载SOC报告、PCI报告等合规文档,管理协议(如BAA)


AWS Audit Manager

  • 评估 AWS 工作负载的风险和合规性
  • 持续审计 AWS 服务使用情况并准备审计
  • 生成合规报告和证据文件夹


AWS Trusted Advisor

  • 分析 AWS 账户并在 6 个类别提供建议
    • Cost optimization, Performance, Security, Fault tolerance, Service limits, Operational Excellence
  • 需要 Business 或 Enterprise Support plan


AWS VPC

  • AWS 中的虚拟私有网络。

Subnets

  • VPC 内的子网分区(公有/私有)
  • 公有子网: 有路由到 Internet Gateway,可以直接访问互联网(如 web server)
  • 私有子网: 没有直接路由到互联网,需通过 NAT Gateway 访问外网(如数据库)

Internet Gateway & NAT Gateway

  • Internet Gateway (IGW): 让公有子网的资源访问互联网,双向通信
  • NAT Gateway: 让私有子网的资源访问互联网,但外部无法主动连入(单向)

Security Group vs NACL

  • Security Group: 实例级防火墙,只有允许规则,有状态
  • NACL: 子网级防火墙,允许和拒绝规则,无状态

VPC Flow Logs

  • 捕获 VPC 内网络流量日志,用于监控和排查网络问题

VPC Peering

  • 连接两个 VPC,使它们可以像在同一网络中一样通信
  • 不支持传递(A-B、B-C 不意味着 A-C 能通)

VPC Endpoints

  • 私密访问 AWS 服务(如 S3、DynamoDB),流量不经过互联网,更安全


  • 将第三方 VPC 或本地网络私密连接到 AWS 服务
  • 不经过公网,最安全的暴露服务方式


Site to Site VPN & Direct Connect

  • Site-to-Site VPN

    • 通过公网建立加密连接,连接本地网络和 AWS VPC
    • 组件: Virtual Private Gateway (VGW) + Customer Gateway
  • Direct Connect

    • 专用物理网络连接,从本地直连 AWS
    • 比 VPN 更稳定、低延迟、高带宽,但成本更高


AWS Client VPN

  • 允许用户从任何地方安全连接到 AWS 和本地网络
  • 基于 OpenVPN 的托管 VPN 服务,适合远程办公


AWS Transit Gateway

  • 中心化网络连接枢纽
  • 通过单个网关连接多个 VPC 和本地网络,简化复杂网络拓扑