1.
注册AWS账号并完成身份验证与付款方式添加;进入管理控制台后在右上角选择Region为Asia Pacific (Tokyo) ap-northeast-1。确保账户已开通EC2服务与相关配额,必要时申请提升配额(比如vCPU上限)。
创建IAM管理员账号并启用MFA,不要长期使用root账号操作。为后续操作创建一个用于运维的IAM组与策略。
2.
根据应用负载选择实例类型:通用(t系列)、计算优化(c系列)、内存优化(r系列)或GPU实例。参考CPU、内存、网络带宽指标。
选择合适AMI:Amazon Linux 2、Ubuntu LTS或自定义镜像。决定是否使用按需、预留、Spot或Savings Plan来节省成本。
3.
在VPC控制台新建VPC并创建至少两个子网(跨可用区AZ),用于实现高可用。为公网实例配置Internet Gateway并在相应子网更新路由表。
为私有子网准备NAT网关以便私有实例访问外网。设置子网CIDR规划,避免与本地网络冲突。
4.
新建安全组,默认仅开放必要端口:SSH(22)仅限运维IP、HTTP(80)、HTTPS(443)、应用端口按需开放。使用安全组描述明确备注。
使用网络ACL做额外边界防护。对公网口限制来源IP,启用Flow Logs(VPC Flow Logs)便于流量审计。
5.
在EC2控制台点击Launch Instance:选择AMI、实例类型、VPC与子网、是否分配公有IP、Storage(选择gp2/gp3或io1)、添加标签(Name、Env、Project)、选择或创建Key Pair用于SSH(下载.pem)。
选择安全组和IAM Role(若需要访问S3或CloudWatch)。检查并Launch,等待实例状态变为running。
6.
本地设置.pem文件权限(chmod 400 key.pem),使用ssh -i key.pem ec2-user@PUBLIC_IP或对应用户登录。Windows实例使用RDP并配置密码或使用Systems Manager Session Manager免公网访问。
首次登录后:更新系统包(yum/apt update && upgrade),配置时区与locale,创建非root sudo用户并禁止root直接SSH登录,安装常用工具(git, vim, awscli)。
7.
为数据盘创建独立EBS卷,登录后使用lsblk查看设备,mkfs.ext4 /dev/xvdf,创建挂载点并编辑/etc/fstab持久挂载。定期对业务盘创建EBS snapshot备份并保留策略。
使用Lifecycle Manager自动化快照策略,关键系统可创建AMI快照以便快速恢复或横向扩容。
8.
创建Application Load Balancer(ALB),配置Target Group并将实例注册到目标组,设置健康检查URL(/health)。在ALB上配置监听器与转发规则、证书(ACM免费证书)。
创建Auto Scaling Group(ASG),指定启动模板或Launch Configuration、期望实例数与扩缩策略(基于CPU或自定义CloudWatch指标)。测试扩容与收缩是否符合预期。
9.
启用CloudWatch基本指标(CPU、Network、Disk)。安装CloudWatch Agent以收集系统级指标与自定义日志(/var/log)。在CloudWatch中配置Metric Filter与Dashboard。
为关键指标设置Alarm并通过SNS发送告警至邮件、手机号或Webhook;结合自动修复(Event -> Lambda触发,或ASG健康检查替换)提升可用性。
10.
为实例分配最小权限IAM Role,使用KMS对EBS与S3进行加密。定期扫描漏洞,启用Patch Manager自动打补丁。使用AWS Config与Security Hub审计合规项。
对外服务开启WAF做应用层防护,开启CloudTrail记录API操作并存到集中S3用于审计。
11.
使用Cost Explorer分析费用构成,按实例/标签细分。对长期稳定负载购买Reserved Instances或Savings Plans,对弹性非关键任务考虑Spot实例并配合中断处理机制。
设置预算(Budgets)并配置超额告警,使用标签(Tag)做成本归集,关闭未使用资源(闲置EBS卷、未绑定弹性IP)。
12.
在架构上做到多AZ部署,关键数据采用跨区复制(S3 Replication或数据库的跨区备份)。定期演练恢复流程(演练RTO/RPO)。
为关键组件准备Runbook(故障排查步骤)并结合CloudWatch Events触发自动化恢复(Lambda或自动扩缩)。
13.
答:主要费用包括EC2按时或按量实例费用、EBS存储与I/O费用、数据传输(出站)费用、ELB负载均衡费用、快照与S3存储费用、以及CloudWatch付费指标和日志存储。支付前用Cost Calculator预估并开启预算告警。
14.
答:选择Tokyo区域(AP-NORTHEAST-1)并尽量将客户端与实例放在同一或邻近区域;使用CloudFront或边缘缓存减少跨区访问;对数据库和缓存采用同AZ或跨AZ读写分离,并使用Placement Group优化同机架网络延迟。
15.
答:关键点是监控(CloudWatch)+告警(Alarm->SNS)+自动化响应(Auto Scaling/ Lambda)。设置多维度监控(CPU、内存、磁盘、应用响应码),为健康检查失败配置自动替换或回滚策略,并将告警通知到值班渠道与运维Runbook以便快速处置。