AI 共存的 QA 工具箱 — Copilot / Claude / ChatGPT 怎麼用、什麼不該用
「AI 工具一堆、不知道哪個適合 QA」是我最常被問的問題。不是工具越多越好、是用對位置才有用。這篇給你 QA 角度的完整工具地圖 + 實戰 workflow。
QA 一天能用 AI 的 10 個時機
mindmap
root((QA 一天<br>AI 介入點))
晨間
讀 spec + 列澄清問題
看昨晚 CI fail 分析
stand-up 摘要
寫 case
從 spec 生草稿
補 edge case
檢查 case 完整度
寫自動化
Selector 建議
補 fixture
重構 POM
Debug
解 stack trace
flaky test 分析
重現步驟產生
Review
PR diff 重點
Spec 改動影響
Test plan review
溝通
Bug ticket 翻譯
Sprint 報告
Email 回覆
Learning
新工具入門
新 API 用法
讀別人 code
每個都對應不同 AI 工具,下面分類講。
5 種 AI 工具地圖
flowchart TD
Type[5 種 AI 工具] --> A[1) Coding Copilot<br>寫 code 中介入]
Type --> B[2) Chat LLM<br>對話、寫東西]
Type --> C[3) Code Reviewer<br>PR 自動 review]
Type --> D[4) 視覺 / 介面 AI<br>screenshot 比對]
Type --> E[5) Agent / Auto-fix<br>自主完成任務]
A --> A1[GitHub Copilot<br>Cursor<br>Continue<br>Codeium]
B --> B1[Claude<br>ChatGPT<br>Gemini<br>Perplexity]
C --> C1[CodeRabbit<br>Codium<br>Greptile]
D --> D1[Applitools<br>Percy<br>Chromatic]
E --> E1[Devin<br>Cline<br>Aider<br>OpenHands]
style A fill:#06b6d4,color:#fff
style B fill:#a855f7,color:#fff
style C fill:#10b981,color:#fff
style D fill:#f59e0b,color:#fff
style E fill:#ef4444,color:#fff
1. Coding Copilot — 寫 code 時的副駕
推薦:Cursor 或 Continue(vs Copilot)
| 工具 | 強在 | 月費 |
|---|---|---|
| GitHub Copilot | 整合 GitHub、最普及 | $10 |
| Cursor | Chat + Edit + Agent 一體、UX 最好 | $20 |
| Continue | Open source、可接 local model | 免費 |
| Codeium | 免費版功能多 | 免費 |
| Cline / Roo Code | VS Code agent、自主執行 | 免費(自帶 API key) |
QA 用 Coding Copilot 的 5 個場景
// 場景 1: 寫 Page Object 框架
// 你打:"class LoginPage" + Tab
// AI 補全完整 POM 結構
// 場景 2: 補 selector
// 你打:"// click login button"
// AI 補:await page.getByRole('button', { name: 'Login' }).click();
// 場景 3: 補 edge case
// 你打:
test('login with valid credentials', () => { ... });
// 在這個 test 下按 Tab
// AI 自動生:
test('login with invalid password', ...);
test('login with empty fields', ...);
test('login with SQL injection attempt', ...);
// 場景 4: 重構
// 選取一段 spaghetti test、Cursor 按 Ctrl+K
// 寫 "refactor to use Page Object Model"
// 場景 5: 寫 jsdoc / docstring
// 寫完函式、Tab 自動補 documentation
不該用 Copilot 的時候
- 🚫 業務邏輯判斷(沒上下文會錯)
- 🚫 Domain-specific 規則(稅法 / 醫療 / 金融)
- 🚫 Security-critical code(容易產生 vulnerability)
2. Chat LLM — 對話寫東西
模型選擇對照
flowchart TD
Task[QA 任務] --> Choose{選哪個模型?}
Choose --> C1["Spec review<br>(長文理解、深思考)"]
Choose --> C2["寫 test case 草稿<br>(批量、格式化)"]
Choose --> C3["快速答疑<br>(搜尋 + 答案)"]
Choose --> C4["寫 code<br>(API / Playwright)"]
Choose --> C5["翻譯<br>(中英)"]
C1 --> M1[Claude Opus / Sonnet]
C2 --> M2[Claude Sonnet / GPT-4]
C3 --> M3[Perplexity / ChatGPT]
C4 --> M4[Claude Sonnet / GPT-4]
C5 --> M5[Claude / GPT]
style M1 fill:#a855f7,color:#fff
style M2 fill:#10b981,color:#fff
style M3 fill:#06b6d4,color:#fff
我的個人配置
| 工具 | 用途 | 為什麼 |
|---|---|---|
| Claude | Spec review、寫文章、deep think | 寫作好、思考鏈長 |
| ChatGPT | code、快速答 | 寬廣、便宜 |
| Perplexity | 找資料、找 reference | 即時 web search |
| Gemini | Google Workspace 整合 | 連 Gmail / Docs |
QA 用 Chat 的高 ROI 場景
flowchart LR
L[Chat LLM] --> S1[Spec review<br>兩段式 prompt]
L --> S2[Test case 草稿]
L --> S3[Bug 翻譯]
L --> S4[PR description]
L --> S5[Sprint 報告]
L --> S6[1-on-1 議題準備]
L --> S7[模擬面試]
style L fill:#a855f7,color:#fff
延伸:Prompt 範本庫 含 14 個直接 copy 的 prompt。
反模式:什麼不該丟給 Chat
- 🚫 公司機密 / 客戶資料 — 內容會被 train
- 🚫 完整 source code — 同上
- 🚫 個資 / PII — 法遵風險
- 🚫 「請告訴我正確答案」 — LLM 會編造、要自己驗
安全做法:
- 用企業版(Anthropic for Work / ChatGPT Enterprise)— 不訓練
- 自架 LLM(Llama / Mistral)跑 sensitive 資料
- 把資料 anonymize 再丟
3. Code Reviewer — PR 自動 review
flowchart LR
PR[Dev push PR] --> AR[AI Reviewer]
AR --> AR1[抓 bug pattern]
AR --> AR2[抓 security issue]
AR --> AR3[抓 test coverage gap]
AR --> AR4[建議 refactor]
AR --> Human[QA + Senior 看 AI 留言<br>決定要不要採納]
style AR fill:#10b981,color:#fff
style Human fill:#06b6d4,color:#fff
工具比較
| 工具 | 強項 | 弱項 |
|---|---|---|
| CodeRabbit | PR review 完整、補 test 建議好 | $15/month |
| Codium PR-Agent | Open source、self-host 可 | 設定複雜 |
| Greptile | 跨 repo 理解 | 貴 |
| Sweep | 自動寫 fix code | Beta、不穩 |
QA 怎麼用 AI Reviewer
- 加 CodeRabbit 到團隊 GitHub repo
- PR 進來 → AI 自動留 review comment
- QA 看 AI 抓出來的點、決定要不要深入
- AI 留 100 個 comment、QA 抓出 5 個關鍵
節省 QA review 時間 50%。
4. 視覺 / 介面 AI
自動視覺迴歸
flowchart LR
PR[PR 改 UI] --> Build[Build 新版]
Build --> Snap[拍 screenshot]
Snap --> Diff{跟 baseline<br>diff?}
Diff -->|有差| Review[人類 review]
Review -->|預期內| Accept[更新 baseline]
Review -->|bug| Reject[退回 PR]
Diff -->|無| Pass[Pass]
style Diff fill:#a855f7,color:#fff
style Pass fill:#10b981,color:#fff
style Reject fill:#ef4444,color:#fff
工具
| 工具 | 強項 | 月費(起跳) |
|---|---|---|
| Percy | BrowserStack 整合 | $39 |
| Applitools | AI 強、跨平台 | $1,500(企業) |
| Chromatic | Storybook 友善 | $149 |
| Playwright screenshot | 內建免費 | $0 |
新團隊:先用 Playwright snapshot(免費)、長大再 Percy。
5. Agent / Auto-fix — 自主完成任務
flowchart TD
Agent[AI Agent] --> Cap[能做什麼]
Cap --> Read[讀整個 codebase]
Cap --> Plan[計畫任務]
Cap --> Code[寫 code]
Cap --> Test[跑 test]
Cap --> Iter[失敗 → 重試]
Cap --> PR[開 PR]
Agent --> Risk[現實風險]
Risk --> R1["錯誤累積<br>10 步後跑偏"]
Risk --> R2["缺 context<br>不懂業務"]
Risk --> R3["費用爆炸<br>一個任務 $5+"]
style Agent fill:#ef4444,color:#fff
style Risk fill:#f59e0b,color:#fff
工具
- Devin(Cognition Labs)— 號稱自主 SWE、貴
- Cline(VS Code)— 在你電腦自主跑
- Aider(Terminal)— git-aware
- OpenHands — Open source
QA 怎麼用 Agent
還不建議完全交給 agent。但可用:
- 跑 Cline 寫 boilerplate(POM 框架、fixture 設定)
- 跑 Aider 改大規模重構(rename、migration)
- NOT 用 agent 寫 production code
Agent 是 prototype 工具、不是 production 工具(目前)。
QA 一天的 AI 共存 workflow 範例
flowchart TB
M1[09:00 進公司]
M1 --> M2["09:00-09:30<br>Claude 摘要昨晚 CI / Slack<br>(用 Claude.ai workspace)"]
M2 --> M3["09:30-10:00<br>Stand-up - 自己講"]
M3 --> N1["10:00-12:00<br>Spec review<br>Claude Stage 1 + 2 prompt"]
N1 --> N2["人工挑出 8 個關鍵問題給 PM"]
N2 --> L1["12:00-13:00 午餐"]
L1 --> A1["13:00-15:00<br>寫 test case<br>Claude 出草稿、自己 review"]
A1 --> A2["15:00-17:00<br>寫自動化<br>Cursor copilot 加速"]
A2 --> E1["17:00-17:30<br>PR review<br>看 CodeRabbit comment + 自己加"]
E1 --> E2["17:30-18:00<br>寫 PR description<br>用 Claude 生 + 自己改"]
style M2 fill:#a855f7,color:#fff
style N1 fill:#a855f7,color:#fff
style A1 fill:#a855f7,color:#fff
style A2 fill:#06b6d4,color:#fff
style E1 fill:#10b981,color:#fff
style E2 fill:#a855f7,color:#fff
結果:以前 8 小時做的事、現在 5 小時做完、多 3 小時做探索性測試 + spec review 深入。
AI 增益的 5 個量化指標(建議追蹤)
1. Test case 寫作時間(從 spec → ready)
AI 前: 平均 3 hr / story
AI 後: 平均 1.5 hr / story
省時 50%
2. Spec review 問題數
AI 前: 平均 4 個
AI 後: 平均 12 個(質也高)
增加 3x
3. PR review 漏看率
AI 前: 8%
AI 後: 3%
降 5%
4. Flaky test 修復時間
AI 前: 平均 6 hr
AI 後: 平均 2 hr
省時 67%
5. 文件 / Email 寫作時間
AI 前: 1.5 hr / day
AI 後: 0.5 hr / day
省時 67%
每月省 30+ 小時、相當於多一個半天。
反模式:AI 共存的 7 個地雷
flowchart TD
Anti[AI 反模式] --> A1["完全交給 AI<br>不 review 直接用"]
Anti --> A2["丟公司機密"]
Anti --> A3["生 case 全 copy 不刪"]
Anti --> A4["拒絕用、覺得作弊"]
Anti --> A5["只用一個工具<br>不混搭"]
Anti --> A6["不更新 prompt<br>用爛 prompt"]
Anti --> A7["AI 出錯就放棄整個 workflow"]
style A1 fill:#ef4444,color:#fff
style A2 fill:#ef4444,color:#fff
style A3 fill:#ef4444,color:#fff
style A4 fill:#ef4444,color:#fff
style A5 fill:#ef4444,color:#fff
style A6 fill:#ef4444,color:#fff
style A7 fill:#ef4444,color:#fff
1. 完全交給 AI
❌ 「Claude 寫完我就 push、反正 CI 會抓」
✅ 「Claude 出草稿、我 review、加 domain knowledge、push」
2. 丟公司機密
❌ 把 source code 整份貼 ChatGPT
✅ 用企業版 / self-host / 把 sensitive 部分抽掉
3. 不刪 AI 廢話
❌ AI 生 30 個 case 全部丟 testRail
✅ AI 生 30 個、刪 18 個重複、補 5 個 domain case = 17 個高品質 case
4. 拒絕用、覺得作弊
這是這時代最大的競爭劣勢。同事用、你不用 = 一天差 3 小時 = 一年差 750 小時。
5. 只用一個工具
錯:「我只用 Copilot」 對:Spec → Claude、Code → Cursor、PR review → CodeRabbit、查資料 → Perplexity
6. 不更新 prompt
LLM 升級快、舊 prompt 出來效果差。每月 review 一次自己常用的 prompt。
7. 出錯就放棄
❌ 「Claude 上次寫錯 endpoint、我以後不用 AI 了」
✅ 「我發現 prompt 該補 'don't hallucinate API endpoints'、調整後 OK」
給 QA 學 AI 工具的順序
flowchart LR
M0[Month 0] --> M1[Claude / ChatGPT<br>免費版]
M1 --> M2[GitHub Copilot<br>付費]
M2 --> M3[加 Cursor 取代 VSCode]
M3 --> M4[加 Perplexity 找資料]
M4 --> M5[團隊用 CodeRabbit]
M5 --> M6[視覺迴歸 Percy]
M6 --> M7[企業版 Anthropic / OpenAI]
style M1 fill:#06b6d4,color:#fff
style M3 fill:#10b981,color:#fff
style M5 fill:#a855f7,color:#fff
style M7 fill:#f59e0b,color:#fff
每個月加一個工具、不要一次塞 5 個。
紅線:絕對不能交給 AI 的 5 件事
- 判斷 release 該不該上 — 商業風險
- Customer support escalation — 同理心
- Bug 的 severity / priority 最終決定 — 業務優先級
- 跟同事 1-on-1 — 人類關係
- 法遵 / 法律相關判斷 — 責任歸屬
給 QA 的 5 句
- AI 是放大器、不是替代品
- 越會 review AI 輸出、越值錢
- 每月固定試 1 個新工具
- Prompt 寫得好、output 強 3 倍
- 判斷力是你最後堡壘 — 永遠不交給 AI
最後
QA 用 AI 不是「會用就贏」、是「用對位置才贏」。亂用 → 出包;完全不用 → 落後。從今天起每天強制留 30 分鐘試 AI 工具、3 個月後你會發現「沒 AI 我寫不下去了」 — 那是好事。判斷力留給你、執行力交給工具。
延伸: - Prompt 範本庫 - 用 LLM 生 Test Case - 用 LLM 跑 Spec Review