AI 共存的 QA 工具箱 — Copilot / Claude / ChatGPT 怎麼用、什麼不該用

「AI 工具一堆、不知道哪個適合 QA」是我最常被問的問題。不是工具越多越好、是用對位置才有用。這篇給你 QA 角度的完整工具地圖 + 實戰 workflow。

QA 一天能用 AI 的 10 個時機

mindmap
  root((QA 一天<br>AI 介入點))
    晨間
      讀 spec + 列澄清問題
      看昨晚 CI fail 分析
      stand-up 摘要
    寫 case
      從 spec 生草稿
      補 edge case
      檢查 case 完整度
    寫自動化
      Selector 建議
      補 fixture
      重構 POM
    Debug
      解 stack trace
      flaky test 分析
      重現步驟產生
    Review
      PR diff 重點
      Spec 改動影響
      Test plan review
    溝通
      Bug ticket 翻譯
      Sprint 報告
      Email 回覆
    Learning
      新工具入門
      新 API 用法
      讀別人 code

每個都對應不同 AI 工具,下面分類講。

5 種 AI 工具地圖

flowchart TD
    Type[5 種 AI 工具] --> A[1) Coding Copilot<br>寫 code 中介入]
    Type --> B[2) Chat LLM<br>對話、寫東西]
    Type --> C[3) Code Reviewer<br>PR 自動 review]
    Type --> D[4) 視覺 / 介面 AI<br>screenshot 比對]
    Type --> E[5) Agent / Auto-fix<br>自主完成任務]

    A --> A1[GitHub Copilot<br>Cursor<br>Continue<br>Codeium]
    B --> B1[Claude<br>ChatGPT<br>Gemini<br>Perplexity]
    C --> C1[CodeRabbit<br>Codium<br>Greptile]
    D --> D1[Applitools<br>Percy<br>Chromatic]
    E --> E1[Devin<br>Cline<br>Aider<br>OpenHands]

    style A fill:#06b6d4,color:#fff
    style B fill:#a855f7,color:#fff
    style C fill:#10b981,color:#fff
    style D fill:#f59e0b,color:#fff
    style E fill:#ef4444,color:#fff

1. Coding Copilot — 寫 code 時的副駕

推薦:Cursor 或 Continue(vs Copilot)

工具 強在 月費
GitHub Copilot 整合 GitHub、最普及 $10
Cursor Chat + Edit + Agent 一體、UX 最好 $20
Continue Open source、可接 local model 免費
Codeium 免費版功能多 免費
Cline / Roo Code VS Code agent、自主執行 免費(自帶 API key)

QA 用 Coding Copilot 的 5 個場景

// 場景 1: 寫 Page Object 框架
// 你打:"class LoginPage" + Tab
// AI 補全完整 POM 結構

// 場景 2: 補 selector
// 你打:"// click login button"
// AI 補:await page.getByRole('button', { name: 'Login' }).click();

// 場景 3: 補 edge case
// 你打:
test('login with valid credentials', () => { ... });
// 在這個 test 下按 Tab
// AI 自動生:
test('login with invalid password', ...);
test('login with empty fields', ...);
test('login with SQL injection attempt', ...);

// 場景 4: 重構
// 選取一段 spaghetti test、Cursor 按 Ctrl+K
// 寫 "refactor to use Page Object Model"

// 場景 5: 寫 jsdoc / docstring
// 寫完函式、Tab 自動補 documentation

不該用 Copilot 的時候

  • 🚫 業務邏輯判斷(沒上下文會錯)
  • 🚫 Domain-specific 規則(稅法 / 醫療 / 金融)
  • 🚫 Security-critical code(容易產生 vulnerability)

2. Chat LLM — 對話寫東西

模型選擇對照

flowchart TD
    Task[QA 任務] --> Choose{選哪個模型?}

    Choose --> C1["Spec review<br>(長文理解、深思考)"]
    Choose --> C2["寫 test case 草稿<br>(批量、格式化)"]
    Choose --> C3["快速答疑<br>(搜尋 + 答案)"]
    Choose --> C4["寫 code<br>(API / Playwright)"]
    Choose --> C5["翻譯<br>(中英)"]

    C1 --> M1[Claude Opus / Sonnet]
    C2 --> M2[Claude Sonnet / GPT-4]
    C3 --> M3[Perplexity / ChatGPT]
    C4 --> M4[Claude Sonnet / GPT-4]
    C5 --> M5[Claude / GPT]

    style M1 fill:#a855f7,color:#fff
    style M2 fill:#10b981,color:#fff
    style M3 fill:#06b6d4,color:#fff

我的個人配置

工具 用途 為什麼
Claude Spec review、寫文章、deep think 寫作好、思考鏈長
ChatGPT code、快速答 寬廣、便宜
Perplexity 找資料、找 reference 即時 web search
Gemini Google Workspace 整合 連 Gmail / Docs

QA 用 Chat 的高 ROI 場景

flowchart LR
    L[Chat LLM] --> S1[Spec review<br>兩段式 prompt]
    L --> S2[Test case 草稿]
    L --> S3[Bug 翻譯]
    L --> S4[PR description]
    L --> S5[Sprint 報告]
    L --> S6[1-on-1 議題準備]
    L --> S7[模擬面試]

    style L fill:#a855f7,color:#fff

延伸:Prompt 範本庫 含 14 個直接 copy 的 prompt。

反模式:什麼不該丟給 Chat

  • 🚫 公司機密 / 客戶資料 — 內容會被 train
  • 🚫 完整 source code — 同上
  • 🚫 個資 / PII — 法遵風險
  • 🚫 「請告訴我正確答案」 — LLM 會編造、要自己驗

安全做法

  • 用企業版(Anthropic for Work / ChatGPT Enterprise)— 不訓練
  • 自架 LLM(Llama / Mistral)跑 sensitive 資料
  • 把資料 anonymize 再丟

3. Code Reviewer — PR 自動 review

flowchart LR
    PR[Dev push PR] --> AR[AI Reviewer]
    AR --> AR1[抓 bug pattern]
    AR --> AR2[抓 security issue]
    AR --> AR3[抓 test coverage gap]
    AR --> AR4[建議 refactor]

    AR --> Human[QA + Senior 看 AI 留言<br>決定要不要採納]

    style AR fill:#10b981,color:#fff
    style Human fill:#06b6d4,color:#fff

工具比較

工具 強項 弱項
CodeRabbit PR review 完整、補 test 建議好 $15/month
Codium PR-Agent Open source、self-host 可 設定複雜
Greptile 跨 repo 理解
Sweep 自動寫 fix code Beta、不穩

QA 怎麼用 AI Reviewer

  1. 加 CodeRabbit 到團隊 GitHub repo
  2. PR 進來 → AI 自動留 review comment
  3. QA 看 AI 抓出來的點、決定要不要深入
  4. AI 留 100 個 comment、QA 抓出 5 個關鍵

節省 QA review 時間 50%

4. 視覺 / 介面 AI

自動視覺迴歸

flowchart LR
    PR[PR 改 UI] --> Build[Build 新版]
    Build --> Snap[拍 screenshot]
    Snap --> Diff{跟 baseline<br>diff?}
    Diff -->|有差| Review[人類 review]
    Review -->|預期內| Accept[更新 baseline]
    Review -->|bug| Reject[退回 PR]
    Diff -->|無| Pass[Pass]

    style Diff fill:#a855f7,color:#fff
    style Pass fill:#10b981,color:#fff
    style Reject fill:#ef4444,color:#fff

工具

工具 強項 月費(起跳)
Percy BrowserStack 整合 $39
Applitools AI 強、跨平台 $1,500(企業)
Chromatic Storybook 友善 $149
Playwright screenshot 內建免費 $0

新團隊:先用 Playwright snapshot(免費)、長大再 Percy。

5. Agent / Auto-fix — 自主完成任務

flowchart TD
    Agent[AI Agent] --> Cap[能做什麼]
    Cap --> Read[讀整個 codebase]
    Cap --> Plan[計畫任務]
    Cap --> Code[寫 code]
    Cap --> Test[跑 test]
    Cap --> Iter[失敗 → 重試]
    Cap --> PR[開 PR]

    Agent --> Risk[現實風險]
    Risk --> R1["錯誤累積<br>10 步後跑偏"]
    Risk --> R2["缺 context<br>不懂業務"]
    Risk --> R3["費用爆炸<br>一個任務 $5+"]

    style Agent fill:#ef4444,color:#fff
    style Risk fill:#f59e0b,color:#fff

工具

  • Devin(Cognition Labs)— 號稱自主 SWE、貴
  • Cline(VS Code)— 在你電腦自主跑
  • Aider(Terminal)— git-aware
  • OpenHands — Open source

QA 怎麼用 Agent

還不建議完全交給 agent。但可用:

  1. 跑 Cline 寫 boilerplate(POM 框架、fixture 設定)
  2. 跑 Aider 改大規模重構(rename、migration)
  3. NOT 用 agent 寫 production code

Agent 是 prototype 工具、不是 production 工具(目前)。

QA 一天的 AI 共存 workflow 範例

flowchart TB
    M1[09:00 進公司]
    M1 --> M2["09:00-09:30<br>Claude 摘要昨晚 CI / Slack<br>(用 Claude.ai workspace)"]
    M2 --> M3["09:30-10:00<br>Stand-up - 自己講"]

    M3 --> N1["10:00-12:00<br>Spec review<br>Claude Stage 1 + 2 prompt"]
    N1 --> N2["人工挑出 8 個關鍵問題給 PM"]

    N2 --> L1["12:00-13:00 午餐"]

    L1 --> A1["13:00-15:00<br>寫 test case<br>Claude 出草稿、自己 review"]
    A1 --> A2["15:00-17:00<br>寫自動化<br>Cursor copilot 加速"]

    A2 --> E1["17:00-17:30<br>PR review<br>看 CodeRabbit comment + 自己加"]
    E1 --> E2["17:30-18:00<br>寫 PR description<br>用 Claude 生 + 自己改"]

    style M2 fill:#a855f7,color:#fff
    style N1 fill:#a855f7,color:#fff
    style A1 fill:#a855f7,color:#fff
    style A2 fill:#06b6d4,color:#fff
    style E1 fill:#10b981,color:#fff
    style E2 fill:#a855f7,color:#fff

結果:以前 8 小時做的事、現在 5 小時做完、多 3 小時做探索性測試 + spec review 深入。

AI 增益的 5 個量化指標(建議追蹤)

1. Test case 寫作時間(從 spec → ready)
   AI 前: 平均 3 hr / story
   AI 後: 平均 1.5 hr / story
   省時 50%

2. Spec review 問題數
   AI 前: 平均 4 個
   AI 後: 平均 12 個(質也高)
   增加 3x

3. PR review 漏看率
   AI 前: 8%
   AI 後: 3%
   降 5%

4. Flaky test 修復時間
   AI 前: 平均 6 hr
   AI 後: 平均 2 hr
   省時 67%

5. 文件 / Email 寫作時間
   AI 前: 1.5 hr / day
   AI 後: 0.5 hr / day
   省時 67%

每月省 30+ 小時、相當於多一個半天

反模式:AI 共存的 7 個地雷

flowchart TD
    Anti[AI 反模式] --> A1["完全交給 AI<br>不 review 直接用"]
    Anti --> A2["丟公司機密"]
    Anti --> A3["生 case 全 copy 不刪"]
    Anti --> A4["拒絕用、覺得作弊"]
    Anti --> A5["只用一個工具<br>不混搭"]
    Anti --> A6["不更新 prompt<br>用爛 prompt"]
    Anti --> A7["AI 出錯就放棄整個 workflow"]

    style A1 fill:#ef4444,color:#fff
    style A2 fill:#ef4444,color:#fff
    style A3 fill:#ef4444,color:#fff
    style A4 fill:#ef4444,color:#fff
    style A5 fill:#ef4444,color:#fff
    style A6 fill:#ef4444,color:#fff
    style A7 fill:#ef4444,color:#fff

1. 完全交給 AI

❌ 「Claude 寫完我就 push、反正 CI 會抓」
✅ 「Claude 出草稿、我 review、加 domain knowledge、push」

2. 丟公司機密

❌ 把 source code 整份貼 ChatGPT
✅ 用企業版 / self-host / 把 sensitive 部分抽掉

3. 不刪 AI 廢話

❌ AI 生 30 個 case 全部丟 testRail
✅ AI 生 30 個、刪 18 個重複、補 5 個 domain case = 17 個高品質 case

4. 拒絕用、覺得作弊

這是這時代最大的競爭劣勢。同事用、你不用 = 一天差 3 小時 = 一年差 750 小時。

5. 只用一個工具

:「我只用 Copilot」 :Spec → Claude、Code → Cursor、PR review → CodeRabbit、查資料 → Perplexity

6. 不更新 prompt

LLM 升級快、舊 prompt 出來效果差。每月 review 一次自己常用的 prompt

7. 出錯就放棄

❌ 「Claude 上次寫錯 endpoint、我以後不用 AI 了」
✅ 「我發現 prompt 該補 'don't hallucinate API endpoints'、調整後 OK」

給 QA 學 AI 工具的順序

flowchart LR
    M0[Month 0] --> M1[Claude / ChatGPT<br>免費版]
    M1 --> M2[GitHub Copilot<br>付費]
    M2 --> M3[加 Cursor 取代 VSCode]
    M3 --> M4[加 Perplexity 找資料]
    M4 --> M5[團隊用 CodeRabbit]
    M5 --> M6[視覺迴歸 Percy]
    M6 --> M7[企業版 Anthropic / OpenAI]

    style M1 fill:#06b6d4,color:#fff
    style M3 fill:#10b981,color:#fff
    style M5 fill:#a855f7,color:#fff
    style M7 fill:#f59e0b,color:#fff

每個月加一個工具、不要一次塞 5 個。

紅線:絕對不能交給 AI 的 5 件事

  1. 判斷 release 該不該上 — 商業風險
  2. Customer support escalation — 同理心
  3. Bug 的 severity / priority 最終決定 — 業務優先級
  4. 跟同事 1-on-1 — 人類關係
  5. 法遵 / 法律相關判斷 — 責任歸屬

給 QA 的 5 句

  1. AI 是放大器、不是替代品
  2. 越會 review AI 輸出、越值錢
  3. 每月固定試 1 個新工具
  4. Prompt 寫得好、output 強 3 倍
  5. 判斷力是你最後堡壘 — 永遠不交給 AI

最後

QA 用 AI 不是「會用就贏」、是「用對位置才贏」。亂用 → 出包;完全不用 → 落後。從今天起每天強制留 30 分鐘試 AI 工具、3 個月後你會發現「沒 AI 我寫不下去了」 — 那是好事。判斷力留給你、執行力交給工具。

延伸: - Prompt 範本庫 - 用 LLM 生 Test Case - 用 LLM 跑 Spec Review