🧠

AI 輔助 QA

用 LLM 生 test case、視覺迴歸 AI、Prompt 範本

📚 全部文章（17）

2026-07-27 #llm-as-judge#adversarial-verification#ai-qa#production-ai#trust-boundary

AI 判斷不可信怎麼辦 — 生產環境的對抗驗證與誤判稽核

讓 AI 的判斷可信到敢寫進正式資料庫、甚至影響績效，靠的不是更好的 prompt。這篇拆解一套 production 級的四層信任機制：信任分級、多視角對抗驗證、誤判系統性稽核、破壞性寫入保護，附一次修 66 張誤判、兩層裁決擋掉 4/6 過度開火的真實數字。

2026-06-23 #pr-review#code-review#regression#coderabbit#qa-ai

AI 加速 PR / Code Review — QA 怎麼用 AI 抓 Regression 風險

QA 不寫 code 也要 review PR。這篇教你用 AI 跑 PR review:三層分工（AI 抓語法、你抓風險）、用 LLM 算 diff 的 regression blast radius、找漏掉的 test、CodeRabbit 設定、以及別被 100 條 nitpick 淹沒的反模式。

2026-06-23 #llm-comparison#claude#chatgpt#gemini#copilot#cursor

ChatGPT vs Claude vs Gemini vs Copilot for QA — 2026 實戰選擇指南

給 QA 工程師的 LLM 工具完整對比。Claude vs ChatGPT vs Gemini vs Copilot vs Cursor 在 spec review / test case / code / debug 各場景實測、月費 vs 產出對比、安全紅線、組合配置建議。

2026-06-23 #ai-workflow#daily-routine#productivity#llm#qa-productivity

QA 工程師的 AI Workflow Daily Routine — 一天 8 小時怎麼用 AI 多省 4 小時

給 QA 工程師的 AI 工具實戰 daily routine。從晨間 stand-up 到下班 PR review、9 個關鍵時機用對 AI、實測每天省 3-4 小時、保留判斷力給高價值工作。

2026-06-23 #ai-generated-tests#test-review#trust-boundary#mutation-testing#qa-ai

AI 寫的 Test 怎麼信任 — QA 的 Review SOP 與信任邊界

AI 幫你生的 test case 跟自動化 code 到底能不能信？這篇給 QA 一套信任分級、7 種「綠燈但沒用」的假測試、5 步 review SOP、用 mutation testing 驗證測試真的有測、以及該守的紅線。

2026-06-18 #ai-qa#claude-code#playwright#github-actions#workflow#automation#2026

AI 輔助 QA 工作流 2026 — Claude Code + Playwright + GitHub Actions 完整 SOP

從寫 spec 到自動化測試的 AI 整合工作流。Claude Code 撰寫測試、Playwright 執行、GitHub Actions CI 串接，附完整 prompt 範本與失敗除錯流程。

2026-06-18 #test-data#synthetic-data#llm-data-gen#faker#privacy

AI Test Data Generation — 用 LLM 生 realistic 假資料的完整 workflow

用 LLM 生 test data 的完整指南。Synthetic data vs Faker、Domain-aware generation、Edge case coverage、Privacy-safe production sampling、Schema-aware、Cost optimization、CI 整合。

2026-06-18 #red-team#llm-security#jailbreak#prompt-injection#owasp-llm

LLM Red Teaming for QA — 主動攻擊測 AI 安全 / 越獄 / 偏見 / 資料外洩

LLM Red Teaming 完整 QA 指南。Prompt injection / Jailbreak / 資料外洩 / Bias 測試方法、OWASP Top 10 for LLM、自動化 red team 工具（Promptfoo / Garak）、CI 整合。

2026-06-18 #multi-modal#vision-llm#computer-use#gpt-4v#claude-vision

Multi-modal AI Testing — Vision + Audio + Text 跨模態 LLM 怎麼測

多模態 AI 系統測試完整指南。GPT-4V / Claude Vision / Computer Use 測試方法、跨模態幻覺、影像 OCR / 圖表理解 / 螢幕擷取 agent、評估指標、CI 整合。

2026-06-17 #self-healing#ai-selector#mabl#functionize#llm-tests

Self-healing Tests with LLM — AI 自動修壞掉的 Selector

Self-healing test 完整指南。LLM 自動修壞掉的 selector、Mabl / Functionize 比較、自建方案、CI 整合、何時該用 / 不該用、與傳統 selector 策略對比。

2026-06-17 #ai-code#copilot#cursor#vibe-coding#code-quality

AI 生成 Code 怎麼測 — Copilot / Cursor 寫的 Code 給 QA 的新挑戰

GitHub Copilot / Cursor / Claude Code 等 AI 工具產出的 code 風險與測試策略。Hallucination 模式、Security 漏洞、Edge case 漏洞、隱藏的相依性、QA 的新角色。

2026-06-13 #ai-agent#tool-calling#autonomous#llm-agent#evaluation

AI Agent 系統測試 — 自主執行 / 工具呼叫 / 多步推理的 QA 策略

測試 AI Agent 完整方法。Tool calling 驗證、Trajectory 評估、Failure mode 分類、無限迴圈防止、成本上限、安全 sandbox、Multi-agent 協作測試。

2026-06-13 #ai-tools#copilot#claude#chatgpt#qa-workflow

AI 共存的 QA 工具箱 — Copilot / Claude / ChatGPT 怎麼用、什麼不該用

QA 工程師的完整 AI 工具地圖。Coding Copilot、LLM Chat、AI 視覺迴歸、AI debugger、自動 PR review 各自適合什麼。實戰 workflow + 限制 + 紅線。

2026-06-13 #llm-evaluation#ai-testing#eval-set#llm-judge#regression

LLM Evaluation Testing — 怎麼測 AI 是不是真的對？評估指標完整指南

LLM 系統評估完整方法。Eval set 設計、4 種自動評估指標（BLEU/ROUGE/Embedding/LLM-as-judge）、Human review 流程、回歸防漂移、CI 整合。

2026-06-13 #rag#retrieval#llm#knowledge-base#evaluation

RAG 系統測試 — Retrieval / Augmentation / Generation 三層完整 QA 流程

RAG (Retrieval-Augmented Generation) 系統完整測試指南。Retrieval 評估（recall/precision）、Chunking 策略測試、Citation 驗證、幻覺偵測、知識庫漂移。

2026-06-09 #llm#spec-review#prompt#claude#ai-qa

用 LLM 跑 Spec Review — 兩段式 Prompt 把模糊需求釣出來

把 Spec review checklist 工具化。用 Claude / ChatGPT 兩段式 prompt 先列「需澄清」、再列「邊界與漏洞」，配合人工判讀流程。

2026-06-09 #llm#claude#prompt#test-case#ai-qa

用 LLM 生 Test Case — Prompt 範本、品質檢核、實務踩雷

把 Claude / ChatGPT 變成測試案例產生器。從 spec 到 test case 的 prompt 範本、輸出品質檢核、什麼能交給 AI、什麼不能。