English
AI agents are everywhere in 2026, but most people don’t need a “fully autonomous worker.” What you need is a reliable helper that saves time without turning into a new project to manage.
This week, Manus published an honest head-to-head test of five AI agents for small businesses. I’m going to translate that buzz into something you can do today: a simple evaluation workflow, copy-paste prompts, and a safe rollout plan.
Who this is for
- You run a small team (or you’re a team of one) and your to-do list is mostly “repeatable operations.”
- You’ve tried chat-style AI, but you want something that can follow a process (agent = AI that executes multi-step tasks).
- You don’t want to bet your whole workflow on one tool and then regret it two weeks later.
What changed this week (in normal words)
Manus’ article is valuable because it’s not “agents are the future.” It’s “here’s what actually worked when I tested five options.” The big takeaway: most agents look impressive in demos, but the winners are the ones that handle messy real-world inputs and produce outputs you can reuse (checklists, drafts, task lists, tagged notes, SOPs).
So instead of debating brands, we’ll focus on the part you control: your test cases, your success criteria, and how you roll an agent into your day-to-day.
The 30-minute agent test: one scorecard, three tasks
Don’t start by asking “Which agent is best?” Start by asking “Which agent reliably does my work?” Here’s a fast test that doesn’t require technical setup.
Step 1 (5 min): Pick one process that repeats weekly.
- Examples: lead follow-ups, inventory checks, customer FAQ updates, social reply triage, competitor monitoring.
- Rule: it must have a clear “done” state.
Step 2 (5 min): Prepare a tiny “messy pack.” Agents fail on ambiguity, so give them realistic inputs:
- 3 short messages (email or chat) with incomplete info
- 1 policy snippet (refund rules, delivery zones, etc.)
- 1 example of a “good output” from the past (your gold standard)
Step 3 (15 min): Run three tasks and score them. Use the same prompts in each agent.
Task A: turn chaos into a plan (triage + next actions)
You are my operations assistant.
Goal: turn the input into an action plan I can execute today.
Output format:
1) Summary in 3 bullets
2) Questions you need answered (max 5)
3) A prioritized task list with owners (me / teammate) and time estimates
4) A “copy-ready” message I can send to the customer
Constraints:
- If information is missing, ask a question instead of guessing.
- Keep it short and operational.
Input:
[PASTE MESSAGES + POLICY SNIPPET HERE]
Task B: create a reusable checklist (SOP = standard operating procedure)
Create a reusable SOP for this workflow.
Include:
- Trigger (when to run it)
- Required inputs
- Step-by-step checklist
- Common failure cases and how to handle them
- Definition of done
Workflow description:
[DESCRIBE YOUR WEEKLY PROCESS IN 5-8 LINES]
Task C: quality control (catch errors before you ship)
Act as a QA reviewer.
Check the draft below against the policy.
Return:
- What is correct
- What violates the policy (quote the line)
- A corrected version
- 3 edge cases to test next time
Policy:
[PASTE POLICY]
Draft:
[PASTE AGENT OUTPUT OR YOUR CURRENT DRAFT]
Step 4 (5 min): Score with a simple rubric. Give each agent 1、5 points:
- Followed format (did it respect structure?)
- Asked good questions (not too many, not too few)
- Reusability (can you paste it into your workflow?)
- Error rate (did it invent facts?)
- Time saved (your gut feel, but be honest)
What “actually works” usually looks like
From my experience using agents daily, the winners tend to share three behaviors:
- They don’t roleplay. They ask for missing info instead of confidently guessing.
- They output artifacts. Not just “advice,” but checklists, message templates, and tagged tasks.
- They degrade gracefully. When inputs are messy, they still give you a usable next step.
The biggest red flag is an agent that looks smart but can’t stick to an output format. In real operations, formatting is not aesthetics. It’s how you copy, assign, and reuse.
Can you use it for free? (pricing in plain terms)
Most AI agents in 2026 offer one of these models: a free tier with limits (messages/runs), a monthly plan per seat, and sometimes usage-based pricing for “runs.” The practical advice is:
- Use the free tier to run the 30-minute test above.
- Only pay once one workflow is proven and repeatable.
- If you’re unsure, start with the cheapest plan for one person for two weeks and measure time saved.
My rollout rule: one workflow, one week, one owner
If you want agents to feel “easy,” don’t deploy them everywhere. Pick one workflow, commit for one week, and assign one owner (you) to maintain the prompts and templates. After a week, you’ll know if it’s a helper or a distraction.
Try the scorecard today with two agents you’re curious about. If one of them consistently produces reusable outputs, you’ve found your first “AI hire.”
日本語
AIエージェント、2026年は本当に選択肢が多いですよね。でも多くの人が欲しいのは「完全自律の同僚」じゃなくて、毎週の同じ作業を、ちゃんと前に進めてくれる相棒なんです。
今回のニュースでは Manus Blog が「小さな会社向けにAIエージェントを5つ試したら、結局どれが使えたか」をかなり正直にまとめていました。この記事ではブランド論争は置いて、今日からできる選び方に落としていきます。
こんな人におすすめ
- 毎週くり返す作業が多くて、気づくと“対応”だけで1日が終わる
- チャットAIは触ったけど、もう一歩「手順どおりに進めてほしい」と感じている
- ツール選びで消耗したくない。買う前にサクッと見極めたい
今回のニュースを「使う側の言葉」にすると
Manusの記事が良いのは「エージェントがすごい」じゃなくて「実際に小規模ビジネスの雑多な現場で、何が動いたか」に寄っているところなんです。
結論っぽく言うと、デモが派手なエージェントより、そのまま再利用できる成果物(チェックリスト、テンプレ、タスクリスト、運用手順=SOP(標準手順書))を安定して出せるやつが勝ち、という話でした。
30分でわかる:AIエージェントの選び方(スコアカード方式)
おすすめは「どれが最強?」から入らないことです。代わりに「自分の作業を、事故らずに前に進めるか」で見ます。手順はこれだけ。
手順1(5分):毎週くり返す作業を1つ決める
- 例:問い合わせ一次対応、見込み客フォロー、在庫チェック、FAQ更新、競合ウォッチ
- ポイント:「終わった状態」が明確なものにします
手順2(5分):わざと“現場っぽい材料”を用意する
エージェントが転びやすいのは曖昧さなので、ここでちゃんと現実寄せします。
- 短いメッセージ3つ(メールでもチャットでもOK、情報が抜けてるやつが良い)
- 社内ルールや方針の一部(返品ルール、対応時間、配送条件など)
- 過去に自分が作った「良いアウトプット」1つ(正解例)
手順3(15分):同じ3つのタスクを投げて比べる
ここが肝です。エージェントごとに頼み方を変えると比較できないので、同じプロンプトでいきます。
タスクA:ぐちゃぐちゃを整理して「今日やること」にする(要約+次アクション)
あなたは私の業務アシスタントです。
目的:入力から、今日実行できるアクションプランに変換してください。
出力形式:
1) 3つの箇条書きで要約
2) 足りない情報への質問(最大5つ)
3) 優先度つきタスクリスト(担当:自分/チーム、所要時間つき)
4) 顧客にそのまま送れる返信文
制約:
- 情報が足りない場合は推測せず、質問してください。
- 短く、実務的に。
入力:
[メッセージ+ルールの抜粋を貼る]
タスクB:再利用できるチェックリスト化(SOP(標準手順書))
この業務を、再利用できるSOP(標準手順書)にしてください。
含めること:
- 実行トリガー(いつやるか)
- 必要な入力
- 手順チェックリスト
- つまずきポイントと対処
- 完了条件(Definition of done)
業務の説明:
[毎週の作業を5〜8行で説明]
タスクC:品質チェック(ルール違反や言い間違いを潰す)
あなたはQA(品質チェック担当)です。
下の文章がルールに合っているか確認してください。
返すもの:
- 良い点
- ルール違反(該当箇所を引用)
- 修正版
- 次回テストすべき境界ケースを3つ
ルール:
[ポリシー貼る]
文章:
[エージェントの出力 or 自分の下書きを貼る]
手順4(5分):5項目だけ採点する
- 指定した形式を守る(地味だけど超重要なんです)
- 質問の質(聞くべきことを、聞きすぎずに聞ける)
- 再利用しやすさ(テンプレとして残せる)
- 作り話しないか(ハルシネーション=それっぽい嘘)
- 体感の時短(正直ベースでOK)
「本当に使える」エージェントの共通点
毎日使ってる側の感覚だと、当たりはだいたいこの3つを満たします。
- 演技しない:分からないところを確認してくる(自信満々に推測しない)
- 成果物が残る:助言より、チェックリストや返信テンプレを出す
- 入力が雑でも崩れない:最低限「次に何をすべきか」だけは形にする
逆に危ないのは、文章は上手いのに出力の型を守れないタイプ。実務だと「コピペして使える」が正義なので、ここで差が出ます。
無料で使える?料金は?(2026年4月時点の考え方)
多くのAIエージェントは、無料枠(回数や実行数に制限)→月額(席数)→実行課金(runs)みたいな形です。おすすめの考え方はシンプルで、
- まず無料枠で、上の「30分テスト」を回す
- 1つの業務が“毎週ちゃんと回る”と確認できたら課金
- 迷ったら最安プランを2週間だけ使って、時短を見積もる
私の運用ルール:1業務、1週間、1人が面倒を見る
エージェントって、広げるほど管理が増えます。なので最初は1業務だけ、1週間だけ、プロンプトとテンプレを整える担当は自分にするのが一番ラクなんです。これで「便利」か「邪魔」かがすぐ分かります。
今日やるなら、気になってるエージェントを2つ選んで、このスコアカードで比べてみてください。勝った方が、あなたの最初の“AI採用”です。
References / 参考リンク
- I Tested 5 AI Agents for Small Businesses (Here is What Actually Works)(Manus Blog)
- Meet Noscroll, an AI bot that does your doomscrolling for you(TechCrunch AI)
- 5 Reasons to Think Twice Before Using ChatGPT、or Any Chatbot、for Financial Advice(Wired AI)
Photo by Myriam Jessier on Unsplash

