Giải phẫu kiến trúc một AI Agent: LLM, bộ nhớ, tools và vòng lặp planning (AI Agent cho doanh nghiệp

Đây là Kỳ 2 của loạt bài 'AI Agent cho doanh nghiệp'. Ở Kỳ 1, chúng ta đã vạch ranh giới giữa một AI Agent và chatbot/RPA truyền thống: thay vì chạy theo một kịch bản cố định, agent nhận một mục tiêu rồi tự nghĩ ra các bước để hoàn thành. Lần này, ta sẽ 'mở nắp capo' và xem xét bốn thành phần cốt lõi giúp một agent vận hành.

Tính đến năm 2026, ngành đã chốt lại một công thức chung: Agent = LLM + Bộ nhớ (Memory) + Planning + Sử dụng công cụ (Tools). Và thứ kết nối cả bốn lại với nhau lúc chạy — vòng lặp agent (agent loop) — mới chính là trái tim của hệ thống. Hãy đi lần lượt.

1. LLM core: 'bộ não' của agent

Ở trung tâm là một mô hình ngôn ngữ lớn (LLM). Khác biệt mấu chốt so với chat thông thường: ở đây LLM đóng vai trò 'nhạc trưởng' quyết định 'làm gì tiếp theo' ở mỗi bước. Nó không chỉ sinh ra câu trả lời, mà còn suy luận xem nên gọi công cụ nào, vì sao, đọc kết quả rồi quyết định nước đi kế tiếp.

Với doanh nghiệp, việc chọn mô hình quyết định cả chất lượng lẫn chi phí. 'Model routing' — dùng mô hình mạnh cho suy luận phức tạp và mô hình nhẹ cho tác vụ lặp đi lặp lại — đang trở thành chuẩn thực hành năm 2026. Hãy nhớ: độ thông minh của lõi đặt ra giới hạn trên cho cả agent.

2. Bộ nhớ: kiến trúc hai tầng

Bản thân LLM chỉ có 'cửa sổ ngữ cảnh' (context window) làm bộ nhớ tạm, và quên sạch khi phiên kết thúc. Vì vậy ta gắn thêm một tầng bộ nhớ bên ngoài. Năm 2026, bộ nhớ không còn là thứ 'thêm vào sau' mà đã thành thành phần cốt lõi, được benchmark và đánh giá độc lập.

Bộ nhớ ngắn hạn (working memory): giữ ngữ cảnh của tác vụ hoặc cuộc hội thoại đang diễn ra.
Bộ nhớ dài hạn: bền vững xuyên suốt các phiên, chia tiếp thành bộ nhớ tình tiết (episodic — các sự kiện, đối thoại trong quá khứ) và bộ nhớ ngữ nghĩa (semantic — các sự kiện như tùy chọn của người dùng, tri thức nghiệp vụ).

Cách triển khai phổ biến là lưu các embedding vào vector DB (Qdrant, Pinecone) rồi truy hồi những ký ức liên quan về mặt ngữ nghĩa. Tuy nhiên một giới hạn thực tế đã lộ ra: chỉ dùng vector search thì thiếu governance, thiếu quản lý phiên bản và thiếu trạng thái quy trình. Các sản phẩm bộ nhớ chuyên dụng — Mem0, Letta, Zep — đã trưởng thành thành công cụ độc lập. RAG không biến mất, nhưng bộ nhớ ngữ cảnh dài (context architecture) đang vượt lên thành nhân vật chính cho các ứng dụng agent.

3. Tools: 'tay chân' nối ra thế giới bên ngoài

Không có tools, agent chỉ là cỗ máy sinh chữ. Có tools, nó mới truy vấn được cơ sở dữ liệu, gọi API, tìm kiếm web, thực thi mã và lấy dữ liệu thời gian thực. Về mặt kỹ thuật, function calling (gọi hàm) là nền tảng.

Thay đổi lớn nhất năm 2026 là sự phổ cập của MCP (Model Context Protocol). Chuẩn mở này do Anthropic công bố tháng 11/2024, thống nhất cách agent kết nối tới tools và dữ liệu. Nó không đối nghịch với function calling, mà đặt một lớp chuẩn hóa lên trên. OpenAI đã áp dụng MCP trong năm 2025, và giờ đây nó là chuẩn de-facto để nối agent với công cụ. Lợi ích cho doanh nghiệp rất rõ: chỉ cần phơi bày một hệ thống nội bộ thành một MCP server một lần, nhiều agent có thể tái sử dụng theo cùng một cách nhất quán.

4. Planning và vòng lặp: 'thời gian chạy' gắn kết tất cả

Vòng lặp là thứ gắn kết bốn thành phần ở mỗi bước. Agent chạy theo chu trình: nhận mục tiêu, chia nhỏ, gọi tools, lưu kết quả vào bộ nhớ, và lặp lại cho đến khi đủ thông tin để trả lời. Có ba pattern planning thống trị năm 2026.

ReAct (Reasoning + Acting): luân phiên suy nghĩ — hành động — quan sát. Đây là pattern phổ biến nhất, được ưa chuộng vì quá trình ra quyết định có thể soi được và dễ debug. Bất cứ ứng dụng tương tác nào cũng nên bắt đầu từ ReAct.
Plan-and-Execute: lập kế hoạch tổng thể trước rồi thực thi từng bước. Hữu ích khi một agent ReAct cứ phải dựng lại đúng kế hoạch đó cho mỗi yêu cầu.
Reflexion (tự phản tỉnh): agent tự đánh giá đầu ra của mình và làm lại khi thất bại. Bọc nó như một vòng lặp bên ngoài khi chất lượng cuối quan trọng hơn tốc độ.

Trong các hệ thống production 2026, những pattern này được phối hợp chứ không dùng đơn lẻ. Một trợ lý lập trình điển hình chạy vòng ngoài Plan-and-Execute, trong đó mỗi bước thực thi là một agent ReAct với bộ tools riêng, và toàn bộ run được bọc bởi một lượt Reflexion chạy lại các bài test bị fail.

Bảng tra nhanh bốn thành phần

Thành phần	Vai trò	Triển khai tiêu biểu
LLM core	Suy luận và ra quyết định (nhạc trưởng)	Model routing; mô hình mạnh vs nhẹ
Bộ nhớ	Giữ ngữ cảnh (ngắn/dài hạn)	Vector DB; Mem0, Letta, Zep
Tools	Kết nối hệ thống bên ngoài	Function calling; MCP
Planning / loop	Gắn kết các thành phần lúc chạy	ReAct, Plan-and-Execute, Reflexion

Doanh nghiệp cần nắm gì

Một bài học quan trọng: hệ thống tự chủ nhất chưa chắc là hệ thống đáng tin cậy nhất. Thứ tạo được niềm tin trong vận hành 2026 là thiết kế biết đặt tính tự chủ đúng chỗ tạo ra giá trị, và ràng buộc nó ở mọi nơi khác. Hãy test bộ nhớ độc lập, chuẩn hóa tools qua MCP, và giữ vòng lặp quan sát được, debug được — ba nguyên tắc này là nền móng để vượt khỏi giai đoạn PoC và đưa lên production thật.

Ở Kỳ 3, chúng ta sẽ lấy chính kiến trúc này soi vào câu hỏi 'tự host (self-host) hay dùng cloud', so sánh hai mô hình triển khai trên ba trục: bảo mật, chi phí và chủ quyền dữ liệu. Hẹn gặp lại bạn.

Tăng tốc chuyển đổi số cùng Be A Racer

Từ chuyển dịch cloud, ứng dụng AI đến phát triển hệ thống — chúng tôi đồng hành trọn vẹn hành trình chuyển đổi số của bạn. Hãy trao đổi với chúng tôi.

Đặt lịch tư vấn miễn phí

Giải phẫu kiến trúc một AI Agent: LLM, bộ nhớ, tools và vòng lặp planning (AI Agent cho doanh nghiệp — Kỳ 2)