DeepSeek là gì? Những đột phá công nghệ đằng sau DeepSeek R1

5 tháng 2 năm 2025

1. DeepSeek và Mô hình DeepSeek R1 là gì?

DeepSeek là một công ty và nền tảng nghiên cứu AI tiên tiến, chuyên phát triển mô hình ngôn ngữ lớn (LLM) và các ứng dụng trí tuệ nhân tạo hiện đại. Có trụ sở tại Trung Quốc, DeepSeek đang cạnh tranh trực tiếp với những “ông lớn” như OpenAI, Google DeepMind và Meta. Dù mới thành lập hơn một năm – vào cuối năm 2023 bởi Liang Wenfeng, công ty đã ra mắt nhiều mô hình AI ấn tượng, nổi bật nhất là DeepSeek R1 và DeepSeek R1 Zero.


DeepSeek R1 mô hình ngôn ngữ lớn được phát triển bởi đội ngũ DeepSeek. DeepSeek R1 có năng lực suy luận (reasoning) ngang ngửa với mô hình OpenAI o1 nhưng được tạo ra với chi phí rẻ hơn rất nhiều. Chi phí để huấn luyện DeepSeek V3 (mô hình cơ sở để tạo nên DeepSeek R1) là 5.58 triệu đô la, bằng khoảng 3-5% so với chi phí để tạo ra mô hình o1 của OpenAI. Ngoài ra DeepSeek cũng công khai các mô hình DeepSeek V3 và DeepSeek R1 với giấy phép MIT, cho phép người dùng tải về để sử dụng, thậm chí cho mục đích thương mại.


Nếu không có hạ tầng tính toán đủ mạnh để vận hành các mô hình DeepSeek, chúng ta có thể sử dụng giao diện chat của DeepSeek miễn phí tại https://chat.deepseek.com, hoặc sử dụng thông qua API với chi phí rẻ hơn rất nhiều so với OpenAI API (0.14$ cho 1 triệu token đầu vào và 0.28$ cho 1 triệu token đầu ra. Mô hình tương đương GPT-4o có chi phí $2.50 cho mỗi 1 triệu token đầu vào và 10$ cho mỗi 1 triệu token đầu ra).


1.1. Mô hình DeepSeek R1 có năng lực như thế nào?

Mặc dù các mô hình ngôn ngữ lớn có thể thực hiện nhiều tác vụ về ngôn ngữ khác nhau như dịch thuật, tóm tắt văn bản nhưng với nhiệm vụ khó, đòi hỏi suy luận nhiều bước như giải toán không quá xuất sắc. OpenAI đã phát triển mô hình o1 dựa trên kỹ thuật học tăng cường để trang bị cho mô hình ngôn ngữ khả năng suy luận (reasoning). OpenAI o1 có thể suy luận trước khi trả lời – tức là sinh ra một chuỗi các suy nghĩ trước phản hồi cho người dùng. Mô hình có năng lực suy luận như OpenAI o1 có kết quả vượt trội so với các mô hình thông thường trên các tác vụ phức tạp như giải toán, lập trình, vật lý, hóa học, sinh học. Trong các bài thi toán ở trình độ thi toán quốc tế, trong khi GPT-4o chỉ giải được 13% số bài thì OpenAI o1 đạt 83%.


Nhược điểm của các mô hình suy luận như OpenAI o1 hay DeepSeek R1 là thời gian để đưa ra kết quả dài hơn so với các mô hình thông thường. Vì vậy các mô hình này thích hợp với các tác vụ phức tạp và không đòi hỏi đưa ra phản hồi theo thời gian thực cho người dùng.


Qua các bài test, mô hình DeepSeek R1 cho thấy năng lực tương đương với OpenAI o1 trên các tác vụ toán học và trên tác vụ lập trình và có kết quả cao hơn hẳn so với mô hình GPT-4o và phiên bản cơ sở DeepSeek V3 – mô hình chưa được huấn luyện trên quy mô lớn bằng kỹ thuật học tăng cường.


Kết quả benchmark của DeepSeek R1 so với các mô hình khác (theo báo cáo kỹ thuật của DeepSeek R1)


1.2. Đột phá của của DeepSeek R1 đến từ đâu

Thành công của DeepSeek R1 đến từ những sáng tạo về kiến trúc mô hìnhphương pháp huấn luyện, trong đó đóng góp chính đến từ đột phá trong cách thức huấn luyện mô hình bằng thuật toán học tăng cường.

Trong các phần tiếp theo, chúng ta sẽ cùng tìm hiểu kiến trúc của mô hình DeepSeek R1 và đặc biệt là phương pháp huấn luyện độc đáo được sử dụng để tạo nên mô hình này.


2. Kiến trúc mô hình DeepSeek

Mô hình DeepSeek R1 được tạo ra bằng cách huấn luyện tiếp từ mô hình cơ sở DeepSeek V3 nên kiến trúc của DeepSeek R1 giống với DeepSeek V3.

Kiến trúc cơ bản của DeepSeek V3 và DeepSeek R1 vẫn nằm trong framework của mạng Transformers. Tuy nhiên đội phát triển DeepSeek đã có những sáng tạo để tối ưu hóa quá trình huấn luyện và triển khai mô hình. Những điểm mới này bao gồm:

  • Kiến trúc Mixture of Experts (MoE): chỉ lựa chọn sử dụng một số tham số khi sinh ra mỗi token, giúp giảm khối lượng tính toán nhưng vẫn duy trì chất lượng mô hình. Phương pháp này giống như việc chúng ta có nhiều chuyên gia khác nhau, mỗi chuyên gia giỏi về một tác vụ nhất định. Khi có một tác vụ cần giải quyết, thay vì tất cả các chuyên gia cùng giải quyết, chúng ta giao cho một số chuyên gia nhất định. Kiến trúc MoE giúp tăng tốc tính toán, giữ cho chi phí tính toán ở mức hợp lý dù kích thước mô hình tăng lên. Ngoài ra MoE cũng nâng cao khả năng tổng quát hóa của mô hình, giúp mô hình xử lý các đầu vào đa dạng.
  • Multihead Latent Attention (MLA): kỹ thuật này giúp giảm chi phí bộ nhớ và tính toán bằng cách chiếu các ma trận Key-Query-Value trong cơ chế self-attention vào một không gian có số chiều thấp hơn.
  • Multi-Token Prediction (MTP): Cho phép sinh ra nhiều token song song, giúp cải thiện thông lượng lên 2-3 lần.
  • FP8 Quantization: Cung cấp khả năng giảm bộ nhớ lên đến 75% so với FP32.


Số lượng tham số của mô hình DeepSeek V3 là 671 tỷ tham số, trong đó số lượng tham số được sử dụng để sinh ra 1 token (đơn vị được dùng trong LLM khi phân tách một chuỗi văn bản) là  37 tỷ.


Mô hình DeepSeek V3 được huấn luyện trên cụm server được trang bị 2048 card NVIDIA H800. Thời gian huấn luyện DeepSeek V3 quy đổi theo số giờ sử dụng GPU là 2,788 triệu giờ GPU. Nếu tính chi phí thuê H800 là 2 đô la mỗi giờ thì tổng chi phí để huấn luyện mô hình DeepSeek V3 là khoảng 5,576 triệu đô la. Như vậy bản chất của con số 5,576 triệu đô la là chi phí quy đổi theo số giờ tính toán trên GPU để tạo ra mô hình cơ sở DeepSeek V3. Chi phí này chưa bao gồm các chi phí khác như chuẩn bị dữ liệu, các thí nghiệm được thực hiện trước khi huấn luyện chính thức. Mặc dù không được đề cập trong báo cáo kỹ thuật, nhưng theo nhận định của chúng tôi, chi phí để huấn luyện DeepSeek R1 từ mô hình cơ sở DeepSeek V3 có thể lớn hơn nhiều con số 5,576 triệu đô la.


3. Cách thức huấn luyện mô hình DeepSeek R1

Trong phần này, chúng tôi tập trung lý giải phương pháp học tăng cường mà DeepSeek R1 sử dụng để trang bị năng lực suy luận cho mô hình cơ sở DeepSeek V3.


3.1. Học tăng cường là gì?

Học tăng cường (Reinforcement Learning) là một kỹ thuật trong trí tuệ nhân tạo (AI) giúp máy tính học cách đưa ra quyết định thông qua việc thử nghiệm và nhận phản hồi từ môi trường. Hệ thống học bằng cách:

  • Thực hiện hành động: mô hình AI chọn một hành động dựa trên trạng thái hiện tại của môi trường.
  • Nhận phần thưởng hoặc hình phạt: Nếu hành động đó tốt, mô hình nhận được điểm thưởng; nếu không tốt, mô hình bị trừ điểm.
  • Điều chỉnh chiến lược: AI dần dần học cách tối ưu hóa hành động để nhận được nhiều điểm thưởng hơn.


Mục tiêu của mô hình AI là tối đa hóa tổng điểm thưởng trong dài hạn bằng cách tìm ra chiến lược (policy) tốt nhất.

Để minh họa, hãy lấy ví dụ về sử dụng học tăng cường để tạo ra mô hình AI chơi Tetris, trò chơi mà người chơi phải sắp xếp các khối hình rơi xuống để tạo thành hàng ngang đầy và loại bỏ chúng.


Các thành của RL (Reinforcement Learning) trong trò chơi gồm:

  • Môi trường (Environment): Trò chơi Tetris.
  • Trạng thái (State): Bản đồ hiện tại của trò chơi (các khối đã xếp, vị trí của khối mới).
  • Hành động (Action): AI có thể xoay khối, di chuyển sang trái/phải hoặc thả nhanh xuống.
  • Phần thưởng (Reward):
  • +10 điểm khi tạo được một hàng hoàn chỉnh.
  • +50 điểm khi xóa được 4 hàng cùng lúc (tức là “Tetris”).
  • -1 điểm nếu để khối bị xếp chồng quá cao, gần chạm đỉnh màn hình.
  • Chính sách (Policy): AI học cách chọn hành động tốt nhất để tối đa hóa điểm thưởng.


Cách mô hình AI học chơi Tetris như sau:

  • Giai đoạn đầu: Ban đầu, AI chơi ngẫu nhiên, thử mọi hành động mà không có chiến lược cụ thể.
  • Nhận phản hồi từ môi trường: Mỗi khi hoàn thành một lượt, AI ghi nhận số điểm nhận được.
  • Cải thiện chiến lược: AI sử dụng thuật toán như Q-learning hoặc Deep Q-Network (DQN) để học cách ưu tiên các hành động có lợi.
  • Học lâu dài: Sau hàng ngàn ván chơi, AI dần dần tìm ra cách sắp xếp tốt nhất để đạt điểm cao.


Ban đầu, mô hình AI chơi kém vì chưa có kinh nghiệm, nhưng sau nhiều lần thử nghiệm, nó dần học được cách xếp khối tối ưu để kéo dài ván chơi và đạt điểm cao hơn. Cuối cùng, AI có thể chơi tốt hơn con người bằng cách tối ưu hóa từng hành động để đạt điểm số tối đa.


3.2. Ứng dụng học tăng cường để huấn luyện LLM

Kỹ thuật học tăng cường RLHF (Reinforcement Learning from Human Feedback) đã được ứng dụng từ lâu để đào tạo các mô hình LLM như ChatGPT, Claude hay Gemini. RLHF cho phép mô hình học cách tạo ra câu trả lời phù hợp hơn với con người, tránh các nội dung không chính xác, độc hại hoặc vô nghĩa.


Ý tưởng của việc sử dụng học tăng cường trong các trò chơi như Tetris hay đánh cờ khá rõ ràng. Vậy mối liên hệ của học tăng cường với các mô hình LLM như thế nào?


Về bản chất, LLM không sinh ra ra toàn bộ câu văn cùng một lúc, mà sinh từng token một. Do đó, muốn đánh giá một nội dung do LLM sinh ra tốt hay không thì phải đợi đến khi tất cả các token được tạo ra mới có thể đánh giá được.


Trong trò chơi Tetris, từng mảnh ghép sẽ rơi xuống một cách tuần tự, và điểm số chỉ được tính khi một hàng hoàn chỉnh bị xóa. Tương tự, nếu LLM cũng có thể sinh ra từng token một và đánh giá chất lượng của câu văn khi toàn bộ câu đã được tạo ra, ta có thể sử dụng cùng một framework học tăng cường để huấn luyện mô hình.


Trong trò chơi Tetris, hệ thống trò chơi sẽ tự động chấm điểm cho người chơi. Tuy nhiên, LLM không có chức năng tự động đánh giá chất lượng câu văn. Do đó, chúng ta cần xây dựng một mô hình để thực hiện việc đánh giá này.


Cụ thể, chúng ta có thể sử dụng mạng nơ-ron để tạo một mô hình phần thưởng (reward model) có khả năng nhận đầu vào là prompt x và câu trả lời do LLM tạo ra y, sau đó đưa ra một điểm số phần thưởng r.


Để huấn luyện mô hình phần thưởng bằng mạng neural, chúng ta cần chuẩn bị bộ dữ liệu huấn luyện bao gồm ba thành phần :

  • Prompt: x
  • Câu trả lời mong muốn: y+
  • Câu trả lời không mong muốn: y– (câu trả lời kém chất lượng)


Mô hình phần thưởng mà DeepSeek sử dụng để huấn luyện DeepSeek-R1-Zero dựa trên rule và gồm 2 loại chính:

  • Phần thưởng dựa trên độ chính xác của câu trả lời (Accuracy reward): Đánh giá tính đúng đắn của câu trả lời. Ví dụ, với các bài toán có kết quả xác định, phần thưởng sẽ được đưa ra nếu mô hình trả lời chính xác đáp án. Tương tự, với các câu hỏi lập trình, trình biên dịch có thể được sử dụng để tạo phản hồi dựa trên các bộ test có sẵn.
  • Phần thưởng nếu mô hình trả lời theo đúng định dạng (Format reward): Mô hình được thưởng nếu nội dung của quá trình suy luận được đặt trong cặp thẻ <think> và </think>.


Chính sách (policy) của LLM trong quá trình tạo văn bản được biểu diễn dưới dạng phân phối xác suất của từng token. Mô hình này được gọi là mô hình chính sách, trong đó mỗi token được sinh ra dựa trên prompt và các token đã được sinh ra trước đó.

Bằng cách huấn luyện mô hình chính sách (LLM) để tối đa hóa phần thưởng tích lũy, LLM có thể cập nhật trọng số trong mạng nơ-ron của mình nhằm tạo ra các câu trả lời chất lượng cao hơn và phù hợp hơn với mong muốn của con người. Đây chính là cách LLM được huấn luyện bằng học tăng cường. Phương pháp này được gọi chun g là RLHF (Reinforcement Learning from Human Feedback – Học tăng cường từ phản hồi của con người).


DeepSeek R1 sử dụng phương pháp học tăng cường có tên GRPO (Group Relative Policy Optimization). GRPO không sử dụng mô hình giá trị trạng thái (value model) như PPO (Proximal Policy Optimization) mà tính phần thưởng trung bình cho nhiều câu trả lời khác nhau sinh ra từ một prompt. Nhờ đó GRPO hiệu suất cao hơn hẳn PPO và giảm đáng kể chi phí tính toán.


Minh họa về PPO và GRPO. GRPO loại bỏ mô hình giá trị, thay vào đó ước tính giá trị chuẩn (baseline) từ điểm số của nhóm, giúp giảm đáng kể tài nguyên huấn luyện.


Thử nghiệm đầu tiên của đội phát triển DeepSeek là áp dụng trực tiếp học tăng cường lên mô hình gốc DeepSeek V3 để tạo nên DeepSeek R1 Zero (Hình 3). Thử nghiệm cho thấy DeepSeek R1 Zero có năng lực suy luận vượt trội so với DeepSeek V3 mà không cần đến dữ liệu có gán nhãn.


Quá trình huấn luyện của DeepSeek R1 Zero. Nguồn: https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it


Trong quá trình huấn luyện bằng học tăng cường, DeepSeek R1 Zero sử dụng mẫu trả lời như trong hình dưới đây.

Template câu trả lời của DeepSeek-R1-Zero (trích từ báo cáo kỹ thuật của DeepSeek R1)



Hình dưới đây là một ví dụ cho nội dung quá trình suy nghĩ của DeepSeek R1 Zero trước khi đưa ra câu trả lời. Điều thú vị trong nội dung này là khoảnh khắc aha mà mô hình tạo ra trong quá trình suy luận.


Quá trình suy nghĩ của DeepSeek R1 Zero trước khi đưa ra câu trả lời. Điều thú vị là mô hình có thể suy nghĩ lại, thể hiện ở dòng màu đỏ, với giọng điệu nhân cách hóa.


Học tăng cường đã chứng tỏ hiệu quả khi cung cấp năng lực suy luận cho LLM. Tuy nhiên việc chỉ áp dụng học tăng cường trên mô hình cơ sở gặp phải hai vấn đề:

  • Đầu ra của DeepSeek-R1-Zero thi thoảng bị lẫn giữa các ngôn ngữ khác nhau, đặc biệt là tiếng Trung
  • Nội dung suy luận của DeepSeek-R1-Zero khó đọc và khó hiểu


Để giải quyết các vấn đề này đội phát triển DeepSeek ứng dụng quy trình huấn luyện nhiều giai đoạn được thiết kế nhằm tăng năng lực suy luận của mô hình đồng thời duy trì hiệu suất huấn luyện. Các giai đoạn chủ chốt bao gồm Supervised Fine-Tuning (SFT), học tăng cường (Reinforcement Learning), Rejection Sampling và một pha huấn luyện tăng cường bổ sung. Quá trình huấn luyện nhiều giai đoạn để tạo nên DeepSeek R1 được minh họa ở hình dưới.


 

Quá trình huấn luyện nhiều giai đoạn để tạo nên DeepSeek R1. Nguồn: https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it


Bạn đọc quan tâm có thể đọc thêm những nội dung chi tiết hơn trong báo cáo kỹ thuật của DeepSeek R1.


4. Chuyển giao tri thức từ DeepSeek R1

Knowledge Distillation (chuyển giao tri thức, một số tài liệu dịch là chưng cất tri thức) là một kỹ thuật trong học máy nhằm chuyển giao kiến thức từ một mô hình lớn đã được huấn luyện trước, gọi là mô hình giáo viên (teacher model), sang một mô hình nhỏ hơn, gọi là mô hình học sinh (student model).


Kỹ thuật chuyển giao kiến thức đã được ứng dụng thành công trong nhiều lĩnh vực khác nhau, bao gồm xử lý ngôn ngữ tự nhiên (NLP), nhận dạng giọng nói, nhận diện hình ảnh và phát hiện đối tượng. Những năm gần đây, nghiên cứu về chuyển giao kiến thức đặc biệt quan trọng đối với các mô hình ngôn ngữ lớn (LLMs). Trong lĩnh vực này, chuyển giao kiến thức nổi lên như một phương pháp hiệu quả để chuyển giao năng lực tiên tiến từ các mô hình mã đóng hàng đầu (chẳng hạn GPT-4o của OpenAI) sang các mô hình mã nguồn mở nhỏ hơn, dễ tiếp cận hơn. Các kỹ thuật chuyển giao kiến thức không chỉ nhằm tái tạo đầu ra của mô hình giáo viên mà còn hướng tới việc mô phỏng cả quá trình suy luận của mô hình giáo viên.


Để trang bị khả năng lập luận giống như DeepSeek-R1 cho các mô hình nhỏ gọn hơn, đội phát triển DeepSeek đã tinh chỉnh trực tiếp các mô hình mã nguồn mở như Qwen (của Alibaba) và Llama (của Meta AI) bằng cách sử dụng 800.000 mẫu dữ liệu được chọn lọc với DeepSeek-R1. Kết quả đánh giá cho thấy phương pháp chuyển giao kiến thức đơn giản này giúp cải thiện đáng kể khả năng lập luận của các mô hình nhỏ hơn. Các mô hình nhỏ hơn mà DeepSeek sử dụng bao gồm Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B và Llama-3.3-70B-Instruct.


Đối với các mô hình được chuyển giao tri thức này, đội phát triển DeepSeek chỉ áp dụng tinh chỉnh có giám sát (SFT) mà không kết hợp giai đoạn học tăng cường (RL), mặc dù việc học tăng cường có thể cải thiện đáng kể năng lực của mô hình. Trong báo kỹ thuật, tác giả phát biểu rằng mục đích của nhóm là chứng minh tính hiệu quả của phương pháp chuyển giao kiến thức, đồng thời để ngỏ việc khám phá giai đoạn học tăng cường cho cộng đồng nghiên cứu.


5. Hạn chế của mô hình DeepSeek R1

Mặc dù có kết quả ấn tượng trên một số chỉ số đánh giá, mô hình DeepSeek R1 vẫn tồn tại một số hạn chế.


Vấn đề đầu tiên là, do được huấn luyện chủ yếu trên dữ liệu tiếng Anh và tiếng Trung, DeepSeek R1 đôi khi trả lời bằng tiếng Anh hoặc tiếng Trung ngay cả khi câu hỏi được đặt bằng ngôn ngữ khác.


Vấn đề thứ hai là DeepSeek R1 có xu hướng tránh hoặc từ chối trả lời các câu hỏi liên quan đến những chủ đề nhạy cảm về chính trị và xã hội, đặc biệt là những vấn đề liên quan đến Trung Quốc. Tuy nhiên theo thử nghiệm của đội ngũ nghiên cứu của Cisco, khi lấy ngẫu nhiên 50 prompt gây hại từ tập dữ liệu HarmBench, DeepSeek R1 không chặn thành công bất kỳ lời nhắc gây hại nào.


Cuối cùng, kích thước của mô hình DeepSeek R1 lớn nên cần hạ tầng tính toán mạnh để triển khai mô hình này trên môi trường local (khoảng 6 x H100 80GB để triển khai mô hình DeepSeek R1 671B). Tuy chúng ta có thể sử dụng các mô hình được chắt lọc từ DeepSeek R1 trên các phần cứng thấp hơn, nhưng các mô hình này không có năng lực tương đương như DeepSeek R1 gốc.


 

Mặc dù có kết quả ấn tượng nhưng DeepSeek vẫn tồn tại một số hạn chế

6. Kết luận

DeepSeek đã chứng minh rằng việc áp dụng phương pháp học tăng cường có thể nâng cao đáng kể khả năng suy luận của các mô hình ngôn ngữ lớn. Đặc biệt, sự kết hợp giữa fine-tuning và học tăng cường, như trong mô hình DeepSeek R1, giúp khắc phục những hạn chế khi chỉ sử dụng học tăng cường đơn thuần.


Sự kiện DeepSeek đã tạo nên một bước ngoặt trong lĩnh vực AI. Nó cho thấy rằng với những đột phá về kiến trúc mô hình và phương pháp huấn luyện, chúng ta có thể phát triển các mô hình có khả năng suy luận ngang tầm với những sản phẩm thương mại hàng đầu như OpenAI o1, nhưng với chi phí thấp hơn đáng kể. Điều này đặt áp lực lên các công ty như OpenAI trong việc giảm giá dịch vụ API, mang lại lợi ích trực tiếp cho người dùng và các doanh nghiệp đang tìm kiếm giải pháp AI hiệu quả cho hoạt động của mình.


Những tiến bộ này không chỉ thúc đẩy sự đổi mới trong ngành công nghiệp AI mà còn mở ra cơ hội cho các doanh nghiệp tiếp cận các giải pháp AI mạnh mẽ và tiết kiệm chi phí hơn, góp phần thúc đẩy sự phát triển và ứng dụng AI trong nhiều lĩnh vực khác nhau.

-----------------------

Bài viết độc quyền bởi chuyên gia FPT IS – Ông Phạm Quang Nhật Minh, Giám đốc Trung tâm nghiên cứu và phát triển trí tuệ nhân tạo FPT IS sẽ mang đến cái nhìn chi tiết về các kỹ thuật được ứng dụng trong DeepSeek R1, nhằm giúp người đọc hiểu sâu hơn về những đột phá công nghệ đằng sau mô hình này.

 

Tài liệu tham khảo

  1. Báo cáo kỹ thuật của DeepSeek R1. https://arxiv.org/abs/2501.12948
  2. Báo cáo kỹ thuật của DeepSeek V3. https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
  3. Báo cáo của đội ngũ bảo mật của Cisco: Evaluating Security Risk in DeepSeek and Other Frontier Reasoning Models