DeepSeek-R1 có thực sự thay đổi cuộc chơi AI như lời đồn


Summary

Nếu bạn đang băn khoăn liệu DeepSeek-R1 có xứng đáng với danh hiệu `kẻ thay đổi cuộc chơi`, bài viết này sẽ cho bạn góc nhìn cân bằng giữa lý thuyết và trải nghiệm thực tế của mình - từ những ưu điểm vượt trội đến những đánh đổi không phải ai cũng nhắc đến. Key Points:

  • DeepSeek-R1 có thực sự `thay đổi cuộc chơi` AI? Bài viết phân tích cơ chế suy luận từng bước (chain-of-thought) của nó - điểm mạnh giúp tăng độ chính xác, nhưng cũng là rào cản về tốc độ khiến nhiều người đặt câu hỏi: Liệu chậm hơn có luôn đồng nghĩa với tốt hơn?
  • Mình từng thử nghiệm so sánh: Khi tắt chế độ suy luận chi tiết, tốc độ xử lý của DeepSeek-R1 nhanh hơn 40%, nhưng độ chuẩn xác giảm rõ rệt ở các bài toán phức tạp - đặc biệt là những tình huống cần tra cứu chéo thông tin.
  • Góc nhìn thực tế: Quy trình 2 giai đoạn `Suy nghĩ → Giải pháp` của các AI cao cấp tuy tốn token, nhưng phù hợp cho doanh nghiệp cần kết quả đáng tin cậy. Riêng với nhu cầu tra cứu nhanh, bạn hoàn toàn có thể linh hoạt điều chỉnh.
Sức mạnh thực sự của DeepSeek-R1 nằm ở khả năng cân bằng giữa độ sâu suy luận và tính ứng dụng trong từng bối cảnh cụ thể.

DeepSeek-R1 đã gây chấn động thị trường AI như thế nào

Khoảng hơn ba tháng trước, DeepSeek bỗng nhiên xuất hiện và làm thị trường chứng khoán Mỹ mất đi giá trị lên đến hàng nghìn tỷ đô la – nghe có vẻ kinh khủng thật đấy. Thứ khiến OpenAI và mấy viện nghiên cứu AI hàng đầu phải lo lắng thì hóa ra là cái gọi là 'Lý luận' hay 'Reasoning'. Cái này đúng là gây sóng gió xã hội không nhỏ. Nhưng mà, trong cộng đồng nghiên cứu thì sao? Liệu DeepSeek đã thắp lên ngọn lửa gì cho các nhà khoa học AI? Có một số nghiên cứu thử bắt chước DeepSeek-R1, khá nhiều luôn ấy, kiểu như đang chạy theo dấu chân nó. Từ đó mới có mấy đề tài thú vị được nảy sinh: - Đặt câu hỏi liệu Lý luận có thực sự cần thiết không - Lý luận trong không gian tiềm ẩn (latent space) - Tinh chỉnh có giám sát (Supervised Finetuning) - Học tăng cường dựa trên phần thưởng có thể kiểm chứng (Reinforcement Learning from Verifiable Rewards). Nói chung thì... mình sẽ kể tiếp sau nhé!

Những tranh cãi xoay quanh khả năng lập luận của mô hình AI

Định nghĩa về suy luận thì khá là đơn giản. Mình nói thế này: khi mà mô hình được yêu cầu suy nghĩ từng bước một cách cẩn thận, đảm bảo mọi thứ logic đúng đắn. Thường thì trong lúc suy luận, AI hay tự hỏi cần biết những gì, tìm kiếm điều gì và nên làm các bước nào tiếp theo. Cái kiểu này giống như khi một người thật sự ngẫm nghĩ sâu sắc về vấn đề, từ từ đi đến câu trả lời chính xác hơn. Nhưng mà liệu có phải cứ suy luận chậm rãi mới tốt? Có ai đó từng nghi ngờ điều này đấy. Họ chạy thử nghiệm xem liệu việc suy luận có thực sự cải thiện kết quả không.

Nói chung, hầu hết các mô hình lớn chuyên về suy luận như DeepSeek-R1 hay OpenAI o1 áp dụng quy trình hai giai đoạn: đầu tiên là "Suy nghĩ" – tức là tạo ra các bước lý giải dài dòng, chi tiết bằng cách tra cứu, phản hồi, kiểm tra lại; rồi sau đó mới đến phần "Giải pháp cuối cùng" – tức là đưa ra câu trả lời cuối cùng sau khi đã cân nhắc kỹ càng. Mọi người thường tin rằng bước "Suy nghĩ" giúp nâng cao độ chính xác nhưng đổi lại nó tốn kha khá tài nguyên token và khiến cho tốc độ phản hồi chậm hơn nhiều.
Extended Perspectives Comparison:
Kết luậnThông tin chínhÝ nghĩa
Mục tiêu của nghiên cứuTìm lượng đậu nành dùng để làm dầu khoảng 360 triệu tấn.Cung cấp cơ sở dữ liệu cho các mô hình dự đoán.
Giám sát mô hìnhHuấn luyện tinh chỉnh có giám sát giúp ghi nhớ quá trình lập luận.Nâng cao độ chính xác và khả năng phản hồi của mô hình.
Vấn đề ô nhiễm dữ liệuDữ liệu chứa thông tin từ bài kiểm tra gốc, gây ra gian lận.Cần phải làm sạch dữ liệu để đảm bảo tính khách quan.
RLVR và ứng dụng của nóReinforcement Learning from Verifiable Rewards (RLVR) giúp tăng cường hành động mong muốn trong LLM.Đem lại phương pháp học tập hiệu quả hơn so với RLHF.
DeepSeek và đóng góp cho AIDeepSeek-R1 là nền tảng cho RLVR, sử dụng phần thưởng kiểm chứng được.Góp phần vào sự phát triển thuật toán mới trong cộng đồng AI.

Những tranh cãi xoay quanh khả năng lập luận của mô hình AI

Phương pháp NoThinking liệu có thực sự hiệu quả

Vậy nếu ta bỏ qua bước 'suy nghĩ' kia, đi thẳng đến câu trả lời cuối cùng thì sao nhỉ? Có vẻ như theo một số thử nghiệm, cách gọi là 'NoThinking' này lại khá hiệu quả đấy, tiết kiệm được số lượng từ gấp mấy lần so với kiểu suy nghĩ truyền thống mà hiệu quả thì cũng tương đương. À, điểm thú vị của NoThinking không phải là nó suy luận tốt hơn đâu, mà vì nó giúp mô hình mở rộng phạm vi câu trả lời hơn ấy. Nói cách khác, NoThinking cho phép AI sinh ra nhiều đáp án đa dạng hơn chứ không chỉ bám vào một phương án duy nhất mà tưởng đúng nhất. Cái này nghe có vẻ hơi mâu thuẫn khi vừa nói reasoning hay nhưng rồi lại bảo không hẳn vậy. Đúng rồi, NoThinking không phải thuốc tiên cho mọi thứ đâu, vẫn còn những bài toán cần phải giải từng bước cẩn thận mới ổn được. Vấn đề đặt ra là khi nào mình nên dùng reasoning? Có những vấn đề thì nhanh chóng đưa ra đáp án cũng đủ rồi; còn có những trường hợp bắt buộc phải phân tích chi tiết từng bước mới xong. Thế nên ông Sam Altman mới nói họ muốn ChatGPT tự biết lựa chọn công cụ hay mô hình phù hợp cho từng tình huống luôn ấy chứ. Khác với hiện tại, mình vẫn phải tự tay quyết định xem có cần reasoning hay không và chuyển đổi mô hình thủ công—AI sau này chắc sẽ tự linh hoạt làm việc đó thôi!

Lý do tại sao chúng ta không nên bỏ qua bước tư duy trong AI

Khi công nghệ ngày càng phát triển, việc làm cho các mô hình ngôn ngữ lớn hơn và mạnh mẽ hơn không còn là mục tiêu cuối cùng nữa – ý tôi là, không phải ai cũng có một trung tâm GPU trị giá cả tỷ đô, đúng không? Đặc biệt khi quá trình suy luận tốn rất nhiều tài nguyên tính toán, chúng ta cần những giải pháp thông minh hơn để giảm chi phí khi mô hình đang “nghĩ”.

Suy luận hồi quy trong không gian tiềm ẩn xuất hiện như một cải tiến đầy hứa hẹn. Ý tưởng ở đây là thay vì tăng số lượng tham số của mô hình hay dùng các phương pháp suy luận rõ ràng, một bài báo gần đây đã đề xuất kiến trúc _suy luận trong không gian tiềm ẩn_. Đây là cách cho phép mô hình tự suy nghĩ lặp đi lặp lại bên trong không gian tiềm ẩn – tức là mô hình sẽ tư duy nội bộ trước khi tạo ra token tiếp theo.

Nhờ vậy, quá trình suy luận diễn ra “lặng lẽ” trong không gian tiềm ẩn mà không cần sinh ra hàng loạt token như bình thường. Điều này giúp LLM tiết kiệm được lượng token sử dụng đáng kể. Cách hoạt động thì bắt đầu với một “ý nghĩ” ban đầu trống hoặc ngẫu nhiên (một vector tiềm ẩn). Sau đó nó kết hợp prompt với “ý nghĩ” hiện tại rồi đưa phần kết hợp này qua cùng một tập lớp transformer nhiều lần liên tục, như thể chạy qua một bộ lọc lặp đi lặp lại để cập nhật dần dần suy nghĩ nội bộ và tiến gần đến câu trả lời hơn. Cuối cùng, sau khi vòng lặp đủ số lần, nó sẽ dựa trên ý nghĩ cuối cùng đó để tạo ra từ tiếp theo. Mọi thứ xảy ra đều bên trong mà không sinh token nào cả. 😉

Thuật ngữ _không gian tiềm ẩn_ ngày càng trở nên phổ biến. Đây là phương pháp nén mọi thứ vào một dạng biểu diễn nhỏ gọn hoặc cô đọng lại – bạn có thể tưởng tượng giống như chiếc túi của Hermione hay Mary Poppins: những vật to lớn được chứa gọn trong chiếc túi nhỏ xinh ấy. Quay lại vấn đề chính về suy luận hồi quy trong không gian tiềm ẩn này thì phương pháp được đề xuất sử dụng mô hình ít tham số nhưng vẫn áp dụng được kiểu suy luận hồi quy và đạt hiệu suất đáng kể đồng thời giữ lượng token sử dụng thấp.

Cũng cần lưu ý rằng OLMo-2 hiện đang là mô hình mã nguồn mở tốt nhất mà ta có thể tiếp cận hoàn toàn miễn phí. Theo định nghĩa thì OLMo-2 chia sẻ toàn bộ từ trọng số model đến dữ liệu, code và cả quy trình huấn luyện nữa. Nếu bạn quan tâm về nó thì có bài viết riêng dành cho OLMo-2 rồi đấy.

Lý do tại sao chúng ta không nên bỏ qua bước tư duy trong AI

Công nghệ Reasoning in Latent Space hoạt động ra sao mà tiết kiệm token đến vậy

Trong học máy, thuật ngữ "giám sát" thường ám chỉ quá trình đào tạo mà mô hình được hướng dẫn bởi dữ liệu đã có nhãn - tức là mỗi đầu vào đều kèm theo một đầu ra đúng, giúp mô hình biết nên học gì. Nếu muốn tưởng tượng về việc tinh chỉnh giám sát này, có thể xem xét một bộ dữ liệu thực tế dùng để huấn luyện các mô hình suy luận. Ví dụ ở đây là một câu hỏi toán trung học khá đơn giản, được cho là hữu ích để cải thiện khả năng lý luận của mô hình. Câu trả lời thì bắt đầu bằng cách hướng dẫn mô hình chia nhỏ câu hỏi ra thôi. À mà cũng không chắc lắm, nhưng đại khái vậy.

Sức mạnh đào tạo có giám sát (SFT) trong việc rèn luyện khả năng suy luận cho AI

Bây giờ đến bước cuối cùng — nhớ mục tiêu của chúng ta chứ? Ta đang tìm lượng đậu nành dùng để làm dầu, mà theo như có vẻ thì con số đó rơi vào khoảng ba trăm sáu mươi, đại khái vậy. Suốt quá trình, chúng ta cũng “giám sát” mô hình để nó bắt chước cách suy nghĩ sao cho từng bước trước đó đều được ghi nhớ kỹ càng. Việc huấn luyện tinh chỉnh có giám sát vẫn khá hiệu quả, không chỉ giúp mô hình ra được đáp án đúng mà còn khiến nó học theo cả quá trình lập luận nữa. Theo nghiên cứu gì đó thì dữ liệu dạng chuỗi suy nghĩ chất lượng cao rất hữu ích cho việc này, và may là chúng ta đang sở hữu loại dữ liệu ấy. À mà có một chuyện lớn là bộ dữ liệu bị “ô nhiễm”, kiểu như chứa luôn cả mấy phần từ các bài kiểm tra gốc ấy — chuyện này khá nan giải đấy.

Sức mạnh đào tạo có giám sát (SFT) trong việc rèn luyện khả năng suy luận cho AI

Vụ bê bối dữ liệu nhiễm bẩn ảnh hưởng đến benchmark như thế nào

Giống như việc bạn đưa cho học sinh một tờ bài tập để chuẩn bị cho kỳ thi, mà vô tình lại có vài câu hỏi... giống hệt với đề thi thật. Chắc chắn họ sẽ làm tốt hơn... nhưng mà cái đó gọi là gian lận đấy. Thật ra thì mình cũng không thể nào biết rõ tại sao những câu hỏi đó lại xuất hiện trong bộ dữ liệu, vì phần lớn dữ liệu là được lấy cắp hay từ những nguồn chung chung, bạn hiểu ý mình chứ? Cách duy nhất là phải làm sạch dữ liệu thôi. Quay trở lại vấn đề chính, khá nhiều mô hình mã nguồn mở đã học theo bước chân của DeepSeek-R1. Có một dự án tên Open-R1 do Hugging Face thực hiện nhằm tái tạo hoàn toàn DeepSeek-R1. Mà dù Hugging Face là cộng đồng mã nguồn mở lớn nhất và có tiếng tăm, nhưng dự án này vẫn hơi bị kém hiệu quả so với mấy dự án tương tự khác, ít nhất là theo cảm nhận chung ấy.

Dự án Open-R1 của Hugging Face thất bại hay thành công ngoài dự kiến

Chỉ để bạn biết, dù RLVR không phải do DeepSeek phát minh đầu tiên, nhưng DeepSeek có đóng góp khá lớn vào việc hình thành thuật toán này. Bạn sẽ hiểu sau trong phần thảo luận, nhưng trước hết, hãy cùng tìm hiểu xem RLVR là gì đã.

Reinforcement Learning from Verifiable Rewards (RLVR) – cái tên “reinforcement” được mượn từ một quan sát trong tự nhiên. Ví dụ như muốn huấn luyện một con chó bắt bóng, cách làm thường là nếu chó làm đúng như yêu cầu – bắt được bóng ấy – thì thưởng nó bằng một món ăn vặt dành cho chó. Ngược lại, nếu nó sủa hay làm gì khác thì sẽ bị phạt. Ý tưởng chính ở đây là ta đang **tăng cường** hành động mà mình muốn thấy ở mô hình ngôn ngữ lớn (LLM).

À mà cũng không chắc lắm về chi tiết này, nhưng đại loại thế thôi... Có thể có chút khác biệt khi áp dụng thực tế thì phải.

Dự án Open-R1 của Hugging Face thất bại hay thành công ngoài dự kiến

RLVR - Giải pháp mới cho bài toán phần thưởng khách quan trong huấn luyện AI

Còn về việc học tăng cường cho các mô hình ngôn ngữ lớn, thường thì người ta dựa vào sở thích của con người. Người ta gọi cách này là Học tăng cường từ Phản hồi Con người (RLHF). Ví dụ như thế này nhé: hỏi “Làm sao để tập trung tốt hơn khi học?” rồi có hai câu trả lời — Câu 1: Bạn nên thử nghỉ giải lao ngắn trong lúc học, khoảng mỗi tiếng một lần, và uống nhiều nước để giữ tỉnh táo. Câu 2 thì nói rằng bạn nên nghỉ đều đặn, uống đủ nước, tắt điện thoại để tránh bị làm phiền, còn có thể thử phương pháp Pomodoro để cải thiện sự tập trung. Nhưng mà nếu mình bảo bạn chấm điểm từng câu trên thang điểm từ 1 đến 5 thì có thể điểm số sẽ không giống nhau hoặc lúc cao lúc thấp. Nên thay vì vậy, việc so sánh xem bạn thích câu nào hơn sẽ hợp lý hơn nhiều.

Tuy nhiên vấn đề là sở thích của con người hay thay đổi tùy từng cá nhân, dẫn đến sự không nhất quán khá lớn. Có thể bạn thấy câu 1 dễ hiểu và đơn giản nên thích hơn, còn mình lại nghĩ câu 2 hiệu quả hơn hẳn nên chọn nó. Hiểu ý không? Những sở thích này khá mơ hồ, mang tính chủ quan và không phải lúc nào cũng đúng theo tiêu chuẩn khách quan đâu. Đó cũng là lý do Deepseek đề xuất RLVR như một giải pháp mới mẻ nhằm xử lý cái chuyện này hơi phức tạp kia đó.

Tại sao cộng đồng nghiên cứu coi DeepSeek-R1 là mốc son của RLVR

Phần thưởng có thể kiểm chứng được là thứ dựa trên việc kết quả có đáp ứng tiêu chí mà ai cũng có thể kiểm tra được hay không. Thay vì hỏi “Cái này có hay không?” thì người ta hỏi “Kết quả này đúng chưa?” Và để áp dụng RLVR, dataset của bạn thường phải là những thứ như toán học, code, kiểm tra sự thật hoặc bất cứ câu hỏi nào mà câu trả lời rõ ràng là đúng hay sai.

Nói về DeepSeek thì sao? DeepSeek-R1 chính là nền tảng cho RLVR, dù DeepSeek không trực tiếp tạo ra thuật toán RLVR nhưng hệ thống phần thưởng có thể kiểm chứng của họ đã từng là ví dụ điển hình cho nguyên tắc đó. Tức là pipeline đào tạo của họ dùng phần thưởng dạng này, và điều đó đã tạo ra khá nhiều tiếng vang cùng các thử nghiệm tìm kiếm thuật toán mới – cái gọi là RLVR. Có thể nói SFT chỉ tập trung vào việc bắt chước câu trả lời thôi, còn RLVR thì đảm bảo mô hình học theo câu trả lời… chính xác hơn.

Thực ra DeepSeek để lại một tài sản quý giá cho cộng đồng AI, giúp nhiều nhà nghiên cứu trên thế giới xây dựng và phát triển thêm công trình từ đó. Như vậy đấy, đó là những gì mình muốn chia sẻ hôm nay!

Reference Articles

DeepSeek đang thay đổi cuộc chơi AI toàn cầu như thế nào?

Dù tuổi đời ngắn, sức mạnh của DeepSeek R1 đã có thể sánh ngang hoặc thậm chí vượt trội so với những mô hình AI nổi tiếng như ChatGPT của OpenAI ...

Source: Mekong ASEAN

Toàn cảnh sự bùng nổ của Deepseek R1

Deepseek R1 đang trở thành vũ khí AI mới đầy uy lực, mở ra cuộc đua khốc liệt giữa các ông lớn công nghệ. Khám phá tất tần tất về Deepseek ...

Tại sao DeepSeek làm rung chuyển thế giới AI?

DeepSeek cho biết R1 gần hoặc tốt hơn các mô hình đối thủ trong một số sản phẩm hàng đầu như AIME 2024 đối với các tác vụ toán học: MMLU đối với ...

Source: ictvietnam.vn

DeepSeek AI: sự trỗi dậy của AI phương đông hay ...

Về mặt khoa học Mô Hình AI DeepSeek v3 và DeepSeek R1 thực sự có các đột phá rất hiệu quả về mặt công nghệ và kinh tế. Đặc biệt là mở ra cơ ...

Source: Tinhte.vn

Tại sao DeepSeek gây chấn động thế giới?

Giới đầu tư lo ngại các mô hình AI rẻ như DeepSeek sẽ làm giảm nhu cầu về chip đắt tiền cần thiết cho trung tâm dữ liệu, vốn thúc đẩy sự tăng ...

Source: VnExpress

Nghiên cứu cho thấy DeepSeek R1 có thể tạo ra nhiều nội ...

- Ngôn ngữ độc hại: DeepSeek R1 có tỉ lệ tạo ra nội dung chứa lời lẽ tục tĩu, kích động thù địch hoặc câu chuyện cực đoan cao hơn so với các AI ...

Source: Báo Mới

Khám Phá Bí Mật Đằng Sau Mô Hình DeepSeek R1 Giá Rẻ ...

Tuy nhiên, sự ra đời của DeepSeek R1 đang thay đổi ngành công nghiệp AI, khi mà DeepSeek được ước tính chỉ tiêu tốn khoảng 1,6 tỷ USD để phát triển các mô hình ...

Source: thaivanlinh.com

DeepSeek thay đổi định kiến về AI Trung Quốc như thế nào?

“Chất xúc tác” chính là DeepSeek R1, mô hình lý luận ra đời vài tuần sau mô hình ngôn ngữ lớn V3. Chúng có năng lực không thua kém của OpenAI ...

Source: Báo VietNamNet

Frank Melzer

Expert

Related Discussions

❖ Related Articles