Khả năng xử lý văn bản dài trở thành tiêu chuẩn mới của các mô hình lớn, các ông lớn trong nước và quốc tế đang đua nhau triển khai.
Chiều dài đầu vào ngữ cảnh của các mô hình lớn đang tăng lên với tốc độ đáng kinh ngạc, từ 4000 token ban đầu đã mở rộng lên đến 400000 token hiện nay. Khả năng xử lý văn bản dài này dường như đã trở thành "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn.
Trên thế giới, OpenAI đã nâng cấp nhiều lần để tăng độ dài ngữ cảnh của GPT-4 lên 32.000 token. Anthropic thậm chí đã mở rộng độ dài ngữ cảnh của mô hình Claude lên 100.000 token. LongLLaMA thậm chí có thể xử lý văn bản dài tới 256.000 token.
Trong nước, công ty mô hình lớn mới nổi là Kimi Chat thuộc Moon's Dark Side hỗ trợ nhập 200.000 ký tự Trung Quốc, tương đương khoảng 400.000 token. Công nghệ LongLoRA do Đại học Hồng Kông và MIT hợp tác phát triển có thể mở rộng độ dài văn bản của mô hình 7B tham số lên đến 100.000 token.
Hiện tại, nhiều công ty và tổ chức nghiên cứu hàng đầu trong lĩnh vực mô hình lớn như OpenAI, Anthropic, Meta, Mặt trăng tối đã coi việc mở rộng độ dài ngữ cảnh là hướng nâng cấp trọng điểm. Hầu hết những công ty này đều được thị trường vốn ưa chuộng, quy mô huy động vốn lên tới hàng tỷ đô la.
Việc nâng cao khả năng xử lý văn bản dài có nghĩa là mô hình có thể xử lý các đầu vào dài hơn, từ đó nâng cao khả năng hiểu biết đọc. Đồng thời, điều này cũng thúc đẩy việc áp dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, pháp lý, khoa học nghiên cứu. Tuy nhiên, việc chỉ đơn thuần theo đuổi chiều dài văn bản không thể đồng nghĩa trực tiếp với việc nâng cao hiệu quả của mô hình. Nghiên cứu đã chỉ ra rằng, yếu tố quan trọng hơn là mô hình làm thế nào để tận dụng hiệu quả thông tin ngữ cảnh.
Mặc dù vậy, việc khám phá khả năng của văn bản dài trong ngành vẫn đang trong giai đoạn phát triển mạnh mẽ. 400.000 token có thể chỉ là một khởi đầu, trong tương lai vẫn còn nhiều không gian để đột phá lớn hơn.
Tại sao các công ty mô hình lớn lại "cuốn" văn bản dài?
Người sáng lập mặt tối của mặt trăng, Yang Zhilin, cho biết chính vì giới hạn về độ dài đầu vào mà các mô hình lớn gặp phải khó khăn trong việc triển khai ở nhiều tình huống ứng dụng. Ví dụ, trong các lĩnh vực như nhân vật ảo, trò chơi kịch bản giết người, phân tích pháp lý, đều cần xử lý một lượng lớn thông tin ngữ cảnh.
Khả năng xử lý văn bản dài là rất quan trọng đối với các ứng dụng Agent và AI gốc trong tương lai. Agent cần sử dụng thông tin lịch sử để lập kế hoạch quyết định, trong khi các ứng dụng AI cần duy trì trải nghiệm người dùng liên tục.
Yang Zhilin cho rằng, giới hạn của mô hình lớn được quyết định bởi khả năng từng bước và số bước thực hiện, trong đó khả năng từng bước liên quan đến số lượng tham số, còn số bước thực hiện chính là độ dài ngữ cảnh. Bằng cách cung cấp nhiều ngữ cảnh và thông tin chi tiết hơn, văn bản dài có thể giúp mô hình hiểu ý nghĩa chính xác hơn, giảm thiểu sự mơ hồ và nâng cao khả năng suy luận.
Công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề mà các mô hình lớn đã gặp phải trong giai đoạn đầu, mà còn tăng cường chức năng của chúng, thúc đẩy việc ứng dụng trong ngành. Điều này đánh dấu việc các mô hình lớn đang tiến từ thời đại LLM sang thời đại Long LLM.
Kimi Chat mới ra mắt của Mặt Trăng Tối đã giới thiệu một số tính năng mới trong thời đại Long LLM:
Trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản siêu dài
Chuyển toàn bộ bài luận thành mã có thể thực thi
Dựa trên khối lượng lớn tài liệu để thực hiện các cuộc đối thoại nhập vai chân thực
Điều này cho thấy, robot đối thoại đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, có khả năng trở thành công cụ mới để thúc đẩy việc áp dụng trong ngành.
Yang Zhilin cho rằng, trong tương lai thị trường mô hình lớn trong nước sẽ chia thành hai trại toB và toC. Trong lĩnh vực toC, sẽ xuất hiện các ứng dụng siêu được xây dựng dựa trên mô hình tự nghiên cứu.
Tuy nhiên, hiện tại còn nhiều không gian tối ưu cho các tình huống đối thoại dài, chẳng hạn như kết nối trực tuyến thời gian thực, tạm dừng chỉnh sửa, độ chính xác và các khía cạnh khác vẫn cần cải thiện.
Nghịch lý "tam giác không thể" của văn bản dài
Công nghệ văn bản dài đang đối mặt với "tam giác không thể" của độ dài văn bản, sự chú ý và sức mạnh tính toán:
Văn bản càng dài, càng khó tập trung đầy đủ sự chú ý
Sự chú ý có hạn, văn bản ngắn khó đọc hiểu thông tin phức tạp.
Xử lý văn bản dài cần nhiều sức mạnh tính toán, làm tăng chi phí
Vấn đề này xuất phát từ cấu trúc Transformer mà hầu hết các mô hình áp dụng. Cơ chế tự chú ý trong đó làm cho khối lượng tính toán tăng theo cấp số nhân với chiều dài ngữ cảnh.
Nghiên cứu cho thấy, văn cảnh quá dài sẽ dẫn đến tỷ lệ thông tin liên quan giảm, làm tăng sự phân tán chú ý. Điều này tạo thành mâu thuẫn giữa độ dài văn bản và sự chú ý. Đồng thời, việc vượt qua văn bản dài hơn cũng đòi hỏi nhiều sức mạnh tính toán hơn, tạo thành mâu thuẫn giữa độ dài văn bản và sức mạnh tính toán.
Hiện tại có ba giải pháp chính:
Sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài
Tối ưu hóa tính toán cơ chế tự chú ý
Sử dụng phương pháp tối ưu hóa mô hình
Giải pháp đầu tiên xử lý bằng cách chia nhỏ văn bản dài và tìm kiếm các đoạn văn bản ngắn.
Giải pháp thứ hai là phương pháp được sử dụng phổ biến nhất hiện nay, tái cấu trúc cách tính toán tự chú ý. Ví dụ, công nghệ LongLoRA nhóm các văn bản dài để tính toán, giảm khối lượng tính toán.
Giải pháp thứ ba tập trung vào tối ưu hóa mô hình, chẳng hạn như LongLLaMA thực hiện ngoại suy chuỗi dài thông qua việc tinh chỉnh.
Mặc dù "tam giác không thể" của văn bản dài tạm thời không có giải pháp, nhưng điều này cũng làm rõ hướng khám phá: tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và chi phí tính toán, vừa có thể xử lý đủ thông tin, vừa có thể cân nhắc giữa tính toán sự chú ý và chi phí tính toán.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
23 thích
Phần thưởng
23
5
Đăng lại
Chia sẻ
Bình luận
0/400
SmartContractPlumber
· 07-07 16:03
Dài một chút thì tốt, trước đây xem mã của những dự án Rug Pull đó đều quá ngắn, nhìn đến mù mắt.
Xem bản gốcTrả lời0
All-InQueen
· 07-07 12:46
Khả năng tính toán ăn được không hahaha
Xem bản gốcTrả lời0
SigmaValidator
· 07-05 23:49
Ai có thể đọc hết một đoạn văn dài chứ?
Xem bản gốcTrả lời0
InfraVibes
· 07-05 23:23
Kéo cái gì dài như vậy, trước tiên hãy làm rõ cuộc đối thoại ngắn.
Xem bản gốcTrả lời0
StableBoi
· 07-05 23:23
Khả năng tính toán đi đâu kiếm? Thật sự đắt chết người.
Khả năng văn bản dài trở thành lĩnh vực mới của mô hình AI lớn, nhiều ông lớn đua nhau tham gia.
Khả năng xử lý văn bản dài trở thành tiêu chuẩn mới của các mô hình lớn, các ông lớn trong nước và quốc tế đang đua nhau triển khai.
Chiều dài đầu vào ngữ cảnh của các mô hình lớn đang tăng lên với tốc độ đáng kinh ngạc, từ 4000 token ban đầu đã mở rộng lên đến 400000 token hiện nay. Khả năng xử lý văn bản dài này dường như đã trở thành "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn.
Trên thế giới, OpenAI đã nâng cấp nhiều lần để tăng độ dài ngữ cảnh của GPT-4 lên 32.000 token. Anthropic thậm chí đã mở rộng độ dài ngữ cảnh của mô hình Claude lên 100.000 token. LongLLaMA thậm chí có thể xử lý văn bản dài tới 256.000 token.
Trong nước, công ty mô hình lớn mới nổi là Kimi Chat thuộc Moon's Dark Side hỗ trợ nhập 200.000 ký tự Trung Quốc, tương đương khoảng 400.000 token. Công nghệ LongLoRA do Đại học Hồng Kông và MIT hợp tác phát triển có thể mở rộng độ dài văn bản của mô hình 7B tham số lên đến 100.000 token.
Hiện tại, nhiều công ty và tổ chức nghiên cứu hàng đầu trong lĩnh vực mô hình lớn như OpenAI, Anthropic, Meta, Mặt trăng tối đã coi việc mở rộng độ dài ngữ cảnh là hướng nâng cấp trọng điểm. Hầu hết những công ty này đều được thị trường vốn ưa chuộng, quy mô huy động vốn lên tới hàng tỷ đô la.
Việc nâng cao khả năng xử lý văn bản dài có nghĩa là mô hình có thể xử lý các đầu vào dài hơn, từ đó nâng cao khả năng hiểu biết đọc. Đồng thời, điều này cũng thúc đẩy việc áp dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, pháp lý, khoa học nghiên cứu. Tuy nhiên, việc chỉ đơn thuần theo đuổi chiều dài văn bản không thể đồng nghĩa trực tiếp với việc nâng cao hiệu quả của mô hình. Nghiên cứu đã chỉ ra rằng, yếu tố quan trọng hơn là mô hình làm thế nào để tận dụng hiệu quả thông tin ngữ cảnh.
Mặc dù vậy, việc khám phá khả năng của văn bản dài trong ngành vẫn đang trong giai đoạn phát triển mạnh mẽ. 400.000 token có thể chỉ là một khởi đầu, trong tương lai vẫn còn nhiều không gian để đột phá lớn hơn.
Tại sao các công ty mô hình lớn lại "cuốn" văn bản dài?
Người sáng lập mặt tối của mặt trăng, Yang Zhilin, cho biết chính vì giới hạn về độ dài đầu vào mà các mô hình lớn gặp phải khó khăn trong việc triển khai ở nhiều tình huống ứng dụng. Ví dụ, trong các lĩnh vực như nhân vật ảo, trò chơi kịch bản giết người, phân tích pháp lý, đều cần xử lý một lượng lớn thông tin ngữ cảnh.
Khả năng xử lý văn bản dài là rất quan trọng đối với các ứng dụng Agent và AI gốc trong tương lai. Agent cần sử dụng thông tin lịch sử để lập kế hoạch quyết định, trong khi các ứng dụng AI cần duy trì trải nghiệm người dùng liên tục.
Yang Zhilin cho rằng, giới hạn của mô hình lớn được quyết định bởi khả năng từng bước và số bước thực hiện, trong đó khả năng từng bước liên quan đến số lượng tham số, còn số bước thực hiện chính là độ dài ngữ cảnh. Bằng cách cung cấp nhiều ngữ cảnh và thông tin chi tiết hơn, văn bản dài có thể giúp mô hình hiểu ý nghĩa chính xác hơn, giảm thiểu sự mơ hồ và nâng cao khả năng suy luận.
Công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề mà các mô hình lớn đã gặp phải trong giai đoạn đầu, mà còn tăng cường chức năng của chúng, thúc đẩy việc ứng dụng trong ngành. Điều này đánh dấu việc các mô hình lớn đang tiến từ thời đại LLM sang thời đại Long LLM.
Kimi Chat mới ra mắt của Mặt Trăng Tối đã giới thiệu một số tính năng mới trong thời đại Long LLM:
Điều này cho thấy, robot đối thoại đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, có khả năng trở thành công cụ mới để thúc đẩy việc áp dụng trong ngành.
Yang Zhilin cho rằng, trong tương lai thị trường mô hình lớn trong nước sẽ chia thành hai trại toB và toC. Trong lĩnh vực toC, sẽ xuất hiện các ứng dụng siêu được xây dựng dựa trên mô hình tự nghiên cứu.
Tuy nhiên, hiện tại còn nhiều không gian tối ưu cho các tình huống đối thoại dài, chẳng hạn như kết nối trực tuyến thời gian thực, tạm dừng chỉnh sửa, độ chính xác và các khía cạnh khác vẫn cần cải thiện.
Nghịch lý "tam giác không thể" của văn bản dài
Công nghệ văn bản dài đang đối mặt với "tam giác không thể" của độ dài văn bản, sự chú ý và sức mạnh tính toán:
Vấn đề này xuất phát từ cấu trúc Transformer mà hầu hết các mô hình áp dụng. Cơ chế tự chú ý trong đó làm cho khối lượng tính toán tăng theo cấp số nhân với chiều dài ngữ cảnh.
Nghiên cứu cho thấy, văn cảnh quá dài sẽ dẫn đến tỷ lệ thông tin liên quan giảm, làm tăng sự phân tán chú ý. Điều này tạo thành mâu thuẫn giữa độ dài văn bản và sự chú ý. Đồng thời, việc vượt qua văn bản dài hơn cũng đòi hỏi nhiều sức mạnh tính toán hơn, tạo thành mâu thuẫn giữa độ dài văn bản và sức mạnh tính toán.
Hiện tại có ba giải pháp chính:
Giải pháp đầu tiên xử lý bằng cách chia nhỏ văn bản dài và tìm kiếm các đoạn văn bản ngắn.
Giải pháp thứ hai là phương pháp được sử dụng phổ biến nhất hiện nay, tái cấu trúc cách tính toán tự chú ý. Ví dụ, công nghệ LongLoRA nhóm các văn bản dài để tính toán, giảm khối lượng tính toán.
Giải pháp thứ ba tập trung vào tối ưu hóa mô hình, chẳng hạn như LongLLaMA thực hiện ngoại suy chuỗi dài thông qua việc tinh chỉnh.
Mặc dù "tam giác không thể" của văn bản dài tạm thời không có giải pháp, nhưng điều này cũng làm rõ hướng khám phá: tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và chi phí tính toán, vừa có thể xử lý đủ thông tin, vừa có thể cân nhắc giữa tính toán sự chú ý và chi phí tính toán.