Làm thế nào mà StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Tác giả: Xin Zhiyuan

Ngay khi Google StyleDrop ra mắt, nó đã ngay lập tức càn quét Internet.

Với bầu trời đầy sao của Van Gogh, AI hóa thân thành Master Van Gogh, và sau khi hiểu rõ phong cách trừu tượng này ở cấp độ cao nhất, anh ấy đã tạo ra vô số bức tranh tương tự.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Một phong cách hoạt hình khác, những đồ vật tôi muốn vẽ dễ thương hơn nhiều.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Thậm chí, nó có thể kiểm soát chính xác các chi tiết và thiết kế theo phong cách ban đầu của logo.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Điểm hấp dẫn của StyleDrop là chỉ cần một bức tranh làm tài liệu tham khảo, cho dù phong cách nghệ thuật có phức tạp đến đâu, nó vẫn có thể được giải cấu trúc và tái tạo.

Cư dân mạng cho rằng đó là loại công cụ AI đã loại bỏ các nhà thiết kế.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Nghiên cứu vụ nổ StyleDrop là sản phẩm mới nhất của nhóm nghiên cứu Google.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Địa chỉ giấy tờ:

Giờ đây, với các công cụ như StyleDrop, bạn không chỉ có thể vẽ dễ kiểm soát hơn mà còn có thể thực hiện những công việc tinh xảo mà trước đây không thể tưởng tượng được, chẳng hạn như vẽ logo.

Ngay cả các nhà khoa học của Nvidia cũng gọi đó là một kết quả "phi thường".

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Bậc thầy về tùy biến

Tác giả bài viết giới thiệu rằng nguồn cảm hứng cho StyleDrop là Eyedropper (công cụ hút màu/chọn màu).

Tương tự, StyleDrop cũng hy vọng rằng bạn có thể nhanh chóng và dễ dàng "chọn" một phong cách từ một/vài hình ảnh tham chiếu để tạo ra một hình ảnh theo phong cách đó.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Một con lười có thể có 18 phong cách:

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Một con gấu trúc có 24 phong cách:

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Màu nước do trẻ em vẽ được StyleDrop kiểm soát hoàn hảo và ngay cả những nếp nhăn trên giấy cũng được phục hồi.

Phải nói là quá mạnh.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Ngoài ra còn có StyleDrop đề cập đến việc thiết kế các chữ cái tiếng Anh theo các phong cách khác nhau:

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Tương tự là bức thư phong cách Van Gogh.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Ngoài ra còn có các bản vẽ đường. Vẽ đường nét là một hình ảnh trừu tượng ở mức độ cao và nó có yêu cầu rất cao về tính hợp lý của bố cục của thế hệ màn hình, các phương pháp trước đây rất khó thành công.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Các nét của bóng pho mát trong ảnh gốc được khôi phục cho các đối tượng trong mỗi ảnh.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Tham khảo Tạo LOGO Android.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Ngoài ra, các nhà nghiên cứu còn mở rộng khả năng của StyleDrop, không chỉ tùy chỉnh kiểu dáng, kết hợp với DreamBooth mà còn tùy chỉnh nội dung.

Ví dụ, vẫn theo phong cách của Van Gogh, hãy tạo ra phong cách vẽ tương tự cho Corgi:

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Thêm một em nữa đây, em Corgi bên dưới có cảm giác giống tượng "Nhân sư" trên kim tự tháp Ai Cập.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

làm việc như thế nào?

StyleDrop được xây dựng trên Muse và bao gồm hai phần chính:

Một là tinh chỉnh hiệu quả các tham số của Transformer trực quan được tạo và hai là đào tạo lặp đi lặp lại với phản hồi.

Sau đó, các nhà nghiên cứu tổng hợp hình ảnh từ hai mô hình tinh chỉnh.

Muse là một mô hình tổng hợp văn bản thành hình ảnh hiện đại dựa trên Transformer hình ảnh được tạo bằng mặt nạ. Nó chứa hai mô-đun tổng hợp để tạo ảnh cơ sở (256 × 256) và siêu phân giải (512 × 512 hoặc 1024 × 1024).

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Mỗi mô-đun bao gồm bộ mã hóa văn bản T, bộ biến áp G, bộ lấy mẫu S, bộ mã hóa hình ảnh E và bộ giải mã D.

T ánh xạ lời nhắc văn bản t ∈ T vào không gian nhúng liên tục E. G xử lý nhúng văn bản e ∈ E để tạo logarit l ∈ L của các chuỗi mã thông báo trực quan. S trích xuất một chuỗi mã thông báo trực quan v ∈ V từ logarit bằng cách giải mã lặp chạy một số bước suy luận biến áp dựa trên văn bản nhúng e và mã thông báo trực quan được giải mã từ các bước trước đó.

Cuối cùng, D ánh xạ chuỗi mã thông báo rời rạc tới không gian pixel I. Nói chung, với một dấu nhắc văn bản t, một hình ảnh tôi được tổng hợp như sau:

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Hình 2 là kiến trúc đơn giản hóa của lớp biến áp Muse, lớp này đã được sửa đổi một phần để hỗ trợ tinh chỉnh hiệu quả tham số (PEFT) và bộ điều hợp.

Chuỗi mã thông báo trực quan được hiển thị bằng màu xanh lá cây có điều kiện trên văn bản nhúng e được xử lý bằng cách sử dụng máy biến áp lớp L. Các tham số đã học θ được sử dụng để xây dựng các trọng số cho việc điều chỉnh bộ điều hợp.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Để huấn luyện θ, trong nhiều trường hợp, các nhà nghiên cứu có thể chỉ được cung cấp các hình ảnh làm tài liệu tham khảo về phong cách.

Các nhà nghiên cứu cần đính kèm lời nhắc văn bản theo cách thủ công. Họ đề xuất một cách tiếp cận đơn giản, theo khuôn mẫu để xây dựng lời nhắc văn bản bao gồm mô tả nội dung theo sau là cụm từ mô tả phong cách.

Ví dụ, các nhà nghiên cứu mô tả một đối tượng bằng "con mèo" trong Bảng 1 và thêm "bức tranh màu nước" làm mô tả phong cách.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Bao gồm các mô tả về nội dung và phong cách trong tín hiệu văn bản là rất quan trọng, vì nó giúp tách nội dung khỏi phong cách, đó là mục tiêu chính của các nhà nghiên cứu.

Hình 3 cho thấy đào tạo lặp đi lặp lại với thông tin phản hồi.

Khi được đào tạo trên một hình ảnh tham chiếu kiểu duy nhất (hộp màu cam), một số hình ảnh do StyleDrop tạo ra có thể hiển thị nội dung được trích xuất từ hình ảnh tham chiếu kiểu (hộp màu đỏ, hình ảnh có ngôi nhà tương tự như hình ảnh kiểu trong nền).

Các hình ảnh khác (hộp màu xanh lam) thực hiện tốt hơn việc tách phong cách khỏi nội dung. Đào tạo lặp lại StyleDrop trên các ví dụ tốt (hộp màu xanh lam) dẫn đến sự cân bằng tốt hơn giữa kiểu dáng và độ trung thực của văn bản (hộp màu xanh lá cây).

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Ở đây các nhà nghiên cứu cũng sử dụng hai phương pháp:

-CLIP điểm

Phương pháp này được sử dụng để đo sự liên kết của hình ảnh và văn bản. Do đó, nó có thể đánh giá chất lượng của hình ảnh được tạo bằng cách đo điểm CLIP (nghĩa là độ tương tự cosine của các nhúng CLIP trực quan và văn bản).

Nhà nghiên cứu có thể chọn ảnh CLIP có số điểm cao nhất. Họ gọi phương pháp này là Đào tạo Lặp đi lặp lại với Phản hồi CLIP (CF).

Trong các thử nghiệm, các nhà nghiên cứu nhận thấy rằng việc sử dụng điểm CLIP để đánh giá chất lượng của hình ảnh tổng hợp là một cách hiệu quả để cải thiện khả năng thu hồi (nghĩa là độ trung thực của văn bản) mà không làm giảm quá nhiều độ trung thực của kiểu dáng.

Tuy nhiên, mặt khác, điểm CLIP có thể không hoàn toàn phù hợp với ý định của con người, cũng như không nắm bắt được các thuộc tính phong cách tinh tế.

-HF

Phản hồi của con người (HF) là một cách đơn giản hơn để đưa trực tiếp ý định của người dùng vào đánh giá chất lượng hình ảnh tổng hợp.

HF đã được chứng minh là mạnh mẽ và hiệu quả trong việc tinh chỉnh LLM cho việc học tăng cường.

HF có thể được sử dụng để bù đắp cho việc điểm số CLIP không thể nắm bắt được các thuộc tính phong cách tinh tế.

Hiện nay, một số lượng lớn các nghiên cứu đã tập trung vào vấn đề cá nhân hóa của các mô hình khuếch tán văn bản thành hình ảnh để tổng hợp các hình ảnh chứa nhiều phong cách cá nhân.

Các nhà nghiên cứu đã chỉ ra cách kết hợp DreamBooth và StyleDrop một cách đơn giản, cho phép cá nhân hóa cả phong cách và nội dung.

Điều này được thực hiện bằng cách lấy mẫu từ hai bản phân phối thế hệ đã sửa đổi, được hướng dẫn bởi θs cho kiểu dáng và θc cho nội dung, tương ứng, các tham số bộ điều hợp được đào tạo độc lập trên hình ảnh tham chiếu nội dung và kiểu dáng.

Không giống như các sản phẩm có sẵn hiện có, phương pháp của nhóm không yêu cầu đào tạo chung các tham số có thể học được trên nhiều khái niệm, điều này dẫn đến sức mạnh tổng hợp lớn hơn, vì các bộ điều hợp được đào tạo trước được đào tạo riêng về một chủ đề và phong cách được đào tạo trên đó.

Quá trình lấy mẫu tổng thể của các nhà nghiên cứu tuân theo giải mã lặp lại của Phương trình (1), với các logarit được lấy mẫu khác nhau trong mỗi bước giải mã.

Đặt t là gợi ý văn bản và c là gợi ý văn bản không có bộ mô tả kiểu và logarit được tính ở bước k như sau:

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Trong đó: γ được sử dụng để cân bằng StyleDrop và DreamBooth - nếu γ bằng 0, chúng tôi nhận được StyleDrop, nếu γ là 1, chúng tôi nhận được DreamBooth.

Bằng cách đặt γ hợp lý, chúng ta có thể có được một hình ảnh phù hợp.

Cài đặt thử nghiệm

Cho đến nay, không có nghiên cứu sâu rộng nào được thực hiện về điều chỉnh kiểu cho các mô hình tạo văn bản thành hình ảnh.

Do đó, các nhà nghiên cứu đã đề xuất một giao thức thử nghiệm mới:

-thu thập dữ liệu

Các nhà nghiên cứu đã thu thập hàng chục bức tranh theo nhiều phong cách khác nhau, từ tranh màu nước và sơn dầu, hình minh họa phẳng, kết xuất 3D cho đến tác phẩm điêu khắc bằng các chất liệu khác nhau.

-mô hình cấu hình

Các nhà nghiên cứu đã điều chỉnh StyleDrop dựa trên Muse bằng bộ điều hợp. Đối với tất cả các thử nghiệm, trọng số của bộ điều hợp đã được cập nhật cho 1000 bước bằng cách sử dụng trình tối ưu hóa Adam với tỷ lệ học tập là 0,00003. Trừ khi có quy định khác, các nhà nghiên cứu sử dụng StyleDrop để biểu thị mô hình vòng hai được đào tạo trên hơn 10 hình ảnh tổng hợp có phản hồi của con người.

-Đánh giá

Việc đánh giá định lượng các báo cáo nghiên cứu dựa trên CLIP, đo lường tính nhất quán về phong cách và sự liên kết của văn bản. Ngoài ra, các nhà nghiên cứu đã tiến hành nghiên cứu sở thích của người dùng để đánh giá tính nhất quán của phong cách và căn chỉnh văn bản.

Như thể hiện trong hình, 18 bức ảnh với các phong cách khác nhau được các nhà nghiên cứu thu thập, là kết quả của quá trình xử lý StyleDrop.

Như bạn có thể thấy, StyleDrop có thể nắm bắt các sắc thái của kết cấu, bóng đổ và cấu trúc theo nhiều kiểu khác nhau, cho phép kiểm soát kiểu nhiều hơn trước.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Để so sánh, các nhà nghiên cứu cũng trình bày kết quả của DreamBooth trên Imagen, triển khai LoRA của DreamBooth trên Khuếch tán ổn định và kết quả của đảo ngược văn bản.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Kết quả cụ thể được thể hiện trong bảng, các chỉ số đánh giá điểm con người (trên) và điểm CLIP (dưới) của căn chỉnh hình ảnh-văn bản (Text) và căn chỉnh phong cách hình ảnh (Style).

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

So sánh định tính của (a) DreamBooth, (b) StyleDrop và (c) DreamBooth + StyleDrop:

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Ở đây, các nhà nghiên cứu đã áp dụng hai thước đo của điểm CLIP đã đề cập ở trên - điểm văn bản và điểm phong cách.

Đối với điểm văn bản, các nhà nghiên cứu đo lường độ tương tự cosine giữa nhúng hình ảnh và văn bản. Đối với điểm phong cách, các nhà nghiên cứu đo lường độ tương tự cosine giữa tham chiếu phong cách và việc nhúng hình ảnh tổng hợp.

Các nhà nghiên cứu đã tạo ra tổng cộng 1520 hình ảnh cho 190 tín hiệu văn bản. Mặc dù các nhà nghiên cứu hy vọng rằng điểm số cuối cùng sẽ cao hơn, nhưng trên thực tế, các chỉ số này không hoàn hảo.

Và đào tạo lặp đi lặp lại (CNTT) cải thiện điểm số văn bản, phù hợp với mục tiêu của các nhà nghiên cứu.

Tuy nhiên, như một sự đánh đổi, chúng bị giảm điểm số kiểu dáng trên các mô hình vượt qua lần đầu tiên, vì chúng được đào tạo về các hình ảnh tổng hợp, trong đó các kiểu dáng có thể bị sai lệch do sai lệch lựa chọn.

DreamBooth trên Imagen kém StyleDrop về điểm phong cách (0,644 so với 0,694 đối với HF).

Các nhà nghiên cứu nhận thấy rằng mức tăng điểm phong cách của DreamBooth trên Imagen là không đáng kể (0,569 → 0,644), trong khi mức tăng của StyleDrop trên Muse rõ ràng hơn (0,556 → 0,694).

Các nhà nghiên cứu đã phân tích rằng tinh chỉnh phong cách trên Muse hiệu quả hơn trên Imagen.

Ngoài ra, để kiểm soát chi tiết, StyleDrop ghi lại những khác biệt tinh tế về phong cách, chẳng hạn như chuyển màu, lớp hoặc góc sắc nét.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Bình luận phổ biến từ cư dân mạng

Nếu các nhà thiết kế có StyleDrop, hiệu quả công việc sẽ nhanh hơn gấp 10 lần.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Một ngày ở AI, 10 năm trên thế giới, AIGC đang phát triển với tốc độ ánh sáng, loại tốc độ ánh sáng làm mù mắt con người!

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Công cụ chỉ chạy theo xu thế, cái gì cần loại bỏ thì đã loại bỏ rồi.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Công cụ này tốt hơn nhiều so với Midjourney để làm Logo.

Làm thế nào StyleDrop của Google có thể thách thức công cụ vẽ AI Midjourney?

Người giới thiệu:

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)