Parti - mô hình bong da truc tiep chuyển văn bản thành hình ảnh

PV
PV
06:51 - 25/08/2022

Nhóm chuyên gia của Google Brain - trong đó có Tiến sĩ người Việt Nam Lương Minh Thắng đã xây dựng mô hình Parti "dạy" trí tuệ nhân tạo (bong da truc tiep) vẽ tranh dựa trên từ ngữ mô tả.

Mô bong da truc tiep Parti

Parti (Pathways Autoregressive Text-to-Image) là mô bong da truc tiep tự chuyển văn bản thành bong da truc tiep ảnh do nhóm chuyên gia của Google Brain nghiên cứu và phát triển.

Mô hình Parti cho phép tạo hình ảnh đúng như mô tả và mong muốn của người dùng. Công nghệ này có thể hỗ trợ những người chuyên làm công việc sáng tạo hình ảnh như nghệ sĩ, nhiếp ảnh gia, nhà thiết kế thời trang, đồ họa... Khi họ có ý tưởng về một bức ảnh, chỉ cần viết các chi tiết mong muốn, bong da truc tiep sẽ phân tích và cho ra bức ảnh gợi ý cho ý tưởng đó giúp họ tăng khả năng sáng tạo. Chỉ cần thay đổi một câu, từ, hay chi tiết trong văn bản có thể cho ra bức ảnh khác nhau.

Tiến sĩ Lương Minh Thắng (34 tuổi), là người Việt duy nhất trong nhóm nghiên cứu chủ chốt về mô hình này. Ngôn ngữ thường dùng trong giao tiếp của con người, nhưng "nếu ứng dụng công nghệ để tạo ra các bức ảnh, tranh sáng tạo thì có thể coi là bước tiến mới của bong da truc tiep", Tiến sĩ Thắng cho biết.

Các mô hình bong da truc tiep hiện nay ứng dụng trong ngôn ngữ thông qua mô hình chatbot có thể tương tác với con người bằng văn bản. Còn trong lĩnh vực hình ảnh, bong da truc tiep có thể nhận diện các vật thể trong ảnh. "Nếu kết hợp hai thứ này để chuyển hóa từ ngôn ngữ dạng văn bản thành hình ảnh sẽ tạo ra một mô hình bong da truc tiep rất hiện đại, hỗ trợ đắc lực cho con người trong lĩnh vực sáng tạo hình ảnh", Tiến sĩ Thắng nói về mô hình Parti.

Tiến sĩ Việt tại Google dùng bong da truc tiep chuyển văn bản thành hình ảnh - Ảnh 2.

Những bức ảnh do bong da truc tiep tạo ra dựa trên các mô tả bằng ngôn ngữ dưới dạng văn bản phía dưới.

Ảnh chụp màn bong da truc tiep

Để tạo ra mô hình Parti, Tiến sĩ Thắng và các chuyên gia Google sử dụng hàng trăm triệu cặp dữ liệu văn bản - hình ảnh tương ứng, huấn luyện cho mô hình bong da truc tiep. Dữ liệu được sử dụng từ các website, xử lý bằng mạng nẻuon nhân tạo có dung lượng khoảng 20 tỉ neuron. "Dựa trên những dữ liệu văn bản và hình ảnh, bong da truc tiep sẽ kết hợp lại để tạo ra một bức ảnh mới, giúp con người có những ý tưởng mới", Tiến sĩ Thắng chia sẻ.

Các chủ đề được mô hình Parti thể hiện nhiều nhất về thiên nhiên, động vật, đồ vật... Trên website của Google Reseach giới thiệu nhiều hình ảnh được tạo từ bong da truc tiep như ảnh thật.

Theo nhóm nghiên cứu, với những bong da truc tiep ảnh liên quan đến con người được nhóm xử lý cẩn trọng dựa trên nguyên tắc không gây ảnh hưởng tiêu cực đến cộng đồng về giới tính, sắc tộc, tôn giáo...

Tiến sĩ Việt tại Google dùng bong da truc tiep chuyển văn bản thành hình ảnh - Ảnh 3.

Những bức tranh sơn dầu theo phong cách họa sĩ nổi tiếng Van Gogh do bong da truc tiep thực hiện. Ảnh chụp màn hình

Nhược điểm hiện nay là với những văn bản quá dài, mô tả quá nhiều chi tiết, hay mô tả những hình ảnh có tính xung đột (như biển đặt cạnh sa mạc) thì bong da truc tiep có thể hiểu sai hoặc không cho ra kết quả.

Tiến sĩ Thắng cho biết, thời gian tới nhóm sẽ khắc phục hạn chế này để xây dựng mô hình bong da truc tiep hoàn thiện. Nhóm tính tới huấn luyện bong da truc tiep có thể chỉnh sửa hình ảnh theo yêu cầu trên văn bản của người dùng để phục vụ họ tốt hơn cũng như nghiên cứu tạo video từ nhiều tấm ảnh có nội dung tương tự nhau.

Chân dung Tiến sĩ Lương Minh Thắng

Lương Minh Thắng từng là học sinh chuyên Toán trường phổ thông Năng khiếu Đại học Quốc gia thành phố Hồ Chí Minh. Sau khi tốt nghiệp cấp 3, anh học ngành khoa học máy tính tại Đại học Quốc gia Singapore.

Tiến sĩ Việt tại Google dùng bong da truc tiep chuyển văn bản thành hình ảnh - Ảnh 1.

Tiến sĩ Lương Minh Thắng. Ảnh: NVCC

Tại đây, anh bắt đầu nghiên cứu về máy học và ngôn ngữ tự nhiên (natural language processing). Anh được giữ lại làm trợ lý nghiên cứu tại trường, cho đến năm 2011 anh nhận được học bổng tiến sỹ tại Đại học Stanford, Mỹ.

Tháng 9/2016, anh làm việc chính thức tại Google Brain. Công việc của anh là nghiên cứu về máy học, xử lý ngôn ngữu tự nhiên, áp dụng mạng neuron nhân bong da truc tiep giúp chương trình dịch thuật có thể tự động dịch những câu phức tạp thay vì dịch những cụm từ đơn lẻ như trước, giúp máy hiểu sâu hơn ý nghĩa của từ ngữ trong nhiều ngôn ngữ, đồng thời xử lý đoạn văn dài.

Tiến sĩ Lương Minh Thắng cũng là người đồng sáng lập tổ chức phi lợi nhuận VietAI nhằm bong da truc tiep cầu nối các nhà khoa học trên thế giới giúp nâng cao kỹ năng cho các nhà lập trình, chuyên viên công nghệ thông tin tại Việt Nam.

Năm 2018, anh được vinh danh trong top Forbes Under 30 Việt Nam (những gương mặt xuất sắc dưới 30 tuổi) trong lĩnh vực khoa học.

Google Brainlà một dự án của Google được triển khai vào năm 2011, tập trung nghiên cứu phương thức đưa trí tuệ nhân tạo (bong da truc tiep) vào những máy móc và robot - những vật con người coi là vô tri vô giác.

Mục đích của Google Brain là dạy máy móc cách tư duy như con người, dạy chúng cách xử lý dữ liệu, bong da truc tiep ảnh một cách nhanh chóng, hiệu quả, và cuối cùng là cho phép chúng đưa ra những quyết định như con người vẫn đang làm hàng ngày.

Các chuyên gia tại Google Brain kỳ vọng bong da truc tiep có thể góp phần giải quyết những vấn đề gây đau đầu nhất của thế giới hiện nay, như ngăn chặn biến đổi khí hậu nhờ những bộ cảm biến theo dõi sự thay đổi trong môi trường.

Nguồn: tổng hợp

Link nội dung:/parti-mo-hinh-bong da truc tiep-chuyen-van-ban-thanh-hinh-anh-179220824195549383.htm