Welcome to Roar Media's archive of content published from 2014 to 2023. As of 2024, Roar Media has ceased editorial operations and will no longer publish new content on this website.
The company has transitioned to a content production studio, offering creative solutions for brands and agencies.
To learn more about this transition, read our latest announcement here. To visit the new Roar Media website, click here.

কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্পের উত্থান ঘটলো যেভাবে

পৃথিবী তার ৪৫০ কোটি বছরের ইতিহাসে বহু উত্থান-পতনের পর্যায় পার করে এসেছে। প্রাগৈতিহাসিক-কালের দানবীয় ডাইনোসর থেকে গুহাবাসী মানুষের শিকারপর্ব, সবকিছুরই জ্বলন্ত সাক্ষীই সে। মানবজাতি সংঘবদ্ধ হয়ে পৃথিবীর বিভিন্ন প্রান্তে সুসংগঠিত সভ্যতা গড়ে তুলে যখন লিপি আবিষ্কার করল, তখনই তারা প্রাগৈতিহাসিক যুগ থেকে লিখিত ইতিহাসের যুগে প্রবেশ করল। সে-ই থেকে শুরু ক্রমশ উত্তরোত্তর উন্নতি এবং বিকাশ লাভ, যার ফল হিসেবে আজকের আধুনিক প্রযুক্তির এই যুগ। আধুনিক প্রযুক্তির এই যুগের সর্বশেষ সংযোজন হলো আর্টিফিশিয়াল ইন্টেলিজেন্স বা কৃত্রিম বুদ্ধিমত্তা, যা ভবিষ্যতে নতুন এক যুগের সূচনা করতে যাচ্ছে। ইতোমধ্যে কৃত্রিম বুদ্ধিমত্তার জয়জয়কার দেখা যেতে শুরু করেছে। তাই অদূর ভবিষ্যতে মানুষের জায়গা যে যন্ত্র দখল করে নিতে যাচ্ছে, তা বলাই বাহুল্য। কৃত্রিম বুদ্ধিমত্তা যত প্রকার ভেল্কিবাজি দেখিয়ে মানুষকে বিস্ময়ে হতবাক করেছে, তার মধ্যে কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্প বা ‘AI Generated Art’ এর নাম উঠে আসবে অবধারিতভাবেই।

আর্টিফিশিয়াল ইন্টিলিজেন্স; Image Source: iStock.

সম্প্রতি ‘কলোরাডো স্টেট ফেয়ার‘ নামে এক বার্ষিক চিত্রকর্ম প্রতিযোগিতায়, জ্যাসন এম. অ্যালেনের আঁকা ‘Théâtre D’opéra Spatial’ নামে একটি রঙিন চিত্র ডিজিটাল আর্টস ক্যাটাগরিতে প্রথম হয়। পেশায় জ্যাসন অ্যালেন হলেন একজন ভিডিয়ো গেম ডিজাইনার, যিনি পুরষ্কারস্বরূপ এর থেকে ৩০০ ডলার জিতে নিয়েছেন। কিন্তু মজার ব্যাপার হলো, এই চিত্রটি নির্মাণে তিনি কোনো ডিজিটাল ক্যামেরা বা কোনো ইমেজ ক্রিয়েশন সফটওয়্যারের সাহায্য নেননি। সেটি ছিল সম্পূর্ণ আর্টিফিশিয়াল ইন্টেলিজেন্স ব্যবহার করে বানানো এক পেইন্টিং। মূলত এই ঘটনার পর থেকেই ‘AI Generated Art/Painting’ নিয়ে সাধারণ মানুষের মাঝে ব্যাপক আগ্রহ এবং উদ্দীপনার সৃষ্টি হয়।

অতীতে কৃত্রিম বুদ্ধিমত্তার পরিধি গৎবাঁধা কিছু জিনিস, যেমন- দাবা খেলা, গাণিতিক সমস্যা সমাধানের মাঝে সীমাবদ্ধ থাকলেও, বর্তমানে কৃত্রিম বুদ্ধিমত্তার ব্যবহার এবং গবেষণা বহুলাংশে বৃদ্ধি পেয়েছে। স্বয়ংক্রিয়ভাবে গাড়ি চালনা থেকে শুরু করে, বিভিন্ন জটিল রোল নির্ণয়েও কৃত্রিম বুদ্ধিমত্তা মানুষকে দারুণ সাহায্য করছে। আর্টিফিশিয়াল ইন্টেলিজেন্সভিত্তিক ইমেজ তৈরির ক্ষেত্রে টেক্সট কমান্ড নেওয়া শব্দগুলোকে ইন্টারনেন্টে থাকা অনুরূপ বিকল্প ইমেজের সাথে মিলিয়ে কাছাকাছি ধাঁচের ইমেজগুলোকে বের করা হয়। তারপর সেগুলো থেকে কমান্ডে উল্লেখিত সাবজেক্ট এক্সট্রাক্টের একসাথে মার্জ করে প্রেজেন্ট করা হয়।

জ্যাসন এম. অ্যালেনের আঁকা ‘Théâtre D’opéra Spatial’; Image Source: Jason Allen/Discord.

এবার আলোচনা করা যাক কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্পের অতীত নিয়ে। শুরুর দিকে আর্টিফিশিয়াল ইন্টেলিজেন্সের কার্যক্ষমতা ছিল সীমিত। এটা তখন শুধু এলোমেলো তথ্য থেকে (Unorganized Data) থেকে একটা প্যাটার্ন খুঁজে বের করে সেগুলোকে শ্রেণি অনুযায়ী সাজাতে পারত। ১৯৬৭ সালে জার্মান গণিতবিদ, বিজ্ঞানী ফ্রেইডার নেক সর্বপ্রথম কৃত্রিম বুদ্ধিমত্তার সাহায্যে ‘ম্যাট্রিক্স মাল্টিপ্লিকেশন’ নামে বারোটি ছবি তৈরিতে সক্ষম হন। তবে এগুলো ছিল বিভিন্ন জ্যামিতিক আকৃতি। কৃত্রিম বুদ্ধিমত্তা কাজে লাগিয়ে ছবি তৈরির বিষয়টিতে আংশিক সাফল্য আসে সত্তরের দশকে। সে সময় ‘Computer Aided Design (CAD)’ এর মাধ্যমে থ্রিডি শেপ তৈরি করা যেত।

ফ্রেইডার নেক ম্যাট্রিক্স মাল্টিপ্লিকেশন নামে ১২টি ইমেজ তৈরি করেন; Image Source: Tate.

‘AI Generated Art’ এর পথচলাকে আরও সামনে এগিয়ে নিতে ১৯৭৩ সালে ব্রিটিশ আর্টিস্ট হ্যারল্ড কোহেন ‘AARON‘ নামে একটি কম্পিউটার প্রোগ্রাম বা অ্যালগরিদম ডেভেলপ করেন। এই অ্যালগরিদম ব্যবহার হ্যান্ড ড্রয়িং করা যেত, যা ছিল সাধারণ এবড়োখেবড়ো প্যাটার্নের। সময়ের সাথে অ্যারনকে অধিক প্রোগ্রাম কনস্ট্রাকশন দেওয়ার মাধ্যমে আরও ডেভেলপ করা হয়, যাতে এটি আরও জটিল বস্তু আঁকতে পারে।

AARON দিয়ে জেনারেট করা ইমেজ; Image Source: AARON.

একবিংশ শতাব্দীর শুরুর দিকে মেশিন লার্নিংয়ের মাধ্যমে ইমেজ থেকে সাবজেক্ট এক্সট্রাক্ট করার মডিউল নিয়ে কাজ শুরু করেন বিশ্লেষকেরা। সেই প্রেক্ষিতে ২০১৪ সালের জুন মাসে ইয়ান গুডফেলো এবং তার সহকর্মীরা ‘Generative adversarial networks (GAN)’ নামে এক মেশিন লার্নিং ফ্রেমওয়ার্ক অবমুক্ত করেন। এই ফ্রেমওয়ার্ক দুটি নিউরাল নেটওয়ার্ককে প্রসেস করে ইমেজ এবং ভয়েজ জেনারেট করতে পারত। এছাড়াও ‘Variational autoencoder‘ এবং ‘Diffusion Model‘ নামে আরও দুটি ইমেজ প্রসেসিং সিস্টেম রয়েছে। ক্যাথরিন প্রোসন নামে একজন আর্টিস্ট ডিফিউশনাল মডেলের সহায়তায় ‘ক্লোজ টু টেক্সট’ ইমেজের লেয়ার ব্যবহার করে একটি পূর্ণাঙ্গ ইমেজ তৈরি করার পদ্ধতি ডেভেলপ করেন, যেখানে আর্ট স্টাইল এবং অন্যান্য ভেরিয়েবল উল্লেখ করা যেত।

Generative Adversarial Networks; Image Source: Toptal.

এজন্য তিনি সাহায্য নিয়েছিলেন ‘Constrastive Language Image Pretraining’ বা ‘CLIP‘ এর, যার মাধ্যমে ইন্টারনেটে ছড়িয়ে-ছিটিয়ে থাকা লক্ষ লক্ষ ইমেজের অল্টারনেটিভ টেক্সট থেকে ডেটা নিয়ে ‘CLIP’ কে প্রশিক্ষণ দেওয়া হয়েছে। আর্টিফিশিয়াল ইন্টেলিজেন্সি নিয়ে ঘাঁটাঘাঁটি করা ডেভেলপাররা তখন ক্যাথরিনের কোডগুলোতে তাদের ইচ্ছানুযায়ী পরিবর্তন আনেন। পরে তা ‘CLIP’-এ সংযুক্ত করে বিভিন্ন নামে রিলিজ দেওয়া শুরু করেন। এসব দেখে হাত-পা গুটিয়ে বসে থাকেনি টেক জায়ান্ট গুগলও। গুগলের প্রকৌশলী অ্যালেক্সান্ডার মর্ডভিন্টসেভ ২০১৫ সালে কম্পিউটার ভিশন প্রোগ্রাম ‘Google DeepDream‘ রিলিজ করেন।

ডিপড্রিম দিয়ে জেনারেট করা মোনালিসার ইমেজ; Image Source: DeepDream.

ডিপড্রিম নাম দেওয়ার কারণ হচ্ছে এর অ্যালগরিদম ব্যবহার করে স্বপ্নের মতো হ্যালোসিনোজেনিক ইমেজ তৈরি করা যেত। পরবর্তীতে ‘Neural Style Transfer’ নামে এক আর্টিফিশিয়াল ইন্টেলিজেন্সির উদ্ভব ঘটায় প্রকৌশলীরা, যা অনলাইনে জগতে বেশ সাড়া ফেলতে সক্ষম হয়। ২০১৯ সালে ‘this person doesn’t exist‘ নামে এক ওয়েবসাইট লঞ্চ করা হয়, যেখানে জেনারেটিভ অ্যাডাভার্সাল নেটওয়ার্ক এমন সব মানুষের মুখাবয়বয়ের ছবি তৈরি করত, বাস্তবে যাদের কোনো অস্তিত্ব নেই।

this person doesn’t exist থেকে নেওয়া মানুষদের ছবি; Image Source: This person doesn’t exists.

২০২১ সালের মে মাসে ‘GAN’-এর উন্নত সংস্করণ হিসেবে ডিফিউশন মডেলের ব্যবহার শুরু হয়। ডিফিউশন মডেলের সাথে GAN এর মূল পার্থক্য ছিল, এটা ‘GAN’ কমান্ডের সাথে শতভাগ সাদৃশ্যপূর্ণ ছবি তৈরি করতে না পারলেও, ডিফিউশন মডেলে কমান্ডে উল্লেখিত সাবজেক্টকে ধাপে ধাপে সেট করে ডিনয়েজিংয়ের মাধ্যমে একদম পরিষ্কার এবং বাস্তব ছবি তৈরি করতে পারত। ‘AI Generated ART’ এর জগতে বৈপ্লবিক পরিবর্তন আসে যখন ‘CLIP’ আর ডিফিউশন মডেলের মিশেলে ‘Open AI CLIP Diffusion’ রিলিজ দেওয়া হয়। সময়ের সাথে সাথে ‘CLIP Diffusion’ এর উন্নত সংস্করণ, যেমন – Disco Diffusion, Jax Diffusion, Latent Diffusion, Centipade Diffuision ইত্যাদি ডেভেলপ করেন প্রকৌশলীরা। এদের মধ্যে সবচেয়ে জনপ্রিয়তা কুড়িয়েছে Disco Diffusion, কারণ এই মডিউলে তৈরি আর্টের উপর ব্যবহারকারীর নিয়ন্ত্রণ থাকে সিংহভাগ। ব্যবহারকারীর কমান্ড অনুযায়ীই ইমেজ আউটপুট দেওয়া হয়। যেমন- আর্ট স্টাইল কেমন হবে, ছবির আয়তন কেমন হবে ইত্যাদি।

Disco Diffusion দিয়ে জেনারেট করা ইমেজ; Image Source: Disco Diffusion.

Jax diffusion জ্যামিতিক আকৃতিগুলোকে সহজেই ফুটিয়ে তুলতে পারে। Centipade Diffuision হলো Disco Diffusion এবং Latent Diffusion এর সমন্বয়, যা কৃত্রিম বুদ্ধিমত্তার ধারণাকে আরও পরিষ্কারভাবে তুলে ধরতে পারে। ‘Open AI’ ২০২১ সালের ৫ জানুয়ারি ‘DALL·E’ লঞ্চ করে যেখানে প্লেইন টেক্সট কমান্ডের উপর ভিত্তি করে আর্টিফিশিয়াল ইমেজ জেনারেট করা যেত। ‘Dall.E’ কতটা বাস্তবিক ছবি জেনারেট করতে পারছে সেটা থেকেও গুরুত্বপূর্ণ হলো, কৃত্রিম বুদ্ধিমত্তা কাজে লাগিয়ে সে টেক্সট কমান্ডগুলো কতটা নিখুঁতভাবে বুঝতে পারছে।

Variational Auto Encoder; Image Source: Geek.

কিছুদিন আগে কল্পনার ছবিকে মিনিটের মধ্যে বাস্তবে রূপ দিয়ে জনপ্রিয়তা তুঙ্গে ছিল কৃত্রিম বুদ্ধিমত্তার বট ‘Midjourney AI‘, যা Discord সার্ভারে সবার জন্য মডিউল ওপেন করে দিয়েছিল। ওখানে প্রতিটি কমান্ডের জন্য ভিন্ন ভিন্ন সংস্করণের চারটি ইমেজ তৈরি হয়। ব্যবহারকারী তার পছন্দ অনুযায়ী সংস্করণ বেছে নিতে পারবে। এছাড়াও এতে ১৬৬৪ × ১৬৬৪ পিক্সেলের বড় একটি ইমেজের আউটপুট, ভেরিয়েন্ট তৈরি করা, লাইট আপস্কেল রেডোর মতো সুবিধা পাওয়া যেত। বিনামূল্যে একটি অ্যাকাউন্ট দিয়ে সর্বোচ্চ ২৫টি কমান্ড দেওয়া যায় এতে। বেসিক মেম্বারশিপ চার্জ প্রতিমাসে ১০ ডলার করে কাটে, যেখানে ইমেজ জেনারেট করা যাবে ৯০০টি। এছাড়াও স্ট্যান্ডার্ড মেম্বারশিপের জন্য পকেট থেকে প্রতিমাসে খরচ করতে হবে ৩০ ডলার, যেখানে ব্যবহারকারীরা আনলিমিটেড কাজ করতে পারবে। সর্বসাধারণের জন্য উন্মুক্ত এই প্লাটফর্ম যেকোনো অ্যাবিউসিভ, ভায়োলেন্ট কমান্ড রেস্ট্রিকটেড করে দেওয়ায়, এর দ্বারা নেতিবাচক প্রভাব ফেলা ডিস্টার্বিং কোনো ইমেজ তৈরি করা সম্ভব হচ্ছে না।

মিডজার্নি দিয়ে বানানো একটি ইমেজ; Image Source: Midjourney AI.

আর্টিফিশিয়াল ইন্টেলিজেন্স জেনারেটেড আর্ট আরও যে কারণে আলোচনা-সমালোচনার অঙ্গনে জায়গা করে নিয়েছে, তা হলো ডিপ ফেক ভিডিও। জনপ্রিয় হলিউড অভিনেতা টম ক্রুজ থেকে বারাক ওবামা, অনেকের চেহারা দিয়েই ডিপ ফেক ভিডিও বানানো হয়েছে। ভিডিওতে টম ক্রুজ টিকটকে কিংবা বিশ্বখ্যাত র‍্যাপার স্নুপ ডুগকে টেরট কার্ড রিডিংয়ে দেখা গেছে, যা বাস্তবে কখনোই ঘটেনি। যদিও এগুলো সাংঘর্ষিক কোনো বিতর্কের জন্ম দেয়নি।

ডিপ ফেইক দিয়ে বানানো ভিডিওতে বারাক ওবামা এবং ভ্লাদিমির পুতিন; Image Source: Fox News.

তবে কৃত্রিম বুদ্ধিমত্তার বিশাল এই জগত ওপেন সোর্স হবার দরুন, কোডিং জ্ঞানসম্পন্ন যে-কেউ ইচ্ছামতো এর ডেটা ম্যানিপুলেশনের সক্ষমতা রাখে। সেজন্য বার বার আঙুল উঁচিয়ে এর দিকে অনুযোগের সুর তুলছে আর্টিফিশিয়াল ইন্টেলিজেন্স নিয়ে পেশাগতভাবে যুক্ত থাকা টেক কোম্পানিগুলো। এসব রিসোর্সকে নির্দিষ্ট একটা গণ্ডিতে আবদ্ধ করে রাখা ব্যবসায়ীক দিক থেকে কতখানি সম্ভব, তা এখনও তর্ক-সাপেক্ষ। ‘Open AI‘ এর দাবি, ‘DALL.E’ এবং ‘DALL.E – 2’ শুধুমাত্র গবেষণাভিত্তিক কাজের জন্য বানানো হয়েছে। বর্তমানে ‘DALL.E’ এর প্রবেশাধিকার শুধুমাত্র সীমিত কিছু ব্যবহারকারী, আর্টিস্ট, ডেভেলপার এবং গবেষকদের কাছেই রয়েছে। ‘Open AI’ এর এক চমৎকার দিক হলো, এই ইমেজ জেনারেটিং মডিউল সকল ধরনের ক্ষতিকর, অ্যাডাল্ট, উগ্র, হিংস্র কন্টেন্ট তৈরির পাশাপাশি তারকা, রাজনীতিবিদ, কিংবা খ্যাতিমান কোনো ব্যক্তির ছবির অসদ্ব্যবহার থেকে সর্বদা ব্যবহারকারীদের নিরুৎসাহিত করে আসছে।

যদিও ‘AI Generated Art Technology’ জগত এখনও সম্পূর্ণভাবে বিকশিত হয়নি, তবু এর মডিউলগুলো অসাধারণ সব ফলাফল দিতে শুরু করেছে। কৃত্রিম বুদ্ধিমত্তাভিত্তিক মডিউলগুলো মানুষকে ডিজিটাল আর্ট ক্রিয়েশন এবং ম্যানিপুলেশনে সাহায্য করছে। ফলে একজন শিল্পী তাদের সৃষ্টিশীলতা মেশিন লার্নিংয়ের সাথে মিশিয়ে আরও ভালো আউটপুট পাচ্ছে। এটা বাঁচিয়ে দিচ্ছে শিল্পীদের মূল্যবান সময়, কমিয়ে আনছে মানবিক ভুলের পরিমাণ। অ্যাডোবি স্যুইটের মতো সফটওয়্যারগুলো বেসিক লেভেলের আর্টিফিশিয়াল ইন্টেলিজেন্সি ব্যবহার করছে, যার মাধ্যমে অটো সাবজেক্ট ডিটেক্ট, ব্যাকগ্রাউন্ড রিমুভ করা, কালার কারেকশন, ইত্যাদি কাজ করা যাচ্ছে।

অ্যাডোবি স্যুইট; Image Source: Adobe.

জ্যাসন এম. অ্যালেনের কলোরাডো স্টেট ফেয়ারের চিত্রটি সেরার পুরষ্কার বাগানোর পর অনেকেই নিন্দা ও সমালোচনার ঝড় তুলছেন। অনেকে মনে করেন, মেধা খাটানোর বিপরীতে এটা একপ্রকার চৌর্যবৃত্তি। আবার কিছু মানুষ বলেন, চিত্রটি কৃত্রিম বুদ্ধিমত্তার সাহায্য নিয়ে বানানো হলেও, আর্টের কনসেপ্টটি তো একজন মানুষ চিন্তা করে সেরকম কমান্ড দিয়েছে। তাই এটি বৈধ। তবে অনেকের কপালে চিন্তার ভাঁজ প্রগাঢ় হচ্ছে এই ভেবে, AI Generated Art অদূর ভবিষ্যতে চিত্রশিল্পীর সংখ্যা কমিয়ে দিতে পারে। এই শঙ্কা আদৌ সত্যি হবে কিনা, সেটা একমাত্র সময়ই বলে দেবে। তবে ভবিষ্যতের কৃত্রিম বুদ্ধিমত্তাভিত্তিক দুনিয়ার সাথে তাল মিলিয়ে চলতে হলে শিল্পীদের যত দ্রুত সম্ভব এসব আর্টিফিশিয়াল ইন্টেলিজেন্সিভিত্তিক অ্যালগরিদমের সাথে খাপ খাইয়ে নিতে হবে।

This is a Bengali article about rise of AI generated arts.
Feature Image: istock

Related Articles