Roar বাংলা - কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্পের উত্থান ঘটলো যেভাবে

পৃথিবী তার ৪৫০ কোটি বছরের ইতিহাসে বহু উত্থান-পতনের পর্যায় পার করে এসেছে। প্রাগৈতিহাসিক-কালের দানবীয় ডাইনোসর থেকে গুহাবাসী মানুষের শিকারপর্ব, সবকিছুরই জ্বলন্ত সাক্ষীই সে। মানবজাতি সংঘবদ্ধ হয়ে পৃথিবীর বিভিন্ন প্রান্তে সুসংগঠিত সভ্যতা গড়ে তুলে যখন লিপি আবিষ্কার করল, তখনই তারা প্রাগৈতিহাসিক যুগ থেকে লিখিত ইতিহাসের যুগে প্রবেশ করল। সে-ই থেকে শুরু ক্রমশ উত্তরোত্তর উন্নতি এবং বিকাশ লাভ, যার ফল হিসেবে আজকের আধুনিক প্রযুক্তির এই যুগ। আধুনিক প্রযুক্তির এই যুগের সর্বশেষ সংযোজন হলো আর্টিফিশিয়াল ইন্টেলিজেন্স বা কৃত্রিম বুদ্ধিমত্তা, যা ভবিষ্যতে নতুন এক যুগের সূচনা করতে যাচ্ছে। ইতোমধ্যে কৃত্রিম বুদ্ধিমত্তার জয়জয়কার দেখা যেতে শুরু করেছে। তাই অদূর ভবিষ্যতে মানুষের জায়গা যে যন্ত্র দখল করে নিতে যাচ্ছে, তা বলাই বাহুল্য। কৃত্রিম বুদ্ধিমত্তা যত প্রকার ভেল্কিবাজি দেখিয়ে মানুষকে বিস্ময়ে হতবাক করেছে, তার মধ্যে কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্প বা ‘AI Generated Art’ এর নাম উঠে আসবে অবধারিতভাবেই।

আর্টিফিশিয়াল ইন্টিলিজেন্স; Image Source: iStock.

সম্প্রতি ‘কলোরাডো স্টেট ফেয়ার‘ নামে এক বার্ষিক চিত্রকর্ম প্রতিযোগিতায়, জ্যাসন এম. অ্যালেনের আঁকা ‘Théâtre D’opéra Spatial’ নামে একটি রঙিন চিত্র ডিজিটাল আর্টস ক্যাটাগরিতে প্রথম হয়। পেশায় জ্যাসন অ্যালেন হলেন একজন ভিডিয়ো গেম ডিজাইনার, যিনি পুরষ্কারস্বরূপ এর থেকে ৩০০ ডলার জিতে নিয়েছেন। কিন্তু মজার ব্যাপার হলো, এই চিত্রটি নির্মাণে তিনি কোনো ডিজিটাল ক্যামেরা বা কোনো ইমেজ ক্রিয়েশন সফটওয়্যারের সাহায্য নেননি। সেটি ছিল সম্পূর্ণ আর্টিফিশিয়াল ইন্টেলিজেন্স ব্যবহার করে বানানো এক পেইন্টিং। মূলত এই ঘটনার পর থেকেই ‘AI Generated Art/Painting’ নিয়ে সাধারণ মানুষের মাঝে ব্যাপক আগ্রহ এবং উদ্দীপনার সৃষ্টি হয়।

অতীতে কৃত্রিম বুদ্ধিমত্তার পরিধি গৎবাঁধা কিছু জিনিস, যেমন- দাবা খেলা, গাণিতিক সমস্যা সমাধানের মাঝে সীমাবদ্ধ থাকলেও, বর্তমানে কৃত্রিম বুদ্ধিমত্তার ব্যবহার এবং গবেষণা বহুলাংশে বৃদ্ধি পেয়েছে। স্বয়ংক্রিয়ভাবে গাড়ি চালনা থেকে শুরু করে, বিভিন্ন জটিল রোল নির্ণয়েও কৃত্রিম বুদ্ধিমত্তা মানুষকে দারুণ সাহায্য করছে। আর্টিফিশিয়াল ইন্টেলিজেন্সভিত্তিক ইমেজ তৈরির ক্ষেত্রে টেক্সট কমান্ড নেওয়া শব্দগুলোকে ইন্টারনেন্টে থাকা অনুরূপ বিকল্প ইমেজের সাথে মিলিয়ে কাছাকাছি ধাঁচের ইমেজগুলোকে বের করা হয়। তারপর সেগুলো থেকে কমান্ডে উল্লেখিত সাবজেক্ট এক্সট্রাক্টের একসাথে মার্জ করে প্রেজেন্ট করা হয়।

জ্যাসন এম. অ্যালেনের আঁকা ‘Théâtre D’opéra Spatial’; Image Source: Jason Allen/Discord.

এবার আলোচনা করা যাক কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্পের অতীত নিয়ে। শুরুর দিকে আর্টিফিশিয়াল ইন্টেলিজেন্সের কার্যক্ষমতা ছিল সীমিত। এটা তখন শুধু এলোমেলো তথ্য থেকে (Unorganized Data) থেকে একটা প্যাটার্ন খুঁজে বের করে সেগুলোকে শ্রেণি অনুযায়ী সাজাতে পারত। ১৯৬৭ সালে জার্মান গণিতবিদ, বিজ্ঞানী ফ্রেইডার নেক সর্বপ্রথম কৃত্রিম বুদ্ধিমত্তার সাহায্যে ‘ম্যাট্রিক্স মাল্টিপ্লিকেশন’ নামে বারোটি ছবি তৈরিতে সক্ষম হন। তবে এগুলো ছিল বিভিন্ন জ্যামিতিক আকৃতি। কৃত্রিম বুদ্ধিমত্তা কাজে লাগিয়ে ছবি তৈরির বিষয়টিতে আংশিক সাফল্য আসে সত্তরের দশকে। সে সময় ‘Computer Aided Design (CAD)’ এর মাধ্যমে থ্রিডি শেপ তৈরি করা যেত।

ফ্রেইডার নেক ম্যাট্রিক্স মাল্টিপ্লিকেশন নামে ১২টি ইমেজ তৈরি করেন; Image Source: Tate.

‘AI Generated Art’ এর পথচলাকে আরও সামনে এগিয়ে নিতে ১৯৭৩ সালে ব্রিটিশ আর্টিস্ট হ্যারল্ড কোহেন ‘AARON‘ নামে একটি কম্পিউটার প্রোগ্রাম বা অ্যালগরিদম ডেভেলপ করেন। এই অ্যালগরিদম ব্যবহার হ্যান্ড ড্রয়িং করা যেত, যা ছিল সাধারণ এবড়োখেবড়ো প্যাটার্নের। সময়ের সাথে অ্যারনকে অধিক প্রোগ্রাম কনস্ট্রাকশন দেওয়ার মাধ্যমে আরও ডেভেলপ করা হয়, যাতে এটি আরও জটিল বস্তু আঁকতে পারে।

AARON দিয়ে জেনারেট করা ইমেজ; Image Source: AARON.

একবিংশ শতাব্দীর শুরুর দিকে মেশিন লার্নিংয়ের মাধ্যমে ইমেজ থেকে সাবজেক্ট এক্সট্রাক্ট করার মডিউল নিয়ে কাজ শুরু করেন বিশ্লেষকেরা। সেই প্রেক্ষিতে ২০১৪ সালের জুন মাসে ইয়ান গুডফেলো এবং তার সহকর্মীরা ‘Generative adversarial networks (GAN)’ নামে এক মেশিন লার্নিং ফ্রেমওয়ার্ক অবমুক্ত করেন। এই ফ্রেমওয়ার্ক দুটি নিউরাল নেটওয়ার্ককে প্রসেস করে ইমেজ এবং ভয়েজ জেনারেট করতে পারত। এছাড়াও ‘Variational autoencoder‘ এবং ‘Diffusion Model‘ নামে আরও দুটি ইমেজ প্রসেসিং সিস্টেম রয়েছে। ক্যাথরিন প্রোসন নামে একজন আর্টিস্ট ডিফিউশনাল মডেলের সহায়তায় ‘ক্লোজ টু টেক্সট’ ইমেজের লেয়ার ব্যবহার করে একটি পূর্ণাঙ্গ ইমেজ তৈরি করার পদ্ধতি ডেভেলপ করেন, যেখানে আর্ট স্টাইল এবং অন্যান্য ভেরিয়েবল উল্লেখ করা যেত।

Generative Adversarial Networks; Image Source: Toptal.

এজন্য তিনি সাহায্য নিয়েছিলেন ‘Constrastive Language Image Pretraining’ বা ‘CLIP‘ এর, যার মাধ্যমে ইন্টারনেটে ছড়িয়ে-ছিটিয়ে থাকা লক্ষ লক্ষ ইমেজের অল্টারনেটিভ টেক্সট থেকে ডেটা নিয়ে ‘CLIP’ কে প্রশিক্ষণ দেওয়া হয়েছে। আর্টিফিশিয়াল ইন্টেলিজেন্সি নিয়ে ঘাঁটাঘাঁটি করা ডেভেলপাররা তখন ক্যাথরিনের কোডগুলোতে তাদের ইচ্ছানুযায়ী পরিবর্তন আনেন। পরে তা ‘CLIP’-এ সংযুক্ত করে বিভিন্ন নামে রিলিজ দেওয়া শুরু করেন। এসব দেখে হাত-পা গুটিয়ে বসে থাকেনি টেক জায়ান্ট গুগলও। গুগলের প্রকৌশলী অ্যালেক্সান্ডার মর্ডভিন্টসেভ ২০১৫ সালে কম্পিউটার ভিশন প্রোগ্রাম ‘Google DeepDream‘ রিলিজ করেন।

ডিপড্রিম দিয়ে জেনারেট করা মোনালিসার ইমেজ; Image Source: DeepDream.

ডিপড্রিম নাম দেওয়ার কারণ হচ্ছে এর অ্যালগরিদম ব্যবহার করে স্বপ্নের মতো হ্যালোসিনোজেনিক ইমেজ তৈরি করা যেত। পরবর্তীতে ‘Neural Style Transfer’ নামে এক আর্টিফিশিয়াল ইন্টেলিজেন্সির উদ্ভব ঘটায় প্রকৌশলীরা, যা অনলাইনে জগতে বেশ সাড়া ফেলতে সক্ষম হয়। ২০১৯ সালে ‘this person doesn’t exist‘ নামে এক ওয়েবসাইট লঞ্চ করা হয়, যেখানে জেনারেটিভ অ্যাডাভার্সাল নেটওয়ার্ক এমন সব মানুষের মুখাবয়বয়ের ছবি তৈরি করত, বাস্তবে যাদের কোনো অস্তিত্ব নেই।

this person doesn’t exist থেকে নেওয়া মানুষদের ছবি; Image Source: This person doesn’t exists.

২০২১ সালের মে মাসে ‘GAN’-এর উন্নত সংস্করণ হিসেবে ডিফিউশন মডেলের ব্যবহার শুরু হয়। ডিফিউশন মডেলের সাথে GAN এর মূল পার্থক্য ছিল, এটা ‘GAN’ কমান্ডের সাথে শতভাগ সাদৃশ্যপূর্ণ ছবি তৈরি করতে না পারলেও, ডিফিউশন মডেলে কমান্ডে উল্লেখিত সাবজেক্টকে ধাপে ধাপে সেট করে ডিনয়েজিংয়ের মাধ্যমে একদম পরিষ্কার এবং বাস্তব ছবি তৈরি করতে পারত। ‘AI Generated ART’ এর জগতে বৈপ্লবিক পরিবর্তন আসে যখন ‘CLIP’ আর ডিফিউশন মডেলের মিশেলে ‘Open AI CLIP Diffusion’ রিলিজ দেওয়া হয়। সময়ের সাথে সাথে ‘CLIP Diffusion’ এর উন্নত সংস্করণ, যেমন – Disco Diffusion, Jax Diffusion, Latent Diffusion, Centipade Diffuision ইত্যাদি ডেভেলপ করেন প্রকৌশলীরা। এদের মধ্যে সবচেয়ে জনপ্রিয়তা কুড়িয়েছে Disco Diffusion, কারণ এই মডিউলে তৈরি আর্টের উপর ব্যবহারকারীর নিয়ন্ত্রণ থাকে সিংহভাগ। ব্যবহারকারীর কমান্ড অনুযায়ীই ইমেজ আউটপুট দেওয়া হয়। যেমন- আর্ট স্টাইল কেমন হবে, ছবির আয়তন কেমন হবে ইত্যাদি।

Disco Diffusion দিয়ে জেনারেট করা ইমেজ; Image Source: Disco Diffusion.

Jax diffusion জ্যামিতিক আকৃতিগুলোকে সহজেই ফুটিয়ে তুলতে পারে। Centipade Diffuision হলো Disco Diffusion এবং Latent Diffusion এর সমন্বয়, যা কৃত্রিম বুদ্ধিমত্তার ধারণাকে আরও পরিষ্কারভাবে তুলে ধরতে পারে। ‘Open AI’ ২০২১ সালের ৫ জানুয়ারি ‘DALL·E’ লঞ্চ করে যেখানে প্লেইন টেক্সট কমান্ডের উপর ভিত্তি করে আর্টিফিশিয়াল ইমেজ জেনারেট করা যেত। ‘Dall.E’ কতটা বাস্তবিক ছবি জেনারেট করতে পারছে সেটা থেকেও গুরুত্বপূর্ণ হলো, কৃত্রিম বুদ্ধিমত্তা কাজে লাগিয়ে সে টেক্সট কমান্ডগুলো কতটা নিখুঁতভাবে বুঝতে পারছে।

Variational Auto Encoder; Image Source: Geek.

কিছুদিন আগে কল্পনার ছবিকে মিনিটের মধ্যে বাস্তবে রূপ দিয়ে জনপ্রিয়তা তুঙ্গে ছিল কৃত্রিম বুদ্ধিমত্তার বট ‘Midjourney AI‘, যা Discord সার্ভারে সবার জন্য মডিউল ওপেন করে দিয়েছিল। ওখানে প্রতিটি কমান্ডের জন্য ভিন্ন ভিন্ন সংস্করণের চারটি ইমেজ তৈরি হয়। ব্যবহারকারী তার পছন্দ অনুযায়ী সংস্করণ বেছে নিতে পারবে। এছাড়াও এতে ১৬৬৪ × ১৬৬৪ পিক্সেলের বড় একটি ইমেজের আউটপুট, ভেরিয়েন্ট তৈরি করা, লাইট আপস্কেল রেডোর মতো সুবিধা পাওয়া যেত। বিনামূল্যে একটি অ্যাকাউন্ট দিয়ে সর্বোচ্চ ২৫টি কমান্ড দেওয়া যায় এতে। বেসিক মেম্বারশিপ চার্জ প্রতিমাসে ১০ ডলার করে কাটে, যেখানে ইমেজ জেনারেট করা যাবে ৯০০টি। এছাড়াও স্ট্যান্ডার্ড মেম্বারশিপের জন্য পকেট থেকে প্রতিমাসে খরচ করতে হবে ৩০ ডলার, যেখানে ব্যবহারকারীরা আনলিমিটেড কাজ করতে পারবে। সর্বসাধারণের জন্য উন্মুক্ত এই প্লাটফর্ম যেকোনো অ্যাবিউসিভ, ভায়োলেন্ট কমান্ড রেস্ট্রিকটেড করে দেওয়ায়, এর দ্বারা নেতিবাচক প্রভাব ফেলা ডিস্টার্বিং কোনো ইমেজ তৈরি করা সম্ভব হচ্ছে না।

মিডজার্নি দিয়ে বানানো একটি ইমেজ; Image Source: Midjourney AI.

আর্টিফিশিয়াল ইন্টেলিজেন্স জেনারেটেড আর্ট আরও যে কারণে আলোচনা-সমালোচনার অঙ্গনে জায়গা করে নিয়েছে, তা হলো ডিপ ফেক ভিডিও। জনপ্রিয় হলিউড অভিনেতা টম ক্রুজ থেকে বারাক ওবামা, অনেকের চেহারা দিয়েই ডিপ ফেক ভিডিও বানানো হয়েছে। ভিডিওতে টম ক্রুজ টিকটকে কিংবা বিশ্বখ্যাত র‍্যাপার স্নুপ ডুগকে টেরট কার্ড রিডিংয়ে দেখা গেছে, যা বাস্তবে কখনোই ঘটেনি। যদিও এগুলো সাংঘর্ষিক কোনো বিতর্কের জন্ম দেয়নি।

ডিপ ফেইক দিয়ে বানানো ভিডিওতে বারাক ওবামা এবং ভ্লাদিমির পুতিন; Image Source: Fox News.

তবে কৃত্রিম বুদ্ধিমত্তার বিশাল এই জগত ওপেন সোর্স হবার দরুন, কোডিং জ্ঞানসম্পন্ন যে-কেউ ইচ্ছামতো এর ডেটা ম্যানিপুলেশনের সক্ষমতা রাখে। সেজন্য বার বার আঙুল উঁচিয়ে এর দিকে অনুযোগের সুর তুলছে আর্টিফিশিয়াল ইন্টেলিজেন্স নিয়ে পেশাগতভাবে যুক্ত থাকা টেক কোম্পানিগুলো। এসব রিসোর্সকে নির্দিষ্ট একটা গণ্ডিতে আবদ্ধ করে রাখা ব্যবসায়ীক দিক থেকে কতখানি সম্ভব, তা এখনও তর্ক-সাপেক্ষ। ‘Open AI‘ এর দাবি, ‘DALL.E’ এবং ‘DALL.E – 2’ শুধুমাত্র গবেষণাভিত্তিক কাজের জন্য বানানো হয়েছে। বর্তমানে ‘DALL.E’ এর প্রবেশাধিকার শুধুমাত্র সীমিত কিছু ব্যবহারকারী, আর্টিস্ট, ডেভেলপার এবং গবেষকদের কাছেই রয়েছে। ‘Open AI’ এর এক চমৎকার দিক হলো, এই ইমেজ জেনারেটিং মডিউল সকল ধরনের ক্ষতিকর, অ্যাডাল্ট, উগ্র, হিংস্র কন্টেন্ট তৈরির পাশাপাশি তারকা, রাজনীতিবিদ, কিংবা খ্যাতিমান কোনো ব্যক্তির ছবির অসদ্ব্যবহার থেকে সর্বদা ব্যবহারকারীদের নিরুৎসাহিত করে আসছে।

যদিও ‘AI Generated Art Technology’ জগত এখনও সম্পূর্ণভাবে বিকশিত হয়নি, তবু এর মডিউলগুলো অসাধারণ সব ফলাফল দিতে শুরু করেছে। কৃত্রিম বুদ্ধিমত্তাভিত্তিক মডিউলগুলো মানুষকে ডিজিটাল আর্ট ক্রিয়েশন এবং ম্যানিপুলেশনে সাহায্য করছে। ফলে একজন শিল্পী তাদের সৃষ্টিশীলতা মেশিন লার্নিংয়ের সাথে মিশিয়ে আরও ভালো আউটপুট পাচ্ছে। এটা বাঁচিয়ে দিচ্ছে শিল্পীদের মূল্যবান সময়, কমিয়ে আনছে মানবিক ভুলের পরিমাণ। অ্যাডোবি স্যুইটের মতো সফটওয়্যারগুলো বেসিক লেভেলের আর্টিফিশিয়াল ইন্টেলিজেন্সি ব্যবহার করছে, যার মাধ্যমে অটো সাবজেক্ট ডিটেক্ট, ব্যাকগ্রাউন্ড রিমুভ করা, কালার কারেকশন, ইত্যাদি কাজ করা যাচ্ছে।

জ্যাসন এম. অ্যালেনের কলোরাডো স্টেট ফেয়ারের চিত্রটি সেরার পুরষ্কার বাগানোর পর অনেকেই নিন্দা ও সমালোচনার ঝড় তুলছেন। অনেকে মনে করেন, মেধা খাটানোর বিপরীতে এটা একপ্রকার চৌর্যবৃত্তি। আবার কিছু মানুষ বলেন, চিত্রটি কৃত্রিম বুদ্ধিমত্তার সাহায্য নিয়ে বানানো হলেও, আর্টের কনসেপ্টটি তো একজন মানুষ চিন্তা করে সেরকম কমান্ড দিয়েছে। তাই এটি বৈধ। তবে অনেকের কপালে চিন্তার ভাঁজ প্রগাঢ় হচ্ছে এই ভেবে, AI Generated Art অদূর ভবিষ্যতে চিত্রশিল্পীর সংখ্যা কমিয়ে দিতে পারে। এই শঙ্কা আদৌ সত্যি হবে কিনা, সেটা একমাত্র সময়ই বলে দেবে। তবে ভবিষ্যতের কৃত্রিম বুদ্ধিমত্তাভিত্তিক দুনিয়ার সাথে তাল মিলিয়ে চলতে হলে শিল্পীদের যত দ্রুত সম্ভব এসব আর্টিফিশিয়াল ইন্টেলিজেন্সিভিত্তিক অ্যালগরিদমের সাথে খাপ খাইয়ে নিতে হবে।

Related Articles