সার্চ ইঞ্জিন ব্যবহার করেননি অথবা এর নাম শোনেননি কিন্তু ইন্টারনেট ব্যবহার করেন এমন মানুষ হয়তো খুঁজে পাওয়া অসম্ভব। কেননা ইন্টারনেট ব্যবহারের মূল লক্ষ্য যখন তথ্য অনুসন্ধান তখন Search Engine- ই যে একমাত্র ভরসা তা আর বলার অবকাশ রাখে না। আমরা যারা অ্যান্ড্রয়েড স্মার্টফোন ব্যবহার করি তারা হর- হামেশাই ইন্টারনেট থেকে বিভিন্ন তথ্য খুঁজে পাওয়ার জন্য গুগল সার্চ করে থাকি। এখানে এই গুগল হলো একটি সার্চ ইঞ্জিন। ইন্টারনেট জুড়ে এরকম আরও অনেক সার্জ ইঞ্জিন রয়েছে।
কিন্তু সার্চ ইঞ্জিন কি এবং সার্চ ইঞ্জিন কিভাবে কাজ করে এসব ব্যাপারে আমরা প্রায় অধিকাংশ ইন্টারনেট ব্যবহারকারী- ই সঠিক তথ্যগুলো জানি না। তাই আমরা যারা এই ব্যাপারগুলো জানতে ইচ্ছুক ঠিক তাদের জন্যই আমাদের আজকের লেখনী। এখানে আমরা আলোচনা করবো search engine কি এবং কত প্রকার, এটি কিভাবে কাজ করে এবং এর কাজ কি সহ আরও গুরুত্বপূর্ণ কিছু বিষয়াদি নিয়ে। তাহলে চলুন প্রথমেই জেনে নেয়া যাক- সার্চ ইঞ্জিন কি?
Table of Contents
সার্চ ইঞ্জিন কি?
সার্চ ইঞ্জিন হলো একপ্রকার অনলাইন টুল (Online Tool) অথবা সফটওয়্যার প্রোগ্রাম (Software Program) যেটি একজন ইউজারকে ইন্টারনেট থেকে প্রয়োজনীয় তথ্য খুঁজে বের করতে সাহায্য করে। সার্চ ইঞ্জিন ইন্টারনেটের বিশাল তথ্য ভান্ডার থেকে ইউজার কর্তৃক অনুসন্ধানকৃত প্রশ্নের কিওয়ার্ডস অথবা ফ্রেজের সাথে সামঞ্জস্য পূর্ণ তথ্য ও তথ্যের সাথে জড়িত কন্টেন্টগুলোর ওয়েবসাইটের লিংক একটি search engine result page (SERP) এর মধ্যে প্রদর্শন করে। এসব কন্টেন্ট এর মধ্যে রয়েছে বিভিন্ন ধরনের আর্টিকেল বা টেক্সট কন্টেন্ট, ছবি, অডিও, ভিডিও এবং অন্যান্য প্রায় সব ধরনের মিডিয়া কন্টেন্ট। যেগুলোর মধ্য থেকে ইউজার তার প্রশ্নের সাথে সবথেকে বেশি প্রাসঙ্গিক উত্তরটি খুঁজে নিতে পারে।
প্রতিটি সার্চ ইঞ্জিনের রয়েছে নিজস্ব এক বিশাল তথ্য ভাণ্ডার। যেখানে রয়েছে মিলিয়ন মিলিয়ন ওয়েব পেজ এর সমাহার। এই তথ্য ভাণ্ডার থেকেই মূলত সার্চ ইঞ্জিন আমাদের তথ্য সরবরাহ করে থাকে। অর্থাৎ আমরা যখন সার্চ ইঞ্জিনে কোন query করে থাকি তখন এই সফটওয়্যার তার নির্দিষ্ট কিছু অ্যালগরিদম (algorithm) -এর মাধ্যমে ঐ query-এর সামঞ্জস্য রয়েছে এরূপ তথ্য তার তথ্য ভাণ্ডার থেকে খুঁজে বের করে এবং তৎক্ষনাৎ ঐ তথ্যগুলো আমরা search engine result page -এর মাধ্যমে দেখতে পাই।
সার্চ ইঞ্জিন তথ্য অনুসন্ধানের এই কাজটি মূলত World Wide Web (WWW) এর মাধ্যমে করে থাকে। এর মাধ্যমে ইউজার দ্বারা যেসব query পাঠানো হয় সেসব query থেকে নির্দিষ্ট keywords এবং বিশেষ কিছু ক্ষেত্রে phrase এর ওপর বিচার বিশ্লষণ করে এর সাথে সবথেকে বেশি মিল রয়েছে এমন তথ্যের যে লিংকগুলো রয়েছে সেগুলো সার্চ রেজাল্ট পেজের উপর দিক থেকে ধারাবাহিকবে সাজানো হয়ে থাকে এবং ইউজার ঐ লিংকগুলো থেকে সেই পেজগুলোতে ভিজিট করতে পারেন। তাহলে অতি সহজভাবে বলতে গেলে, “সার্চ ইঞ্জিন হলো ইন্টারনেট থেকে তথ্য খুঁজে বের করার একটি মেশিন অথবা সফটওয়্যার যেটি খুব অল্প সময়ের ভেতরে ইন্টারনেট থেকে যেকোন ধরনের তথ্য খুঁজে পেতে সাহায্য করে।”
কিভাবে সার্চ ইঞ্জিন কাজ করে?
সার্চ ইঞ্জিনে আমরা যখন কোন কিওয়ার্ড অথবা ফ্রেজ লিখে সার্চ করি তখন আমাদের প্রশ্নের সঙ্গে সবথেকে প্রাসঙ্গিক উত্তর রয়েছে এমন সব ওয়েব পেজের লিংক সার্চ রেজাল্ট পেজের মাধ্যমে প্রদর্শিত হয়। কিন্তু প্রশ্ন হলো Google, Bing, অথবা অন্য যেকোন search engine- ই হোক না কেন তারা তো কেউই নিজেরা কোন তথ্য তৈরি করে না। তাহলে তারা সার্চ রেজাল্ট পেজে যে তথ্যগুলো উপস্থাপন করে সেগুলো কোন জায়গা থেকে আসে?
হ্যাঁ এই সব তথ্যগুলোই গুগল বিভিন্ন সোর্স সংগ্রহ করে এবং নিজের ডাটাবেজের মধ্যে তা সংরক্ষণ করে রাখে। এরপর যখন কোন ইউজার keyword প্রদান করে তখন সেই কিওয়ার্ডের সাথে relevant তথ্যগুলো উপস্থাপন করে। সুতরাং সার্চ ইঞ্জিনের সমগ্র কাজের প্রক্রিয়াকে আমরা প্রধান দুটি ভাগে ভাগ করতে পারি। যথা-
- তথ্য সংগ্রহ ও সন্নিবেশ
- তথ্য উপস্থাপন বা ফলাফল প্রদান
তথ্য সংগ্রহ ও সন্নিবেশ
ইন্টারনেটের বেশিরভাগ সার্চ ইঞ্জিন মূলত প্রধান তিনটি ধাপ অনুসরণ করার মাধ্যমে যাবতীয় তথ্য সংগ্রহ করে থাকে। ধাপগুলো হলো:
- Crawling
- Indexing
- Ranking
Crawling
সার্চ ইঞ্জিন এর প্রথম ও প্রধান কাজটির নাম হলো ক্রলিং (crawling). এ কাজের জন্য প্রতিটি search engine এর রয়েছে নির্দিষ্ট কিছু প্রোগ্রাম (programs) যেগুলোকে ইন্টারনেটের ভাষায় বট (bots), স্পাইডার্স (spiders) অথবা ক্রলার্স (crawlers) বলা হয়ে থাকে। এই bots বা crawlers গুলোর কাজ হলো World Wide Web- এর মাধ্যমে ইন্টারনেটে ছড়িয়ে থাকা অসংখ্য ওয়েবসাইট গুলোতে ভিজিট করে যেগুলোকে স্ক্যান (scan) করা এবং সেখান হতে যাবতীয় তথ্য সংগ্রহ করে সার্চ ইঞ্জিনের ডাটাবেজে জমা রাখা।
কন্টেন্ট এর মধ্যে থাকা লিংকের মাধ্যমে বট একটির পর একটি ওয়েবসাইট স্ক্যানিং করে বেড়ায়। এসব ওয়েবসাইট থেকে title, description, keywords, images, videos, texts, external এবং internal links সহ আরও অন্যান্য তথ্যাদি সংগ্রহ করে সেগুলো ইঞ্জিনের নির্ধারিত ডাটাবেজে সংরক্ষণ করে। আর যখন আমরা সার্চ ইঞ্জিনে কোন কিছু সার্চ করি তখন সার্চ ইঞ্জিন তার ডাটাবেজে জমাকৃত এসব তথ্য থেকেই আমাদের তথ্য প্রদান করে থাকে।
Indexing
এতক্ষণ আমরা ক্রলিং সম্পর্কে জানলাম। এবার তাহলে চলুন জেনে নেয়া যাক ইনডেক্সিং সম্বন্ধে। সার্চ ইঞ্জিনের কর্ম প্রক্রিয়ার দ্বিতীয় ধাপটি হলো indexing. এক্ষেত্রে একটি ক্রলার অথবা বট যখন কোন ওয়েবসাইট স্ক্যান করে তখন সেখানকার ওয়েব পেজগুলোর লিংক ইনডেক্সার অ্যালগরিদমের মাধ্যমে ইনডেক্স করে রাখা হয়। অর্থাৎ ওয়েব পেজগুলোর ক্যাটাগরি এবং keywords এর উপর ভিত্তি করে এসব পেজের লিংক ও অন্যান্য তথ্যাদি সার্চ ইঞ্জিনের ডাটাবেজে সাজিয়ে রাখার কাজটিকে-ই মূলত বলা হয় indexing. একটি উদাহরণ এর মাধ্যমে বিষয়টি আরও সুন্দরভাবে উপস্থাপন করার চেষ্টা করছি।
উদাহরণ: মনে করুন, আপনার একটি ইলেকট্রনিক্স এর দোকান রয়েছে যেখানে আপনি ফ্যান, লাইট, টিভি, মোবাইল ফোন, ক্যামেরা সহ আরও অন্যান্য ইলেকট্রিক্যাল ডিভাইস বিক্রি করে থাকেন। পণ্যগুলো বিক্রি করার পূর্বে প্রথমে আপনাকে ঘুরে ঘুরে বিভিন্ন জায়গা থেকে এই পণ্যগুলো পাইকারি মূল্যে ক্রয় করে আনতে হয়। এই যে আপনি যখন ঘুরে ঘুরে বিভিন্ন তথ্য যাচাই বাছাই করার মাধ্যমে কোন পণ্য কোম্পানি থেকে নিয়ে আসছেন তখন আপনার ভূমিকা হলো একটি সার্চ ইঞ্জিন বটের মতো। যে কিনা বিশ্বের কোটি কোটি ওয়েবসাইট ভিজিট করার মাধ্যমে লিংক সংগ্রহ করে নিয়ে আসে।
এরপর পণ্যগুলো দোকানে নিয়ে আসার পর আপনার পরবর্তী কাজ হলো এই পণ্যগুলোকে তাদের ক্যাটাগরি অনুযায়ী সুন্দরভাবে সাজানো। যেমন- ফ্যান, লাইট, মোবাইল ইত্যাদি পণ্যগুলো আপনি আলাদা আলাদা ডেস্কে রাখলেন। আবার তাদের কোম্পানির নাম অনুযায়ী যেগুলোকে আবার ডেস্কের বিভিন্ন তাকে তাকে সাজালেন। যাতে করে গ্রাহক কোন একটি পণ্য চাওয়ার সাথে সাথেই আপনি সেই নির্ধারিত পণ্যটি কোন একটি নির্দিষ্ট ডেস্ক থেকে এনে দিতে পারেন।
আর সার্চ ইঞ্জিনের ভাষায় এই সাধারণ কাজটিকেই মূলত ইনডেক্সিং বলা হয়ে থাকে। অর্থ্যাৎ বট দ্বারা স্ক্যানিং করা ওয়েব পেজগুলোকে তাদের ক্যাটাগরি অনুযায়ী ডাটাবেজের মধ্যে সাজানো। যাতে করে সার্চ ইঞ্জিন একটি query পাওয়ার সাথে সাথেই ঐ নির্দিষ্ট স্থান থেকে তথ্যটি সংগ্রহ করে নিয়ে আসতে পারে এবং প্রদর্শন করতে পারে। কেননা ইন্টারনেট রয়েছে কোটি কোটি ওয়েবসাইট এবং তাদের বিষয়বস্তু হয় আলাদা আলাদা। তাই এত ভিন্ন ভিন্ন ধরনের কন্টেন্ট হতে একটি নির্দিষ্ট প্রকারের কন্টেন্ট খুঁজে পেতে স্বাভাবিকভাবেই অনেক সময় ও শ্রম ব্যয় হবে। তাই সার্চ ইঞ্জিন প্রতিনিয়ত ক্রলিং এর সাথে সাথে ইনডেক্সিং এর কাজটিও করে নেয়।
Ranking
ইনডেক্সিং এর মাধ্যমে তথ্য সাজানোর পর সার্চ ইঞ্জিন ranking এর মাধ্যমে ওয়েবসাইটগুলোকে ক্রমাগত সাজাতে থাকে। যার মানে হলো যখন কোন ইউজার সার্চ বক্সে কোন কিছু লিখে সার্চ করবে তখন ঐ keywords এর ভিত্তিতে কোন কোন ওয়েবসাইট এর লিংক সার্চ ইঞ্জিন রেজাল্ট পেজ (Search Engine results page) এ দেখানো হবে সেই ওয়েবসাইট গুলোর লিংকের একটি ক্রম তৈরি করে।
এছাড়া একটি নির্দিষ্ট কিওয়ার্ড এর বিপরীতে যে কয়টি ওয়েব পেজের লিংক সার্চ রেজাল্ট বক্সে প্রদর্শন করা হবে তারও একটি ক্রম এই ranking প্রোগ্রামের মাধ্যমে আগে থেকেই তৈরি করে রাখা হয়। যদিও এটি একটি অনেক জটিল প্রোগ্রাম, এর লক্ষ্য হলো ইউজারকে সহজেই ইন্টারনেট থেকে কোন তথ্য খুঁজে পেতে সাহায্য করা।
২. তথ্য উপস্থাপন বা ফলাফল প্রদান
সার্চ ইঞ্জিনের সার্চ বক্সে যখন কোন ইউজার কোন query প্রদান করে, তখন search engine এর নির্দিষ্ট কিছু বট ঐ query থেকে কিওয়ার্ড বাছাই করে এবং ডাটাবেজে ইনডেক্স করে রাখা তথ্য সমূহ থেকে মোস্ট রিলিভেন্ট (most relevant) তথ্যগুলোকে তাদের ranking অনুযায়ী search engine result page- এর মধ্যে রেজাল্ট আকারে প্রদর্শন করে।
এভাবেই গুগল এবং অন্যান্য সার্চ ইঞ্জিনগুলো প্রতিনিয়ত একাধারে তথ্য সংগ্রহ করে তা ডাটাবেজের মধ্যে রাখে এবং সেখান থেকে ফলাফল প্রদর্শন করে। এসমস্ত কাজের জন্য তাদের রয়েছে হাজার হাজার কর্মী এবং অসংখ্য প্রোগ্রাম। যেগুলো আলাদা আলাদা কাজের জন্য আলাদা আলাদা অ্যালগরিদম মেইনটেইন করে চলে। অর্থাৎ ক্রলার, স্পাইডার বা বট ছাড়াও গুগলের আরও অনের গুরুত্বপূর্ণ প্রোগ্রাম রয়েছে। যেমন- প্রপার্টি অ্যালগরিদম। এর কাজ হলো ডাটাবেজ থেকে সকল ডুপ্লিকেট তথ্যগুলোকে মুছে ফেলা।
সার্জ ইঞ্জিন এর কাজ কি?
সার্চ ইঞ্জিনের প্রধান কাজ হলো বিশ্বের কোটি কোটি ওয়েবসাইট থেকে তথ্য সংগ্রহ করা এবং গ্রাহককে সেখান থেকে সঠিক তথ্যগুলো খুঁজে বের করে সার্চ ইঞ্জিন রেজাল্ট পেজের মাধ্যমে প্রদান করা।
সার্চ ইঞ্জিন কত প্রকার?
সার্চ ইঞ্জিন প্রধানত ৪ ধরনের। যথা-
- Crawler Search Engine
যে সকল সার্চ ইঞ্জিন সাধারণত search engine bots এবং indexer ব্যবহার করে এবং ranking এর মাধ্যমে ওয়েবসাইট গুলোকে rank করে সে সকল ইঞ্জিনকে মূলত ক্রলার সার্চ ইঞ্জিন বলা হয়। যেমন কিছু ক্রলার সার্চ ইঞ্জিনের উদাহরণ হলো:
- Yahoo
- Yandex
- Ask
- Bing
- Web Directories
যে সকল সার্চ ইঞ্জিন ডিরেক্টরি সিস্টেম ব্যবহার করে ওয়েবসাইটের লিংক সংগ্রহ করে এবং তথ্য লিপিবদ্ধ করে অর্থাৎ কোন বট বা ইনডেক্সার ব্যবহার করে না তাদের ওয়েব ডিরেক্টরি সার্চ ইঞ্জিন বলা হয়। এই ধরনের ইঞ্জিনগুলো মূলত ক্রলার ইঞ্জিনগুলোর একদম বিপরীত। কেননা এক্ষেত্রে কোন সার্চ ইঞ্জিন বট (Search engine bots) ওয়েবসাইটে ঘুরে ঘুরে তথ্য সংগ্রহ করে না। বরং ওয়েবসাইটের স্বত্বাধিকারীকেই তার ওয়েবসাইটের লিংট ওয়েব ডিরেক্টরিতে জমা দিতে হয় এবং ক্যাটাগরি অনুযায়ী সঠিকভাবে সাজাতে হয়।
এ ধরনের সার্চ ইঞ্জিনগুলোর মধ্যে রয়েছে:
- Yahoo Directory
- 9sites
- Blogarama
- A1webdirectory
- Hybrid Search Engine
হাইব্রিড সার্চ ইঞ্জিনগুলো সাধারণত ক্রলার (crawler) এবং ডিরেক্টরি (directory) দুই ধরনের সিস্টেম মেইনটেইন করে পরিচালিত হয়। তবে একসময় ওয়েব ডিরেক্টরি বেশ জনপ্রিয় থাকার কারণে এ ধরনের ইঞ্জিনের অনেক প্রচলন ছিল। কিন্তু এখন ক্রলিং এবং ইনডেক্সিং অধিক জনপ্রিয় হওয়ার কারণে হাইব্রিড ইঞ্জিনগুলো ধীরে ধীরে শুধুমাত্র ক্রলার ইঞ্জিনে রূপান্তরিত হচ্ছে।
যেমন-
- Yahoo
- Meta SearEngine
এগুলো কিছুটা ভিন্ন ধরনের সার্চ ইঞ্জিন। কেননা এদের নিজস্ব কোন ডাটাবেজ (database) নেই। এ ধরনের ইঞ্জিনগুলো আরও অন্যান্য সার্চ ইঞ্জিনে কিওয়ার্ড সার্চ করে সেই তথ্য নিজস্ব অ্যালগরিদম ব্যবহার করে রেজাল্ট পেজে প্রদর্শন করে।
এরূপ কিছু সার্চ ইঞ্জিনের নাম হলো:
- Metacrawler
- Dogpile
সার্চ ইঞ্জিন সম্পর্কে আমাদের আজকের আলোচনা এখানেই শেষ করছি। আশা করি সার্চ ইঞ্জিন কি এবং সার্চ ইঞ্জিন কিভাবে কাজ করে সে সম্পর্কে বেশ পরিষ্কার একটি ধারণা পেয়ে গিয়েছেন। কেননা শুরু থেকে একদম শেষ অবধি আমরা চেষ্টা করেছি সার্চ ইঞ্জিনের জটিল বিষয় গুলোকে যথাসম্ভব সহজ ও সাবলীল ভাবে উপস্থাপন করার জন্য। যাতে করে সর্বসাধারণ এই বিষয়গুলো সঠিকভাবে জানতে ও বুঝতে পারে এবং কোন বিভ্রান্তিতে না পরে।