সামাজিক মিডিয়া বিষয়বস্তু সংরক্ষণ
সোশ্যাল প্ল্যাটফর্মগুলো টেক্সট, ছবি এবং ভিডিওর একটি অবিরাম প্রবাহ তৈরি করে। যখন কোনো ব্র্যান্ড, গবেষক বা ব্যক্তি আইনি, ঐতিহাসিক বা বিশ্লেষণাত্মক উদ্দেশ্যে এই উপাদানগুলো সংরক্ষণ করতে চান, তখন কাঁচা ওয়েব পেজগুলো ভঙ্গুর থাকে: API পরিবর্তন হয়, অ্যাকাউন্ট বন্ধ হয়ে যায়, এবং লিঙ্ক‑রোট প্রবেশাধিকারকে ক্ষয় করে দেয়। বিষয়বস্তুকে স্থিতিশীল, স্ব-বর্ণনামূলক ফরম্যাটে রূপান্তর করা মানে একটি টেকসই স্ন্যাপশট তৈরি করা, যা মূল সার্ভিসের ওপর নির্ভর না করে সূচিকৃত, অডিটযোগ্য এবং পুনরুৎপাদনযোগ্য।
চ্যালেঞ্জটি হল শুধুমাত্র দৃশ্যমান মিডিয়া নয়, বরং পার্শ্ববর্তী মেটাডেটা—টাইমস্ট্যাম্প, লেখকের শনাক্তকারী, জিওলোকেশন ট্যাগ এবং এনগেজমেন্ট মেট্রিক্স—সংরক্ষণ করা। এই বিবরণগুলি প্রায়শই পৃথক JSON পেলোড বা গোপন HTML অ্যাট্রিবিউটে সংরক্ষিত থাকে, এবং শুধুমাত্র স্ক্রিনশট সংরক্ষণ করে এমন একটি সরল রূপান্তর সেগুলো হারিয়ে ফেলে। এই প্রবন্ধটি একটি কাঠামোগত কর্মপ্রবাহের মাধ্যমে পোস্টের সম্পূর্ণ প্রসঙ্গ ক্যাপচার, প্রতিটি সম্পদকে সংরক্ষণ‑যোগ্য ফরম্যাটে রূপান্তর, অখণ্ডতা যাচাই এবং স্কেলযোগ্যভাবে সংরক্ষণ করার পদ্ধতি বিস্তারিতভাবে দেখাবে।
কেন সামাজিক মিডিয়া সংরক্ষণ করা দরকার?
আইনি এবং সম্মতি ভিত্তিক কারণ
আইনি প্রক্রিয়ায় প্রমাণ হিসাবে সংরক্ষিত সামাজিক বিষয়বস্তু প্রয়োজন হয়। আদালত অক্ষত চেইন‑অফ‑কাস্টডি প্রত্যাশা করে, অর্থাৎ রূপান্তর প্রক্রিয়াটি অডিটযোগ্য, পুনরুৎপাদনযোগ্য এবং ছদ্মবেশে পরিবর্তন করা কঠিন হতে হবে। PDF/A (টেক্সট বিষয়বস্তুর জন্য) এবং WebM (ভিডিওর জন্য) মতো ফরম্যাটগুলো দীর্ঘমেয়াদী সংরক্ষণের জন্য ISO‑স্ট্যান্ডার্ডেড, যা প্রমাণ করতে সহজ করে যে সংরক্ষিত উপাদান পরিবর্তন করা হয়নি।
ঐতিহাসিক গবেষণা
ঐতিহাসিক এবং সমাজবিজ্ঞানীরা সময়ের সাথে সাথে জনমত বিশ্লেষণ করেন। মূল টাইমস্ট্যাম্প, ভাষা এবং প্ল্যাটফর্ম‑নির্দিষ্ট উপাদান (লাইক, রিটুইট, হ্যাশট্যাগ) সংরক্ষণকারী একটি অনুসন্ধানযোগ্য আর্কাইভ লংগিটিউডিনাল বিশ্লেষণকে সক্রিয় API সংযোগ ছাড়াই সম্ভব করে।
কর্পোরেট রিস্ক ম্যানেজমেন্ট
ব্র্যান্ডগুলো ব্র্যান্ড‑সেন্টিমেন্ট, ক্রাইসিস‑কমিউনিকেশন এবং নিয়ন্ত্রক সম্মতি পর্যবেক্ষণ করে। ক্যাম্পেইন‑সংক্রান্ত পোস্টের অচলনীয় রেকর্ড ভুল দাবির বিরোধে সুরক্ষা দেয় এবং অভ্যন্তরীণ অডিটকে সমর্থন করে।
সংরক্ষণ‑যোগ্য লক্ষ্য ফরম্যাট নির্বাচন
| সোর্সের প্রকার | সুপারিশকৃত আর্কাইভ ফরম্যাট | কারণ |
|---|---|---|
| পোস্টের প্লেইন টেক্সট (ইমোজি সহ) | PDF/A‑2b অথবা UTF‑8 এনকোডেড XML | PDF/A দৃশ্যমানতা এবং স্ব‑সংযোজন গ্যারান্টি দেয়; XML সূচিকরণে টেক্সটকে মেশিন‑রিডেবল রাখে। |
| ছবি (JPEG, PNG, GIF, WebP) | TIFF/PNG সহ এম্বেডেড IPTC/EXIF | TIFF আর্কাইভের জন্য ব্যাপকভাবে সমর্থিত; PNG লসলেস ডেটা ধরে রাখে এবং মেটাডেটা এম্বেডের সুবিধা দেয়। |
| ভিডিও (MP4, MOV, ছোট ক্লিপ) | WebM (VP9/AV1) অথবা Matroska (MKV) সঙ্গে JSON সাইড‑কার | WebM রোয়্যালটি‑ফ্রি, ওপেন এবং দীর্ঘমেয়াদী সংরক্ষণের জন্য অপ্টিমাইজড; JSON সাইড‑কারে এমন এনগেজমেন্ট ডেটা সংরক্ষণ করা যায় যা কন্টেনারে এম্বেড করা যায় না। |
| গঠিত মেটাডেটা (লাইক, শেয়ার, কমেন্ট) | JSON‑LD অথবা WARC (Web ARChive) | JSON‑LD লিংকড‑ডেটা নীতির সাথে সামঞ্জস্যপূর্ণ; WARC মূল HTML, HTTP হেডার এবং এক্সট্র্যাক্টেড মেটাডেটা একক আর্কাইভ ফাইলে বেঁধে রাখে। |
মুখ্য নীতি হল প্রোপ্রাইটারি, ঘন ঘন আপডেট হওয়া কোডেক (যেমন H.264 ভেন্ডর‑স্পেসিফিক এক্সটেনশনের) এড়িয়ে চলা। ওপেন, ভাল ডকুমেন্টেড স্পেসিফিকেশন ভবিষ্যতে অসামঞ্জস্যতা কমিয়ে আনে।
সম্পূর্ণ পোস্ট ক্যাপচার: ধাপ‑ভিত্তিক পাইপলাইন
- পোস্টের URL শনাক্ত করুন এবং তার ক্য্যানোনিকাল আইডি সংগ্রহ করুন – অধিকাংশ প্ল্যাটফর্ম স্থায়ী শনাক্তকারী প্রকাশ করে (যেমন টুইট আইডি, ইনস্টাগ্রাম মিডিয়া আইডি)। এই আইডি URL‑এর সঙ্গে সংরক্ষণ করুন; URL রিডাইরেক্ট হলেও এটি স্থিতিশীল রেফারেন্স হিসেবে কাজ করবে।
- কাঁচা JSON পেলোডের অনুরোধ করুন – অফিসিয়াল API অথবা যাচাই করা তৃতীয়‑পক্ষের এন্ডপয়েন্ট ব্যবহার করে পোস্টের ডেটা স্ট্রাকচার পুনরুদ্ধার করুন। রেট লিমিট ও অথেনটিকেশন শর্ত মেনে চলুন; এই ধাপটি
created_atএবংgeoমত লুকানো ফিল্ড সংরক্ষণের জন্য অপরিহার্য। - সংযুক্ত মিডিয়া ডাউনলোড করুন – প্রতিটি ছবি বা ভিডিও URL‑এর জন্য সর্বোচ্চ রেজোলিউশনের সংস্করণ সংগ্রহ করুন। কোনো রূপান্তরের আগে মূল চেকসাম (SHA‑256) সংরক্ষণ করুন।
- টেক্সট সামগ্রী রেন্ডার করুন – পোস্টের
textফিল্ডকে কোটেড বা রিটুইটেড বিষয়বস্তুর সঙ্গে মিলিয়ে নিন। ইউনিকোড নরমালাইজ (NFC) করুন যাতে ইমোজি ও বিশেষ অক্ষরের অনির্দিষ্ট উপস্থাপন এড়ানো যায়। - আর্কাইভ প্যাকেজ তৈরি করুন –
- লাইন‑ব্রেক, ইমোজি ও হাইপারলিঙ্ককে সম্মান করে এমন লেআউট ইঞ্জিন দিয়ে নরমালাইজড টেক্সটকে PDF/A‑এ রূপান্তর করুন।
- প্রতিটি ছবি লসলেস PNG‑তে রূপান্তর করুন, মূল EXIF/IPTC ব্লক যুক্ত করুন।
- স্থির‑কোয়ালিটি সেটিং (যেমন
-crf 23) দিয়ে ভিডিওকে WebM‑এ পুনরায় এনকোড করুন। - SHA‑256 হ্যাশের মাধ্যমে PDF, ছবি এবং ভিডিওকে লিঙ্ক করে একটি JSON‑LD ফাইল তৈরি করুন।
- সবকিছুকে WARC‑এ বান্ডল করুন – WARC ফরম্যাট মূল HTTP রেসপন্স, নতুন তৈরি সম্পদ এবং মেটাডেটা ফাইলকে অন্তর্ভুক্ত করতে পারে। এই একক ফাইল
pywbবাArchive-Itএর মতো আর্কাইভ সিস্টেমে ইনজেস্ট করা যায়।
প্রতিটি ধাপ স্ক্রিপ্টেড হওয়া উচিত যাতে একই ইনপুট সবসময় একই আউটপুট হ্যাশ দেয়, যা পুনরুৎপাদনযোগ্যতা নিশ্চিত করে।
টেক্সটুয়াল বিষয়বস্তু ও ফরম্যাটিং সংরক্ষণ
সোশ্যাল টেক্সটে প্রায়ই লাইন ব্রেক, মার্কডাউন‑স্টাইল ফরম্যাটিং এবং প্ল্যাটফর্ম‑নির্দিষ্ট মার্কআপ (যেমন টুইটারের @mentions এবং #hashtags) থাকে। PDF/A‑তে রূপান্তরের সময় WeasyPrint বা PrinceXML এর মতো লেআউট ইঞ্জিন HTML ব্যাখ্যা করতে পারে। কাজের ধাপ:
- JSON‑এর
text‑কে HTML‑এ রূপান্তর করুন, মেনশন ও হ্যাশট্যাগকে<a>ট্যাগে মোড়িয়ে তাদের ক্য্যানোনিকাল URL‑এ লিঙ্ক করুন। - একটি মিনিমাল CSS প্রয়োগ করুন যা পাঠযোগ্য ফন্ট স্ট্যাক (ইমোজি ক্যারেক্টারের ফলব্যাক সহ) এবং মূল লাইন‑হাইট বজায় রাখে।
weasyprint --pdf-version=1.7 --output=post.pdf --pdf-aব্যবহার করে PDF/A‑2b তৈরি করুন। উৎপন্ন PDF টেক্সট লেয়ার এম্বেড করে, ফলে তা সার্চযোগ্য হয় এবং প্ল্যাটফর্মে দেখা ভিজ্যুয়াল রেপ্রেজেন্টেশন বজায় থাকে।
ছবির হ্যান্ডলিং: কম্প্রেশন থেকে মেটাডেটা রিটেনশন পর্যন্ত
সোশ্যাল প্ল্যাটফর্মে আপলোড করা ছবিগুলো প্রায়ই ব্যান্ডউইডথের জন্য ডাউন‑স্যাম্পল করা হয়। সর্বোচ্চ সম্ভব ফিদেলিটি রাখতে সর্বদা মূল মিডিয়া URL (?format=original বা সমমান) রিকোয়েস্ট করুন। ডাউনলোডের পরে:
- SHA‑256 চেকসাম যাচাই করুন।
pngcrush -bruteব্যবহার করে PNG‑তে রূপান্তর করুন; অপ্রয়োজনীয় অ্যনসেলারি চাঙ্ক সরিয়ে EXIF ডেটা রাখা হবে।- উৎস ছবি JPEG হলে
exiftool -TagsFromFile source.jpg -all:all target.pngদিয়ে মূল EXIF ব্লককে PNG‑এ এম্বেড করুন।
EXIF সংরক্ষণ ফরেনসিক ভেরিফিকেশনের জন্য গুরুত্বপূর্ণ—টাইমস্ট্যাম্প, GPS কোঅর্ডিনেট এবং ক্যামেরা মডেল ছবি উৎস প্রমাণ করতে সাহায্য করে।
ভিডিও রূপান্তর: গুণমান ও ভবিষ্যৎ‑প্রমাণের ভারসাম্য
ভিডিও ফাইল সংরক্ষণের সবচেয়ে বড় চ্যালেঞ্জ। একটি কার্যকরী পদ্ধতি:
- প্রথম পাস –
ffprobeদিয়ে মূল কোডেক, বিটরেট, রেজোলিউশন এবং ফ্রেম‑রেট রেকর্ড করুন। - দ্বিতীয় পাস – VP9 (বা হার্ডওয়্যার সাপোর্ট থাকলে AV1) দিয়ে WebM‑এ পুনঃএনকোড করুন। উদাহরণ কমান্ড:
ffmpeg -i source.mp4 -c:v libvpx-vp9 -crf 23 -b:v 0 -c:a libopus -metadata:s:v:0 title="Original bitrate: ${bitrate}" output.webm
-crf মান ভিজ্যুয়াল গুণমানকে মূলের কাছাকাছি রাখে এবং ফাইল সাইজকে পূর্বাভাসযোগ্য রাখে। মূল বিটরেটটি ভিডিও‑ট্র্যাক মেটাডেটা ফিল্ডে সংরক্ষণ করুন যাতে পরে রেফারেন্স করা যায়।
দীর্ঘ ভিডিওর ক্ষেত্রে ১০‑মিনিটের চাঙ্কে ভাগ করুন এবং একটি ম্যানিফেস্ট (m3u8) JSON সাইড‑কারে রেকর্ড করুন। এটি স্ট্রিমিং প্র্যাকটিসের সঙ্গে সামঞ্জস্যপূর্ণ এবং ভবিষ্যতে ওয়েব ব্রাউজারে প্লেব্যাক সহজ করে।
মেটাডেটা ক্যাপচার ও এম্বেডিং
দৃশ্যমান বিষয়বস্তুর পাশাপাশি মেটাডেটার মধ্যে রয়েছে:
- এনগেজমেন্ট মেট্রিক্স – ক্যাপচার মুহূর্তের লাইক, শেয়ার, কমেন্ট সংখ্যা।
- ব্যবহারকারী শনাক্তকারী – ইউজার আইডি, প্রদর্শন নাম, ভেরিফাইড স্ট্যাটাস।
- জিওলোকেশন – ল্যাটিটিউড/লংগিটিউড, স্থান নাম (যদি পাওয়া যায়)।
- প্ল্যাটফর্ম ভার্সন – API ভার্সন, রিকোয়েস্টের টাইমস্ট্যাম্প।
এই ফিল্ডগুলোকে schema.org-এর SocialMediaPosting টাইপ ব্যবহার করে JSON‑LD‑এ এনকোড করুন। উদাহরণ স্নিপেট:
{
"@context": "https://schema.org",
"@type": "SocialMediaPosting",
"identifier": "1234567890",
"dateCreated": "2024-02-14T18:23:00Z",
"author": {
"@type": "Person",
"identifier": "@user_handle",
"name": "Jane Doe"
},
"interactionStatistic": [
{"@type": "InteractionCounter","interactionType":"LikeAction","userInteractionCount":145},
{"@type": "InteractionCounter","interactionType":"CommentAction","userInteractionCount":27}
],
"contentUrl": "urn:sha256:abcdef...",
"encodingFormat": "application/pdf"
}
প্রতিটি সম্পদকে তার হ্যাশ (urn:sha256:…) দিয়ে লিঙ্ক করুন। এতে একটি যাচাইযোগ্য গ্রাফ তৈরি হয়, যা SPARQL দিয়ে কোয়েরি করা বা সাধারণ সার্চ ইঞ্জিনে ইনডেক্স করা যায়।
আইনি ও গোপনীয়তা বিবেচনা
ব্যবহারকারীর তৈরি কন্টেন্ট আর্কাইভ করার সময় প্ল্যাটফর্মের টার্মস অব সার্ভিস এবং প্রযোজ্য ডেটা‑প্রোটেকশন আইনকে সম্মান করতে হবে।
- কনসেন্ট – পোস্টটি যদি পাবলিক না হয়, আর্কাইভের আগে স্পষ্ট অনুমতি গ্রহণ করুন।
- ডেটা মিনিমাইজেশন – ব্যক্তিগত ডেটা (যেমন প্রাইভেট মেসেজ) বাদ দিন, যতক্ষণ না আর্কাইভের উদ্দেশ্যের জন্য প্রয়োজন।
- রিটেনশন পলিসি – কত সময় আর্কাইভ রাখা হবে তা নির্ধারিত করে নিন এবং তা WARC‑এর সঙ্গে ডকুমেন্ট করুন।
- এনক্রিপশন অ্যাট রেস্ট – শেষের আর্কাইভকে এনক্রিপ্টেড ভলিউম (AES‑256) তে সংরক্ষণ করুন এবং এনক্রিপশন কীকে ভিন্ন অ্যাক্সেস কন্ট্রোল সিস্টেমে রক্ষা করুন।
অনুরোধ হেডার, টাইমস্ট্যাম্প এবং রূপান্তরকারী ব্যক্তির পরিচয় ক্যাপচার করা একটি মজবুত অডিট ট্রেইল তৈরি করে, যা সম্মতি প্রদর্শনে সহায়তা করে।
ওয়ার্কফ্লো অটোমেট করা
হাজার হাজার পোস্ট মাসে প্রক্রিয়া করা হলে ম্যানুয়াল ধাপ অপর্যাপ্ত হয়। একটি শক্তিশালী অটোমেশন স্ট্যাক নিম্নরূপ গড়ে তোলা যায়:
- টাস্ক কিউ – RabbitMQ বা AWS SQS দিয়ে রূপান্তর কাজগুলিকে বাফার করুন।
- ওয়ার্কার সার্ভিস – একটি Docker কন্টেইনারে পাইথন স্ক্রিপ্ট চালান, যা উপরে বর্ণিত ধাপগুলো সমন্বয় করে। স্ক্রিপ্টটি
convertise.app‑এর পাবলিক API‑কে কল করতে পারে ফরম্যাট‑বিশেষ রূপান্তরের জন্য (যেমন PDF/A তৈরি) অতিরিক্ত সার্ভিসে মূল ফাইল প্রকাশ না করে। - ইন্টেগ্রিটি সার্ভিস – প্রতিটি রূপান্তরের পর SHA‑256 হ্যাশ গণনা করে PostgreSQL টেবিলে সংরক্ষণ করুন। ট্রিগার ব্যবহার করে প্রত্যাশিত ও প্রকৃত হ্যাশের কোনো বৈষম্য স্বয়ংক্রিয়ভাবে চিহ্নিত করুন।
- নোটিফিকেশন – Slack বা ইমেইল দিয়ে আর্কাইভ WARC এর অবস্থান এবং যাচাইকরণ রিপোর্টের লিংক পাঠান।
প্রতিটি স্টেজ আলাদা করা হলে স্থায়িত্ব বাড়ে: ভিডিও এনকোডিং ব্যর্থ হলেও টেক্সট প্রক্রিয়ায় বাধা না আসে, এবং ব্যর্থ কাজগুলো স্বয়ংক্রিয়ভাবে রি-ট্রাই করা যায়।
অখণ্ডতা ও সার্চযোগ্যতা যাচাই
আর্কাইভ সম্পূর্ণ হলে দুই ধাপের যাচাই চালান:
- চেকসাম যাচাই – WARC‑এর ভিতরের সব ফাইলের SHA‑256 পুনরায় হিসাব করে JSON‑LD সাইড‑কারে রেকর্ড করা হ্যাশের সঙ্গে তুলনা করুন। কোনও পার্থক্য বিট‑কোরাপশন নির্দেশ করে।
- কন্টেন্ট ইনডেক্সিং – Apache Lucene বা ElasticSearch দিয়ে PDF/A ও XML ফাইল ইনজেস্ট করুন। মূল পোস্টের কোনো ইউনিক ফ্রেজ সার্চে ব্যবহার করে নিশ্চিত করুন সঠিক ডকুমেন্ট রিট্রিভ হয়।
এই চেকগুলো রাতের CI পাইপলাইনের অংশ হিসেবে চালালে বিট‑রট দ্রুত ধরা যায়।
স্টোরেজ, রিট্রিভাল ও দীর্ঘমেয়াদী ম্যানেজমেন্ট
- কোল্ড স্টোরেজ – WARC ফাইলগুলোকে Amazon S3 Glacier Deep Archive এর মতো ড্যুরেবিলিটি গ্যারান্টি দেয়া অবজেক্ট স্টোরে রাখুন। ওভাররাইট রোধে ভার্সনিং সক্রিয় করুন।
- মেটাডেটা ক্যাটালগ – একটি হালকা ইন্ডেক্স (CSV অথবা SQLite) বজায় রাখুন, যা প্ল্যাটফর্মের পোস্ট আইডি, WARC ফাইলনাম এবং SHA‑256 হ্যাশকে লিঙ্ক করে। পুরো আর্কাইভ স্ক্যান না করেই দ্রুত লুকআপ সম্ভব করে।
- ভবিষ্যৎ মাইগ্রেশন – মূল অ্যাসেটগুলি ওপেন ফরম্যাটে থাকা কারণে, স্টোরেজ প্রোভাইডার পরিবর্তন করতে হলে শুধুই WARC ফাইলগুলো কপি করতে হবে; পুনঃএনকোডিং প্রয়োজন নেই।
মিনি‑কেস স্টাডি
একটি মাঝারি আকারের অ-লাভজনক সংস্থা তিন বছরব্যাপী একটি ক্লাইমেট‑চেঞ্জ ক্যাম্পেইনের সব ইনস্টাগ্রাম পোস্ট সংরক্ষণ করতে চেয়েছিল। তারা উপরে বর্ণিত পাইপলাইনটি বাস্তবায়ন করে নিম্নলিখিত ফলাফল পেয়েছে:
- মোট সম্পদ – ৪,২০০ পোস্ট, ৯,৮৭৬ ছবি, ২,১৩৪ ভিডিও ক্লিপ।
- স্টোরেজ ফুটপ্রিন্ট – মূল মিডিয়া ২.৮ TB ব্যবহার করছিল; PNG/WebM‑এ রূপান্তরের পর আর্কাইভ ২.১ TB, অর্থাৎ ২৫ % সাইজ কটসাটি লসলেস PNG এবং কনস্ট্যান্ট‑কোয়ালিটি WebM‑এর মাধ্যমে অর্জিত।
- সার্চযোগ্যতা – ElasticSearch-এ PDF/A ও JSON‑LD পে‑লোড ইনডেক্স করে কীওয়ার্ড, হ্যাশট্যাগ বা জিওলোকেশনের মাধ্যমে পোস্ট ০.৩ সেকেন্ডের মধ্যেই রিট্রিভ করা যায়।
- কমপ্লায়েন্স – ওয়ার্কফ্লো প্রত্যেক API রিকোয়েস্ট এবং রূপান্তর ধাপ লগ করে, যা অ-লাভজনকের অভ্যন্তরীণ অডিট এবং EU‑GDPR রেকর্ড‑কিপিং চ্যাপ্টার পূরণ করে।
প্রকল্পটি দেখিয়ে দিয়েছে যে শৃঙ্খলাবদ্ধ রূপান্তর কৌশল বিশৃঙ্খল সোশ্যাল মিডিয়া ফিডকে নির্ভরযোগ্য গবেষণা রেপোজিটরিতে রূপান্তর করতে পারে।
নির্ভরযোগ্য সোশ্যাল‑মিডিয়া আর্কাইভাল রূপান্তরের জন্য চেকলিস্ট
- ক্য্যানোনিকাল পোস্ট আইডি ক্যাপচার করুন এবং তা প্রাইমারি কী হিসেবে সংরক্ষণ করুন।
- স্বয়ংক্রিয়, অথেনটিকেটেড API কলের মাধ্যমে পুরো JSON পেলোড পুনরুদ্ধার করুন।
- সর্বোচ্চ রেজোলিউশনের মিডিয়া ফাইল ডাউনলোড করুন; চেকসাম যাচাই করুন।
- ইউনিকোড নরমালাইজ করুন এবং টেক্সটকে PDF/A‑2b‑এ রেন্ডার করুন।
- লসলেস PNG‑তে রূপান্তর করুন, EXIF/IPTC সংরক্ষণ করুন।
- ডকুমেন্টেড CRF মানের সঙ্গে WebM‑এ ভিডিও পুনঃএনকোড করুন।
- SHA‑256 হ্যাশের মাধ্যমে সব সম্পদকে লিঙ্ক করে একটি JSON‑LD সাইড‑কার তৈরি করুন।
- সব ফাইলকে একটি WARC‑এ বান্ডল করুন, যা একক‑ফাইল আর্কাইভ তৈরি করবে।
- অপরিবর্তনীয় অডিট লগ রেকর্ড করুন (রিকোয়েস্ট হেডার, টাইমস্ট্যাম্প, অপারেটর)।
- স্বয়ংক্রিয় চেকসাম ও সার্চযোগ্যতা যাচাই সম্পাদন করুন।
- এনক্রিপ্টেড, ভার্সনড কোল্ড স্টোরেজে চূড়ান্ত WARC সংরক্ষণ করুন।
এই ধাপগুলো অনুসরণ করলে একটি এমন আর্কাইভ তৈরি হয় যা সুলভ, যাচাইযোগ্য এবং আইনি দৃষ্টিকোণ থেকে দীর্ঘমেয়াদে রক্ষণযোগ্য।
ডেভেলপারদের জন্য একটি সরল, প্রাইভেসি‑ফোকাসড রূপান্তর এন্ডপয়েন্টের প্রয়োজন হলে, convertise.app এর ওপেন API PDF/A তৈরি, PNG অপ্টিমাইজেশন এবং WebM এনকোডিং হ্যান্ডল করতে পারে, অতিরিক্ত সফটওয়্যার ইনস্টলেশন ছাড়াই।