سيناقش هذا المقال الضغط في سياق البيانات الضخمة، ويغطي أنواع وطرق الضغط. وسأسلط الضوء أيضاً على سبب وتوقيت استخدام كل نوع وطريقةسيناقش هذا المقال الضغط في سياق البيانات الضخمة، ويغطي أنواع وطرق الضغط. وسأسلط الضوء أيضاً على سبب وتوقيت استخدام كل نوع وطريقة

الضغط في البيانات الضخمة: الأنواع والتقنيات

\

مقدمة

ستناقش هذه المقالة الضغط في سياق البيانات الضخمة، وتغطي أنواع وطرق الضغط. سأسلط الضوء أيضًا على سبب وتوقيت استخدام كل نوع وطريقة.

\


ما هو الضغط؟

وفقًا للتعريف الإنجليزي العام للضغط، فإنه يشير إلى تقليل شيء ما ليشغل مساحة أصغر. في علوم الحاسوب، الضغط هو عملية تقليل البيانات إلى حجم أصغر. يمكن تمثيل البيانات، في هذه الحالة، في نصوص أو ملفات صوتية أو فيديو، إلخ. فكر فيها كأي شيء تخزنه على القرص الصلب لجهاز الكمبيوتر الخاص بك، كبيانات ممثلة بتنسيقات مختلفة. لتقديم تعريف أكثر تقنية، الضغط هو عملية ترميز البيانات لاستخدام بتات أقل.

\ هناك أسباب متعددة لضغط البيانات. السبب الأكثر شيوعًا وبديهية هو توفير مساحة التخزين. الأسباب الأخرى هي نتيجة لكون البيانات أصغر. تشمل فوائد العمل مع بيانات أصغر:

  1. وقت نقل البيانات بشكل أسرع: البيانات المضغوطة أصغر حجمًا وتستغرق وقتًا أقل للنقل من المصدر إلى الوجهة.
  2. تقليل استهلاك النطاق الترددي: هذا السبب مرتبط بشدة بميزة نقل البيانات بشكل أسرع. تستخدم البيانات المضغوطة نطاقًا تردديًا أقل من الشبكة، وبالتالي زيادة الإنتاجية وتقليل زمن الانتقال.
  3. تحسين الأداء للأنظمة الرقمية التي تعتمد بشكل كبير على البيانات: هذا واضح في الأنظمة التي تعتمد على معالجة البيانات. تستفيد هذه الأنظمة من الضغط لتحسين أداء الأنظمة عن طريق تقليل حجم البيانات التي تحتاج إلى معالجة. يرجى ملاحظة أن هذا قد يكون خاصًا بالنظام وسيعتمد على استخدام تقنية الضغط المناسبة. سيتم مناقشة تقنيات الضغط لاحقًا في هذه المقالة.
  4. كفاءة التكلفة: تفرض الخدمات السحابية رسومًا على تخزين البيانات. باستخدام تخزين أقل، يتم تحقيق وفورات في التكاليف، خاصة في أنظمة البيانات الضخمة.

\ تعتمد الأسباب الأخرى للضغط على تقنيات وتنسيقات ضغط مختلفة. يمكن استخدام بعض خوارزميات التشفير كطريقة للضغط. من خلال القيام بذلك، فإنه يتضمن طبقة أمان للأسباب التي نوقشت سابقًا لضغط البيانات. بالإضافة إلى ذلك، فإن استخدام تنسيقات الضغط الشائعة يجلب التوافق ومجالًا للتوسع في الأنظمة الخارجية لأغراض التكامل.

\ يجدر بالذكر أن أسباب الضغط تبدو أيضًا كفوائد. ومع ذلك، فإن الضغط ليس بدون مقايضات. أحد المقايضات الشائعة للضغط هو الحاجة إلى فك الضغط، والذي قد يكون مثيرًا للقلق بالنسبة للأنظمة ذات الموارد المحدودة. تعتمد المقايضات الأخرى على تقنية الضغط ونوع البيانات المستخدمة.

\


أنواع الضغط

لمناقشة التقنيات المختلفة المستخدمة لضغط البيانات، سأقوم أولاً بتصنيف الضغط إلى فئتين رئيسيتين. ستناقش هذه المقالة بعد ذلك التقنيات ذات الصلة بكل فئة. يمكن تجميع الضغط على نطاق واسع في ضغط مع فقدان وضغط بدون فقدان.

\ كما توضح الأسماء ما تعنيه بالفعل، تقنيات الضغط مع الفقدان هي تقنيات لا تحافظ على الدقة الكاملة للبيانات. ببساطة، يتم التخلص من بعض البيانات، ولكن ليس بما يكفي لجعل ما تمثله البيانات غير قابل للتعرف عليه. وبالتالي، يمكن للضغط مع الفقدان أن يوفر مستوى عالٍ جدًا من الضغط مقارنة بالضغط بدون فقدان، والذي سيتم تقديمه قريبًا.

\ تتمثل إحدى خصائص الضغط مع الفقدان في أنه غير قابل للعكس، أي عند تقديم الملف المضغوط، لا يمكن للمرء استعادة البيانات الأولية بدقتها الأصلية. بعض الملفات وتنسيقات الملفات مناسبة للضغط مع الفقدان. يتم استخدامه عادةً للصور والصوت ومقاطع الفيديو. على سبيل المثال، تتناسب الصور بتنسيق JPEG بشكل جيد مع الضغط، ومن خلال ضغط صورة JPEG، يمكن للمنشئ أو المحرر اختيار مقدار الفقدان الذي يجب إدخاله.

\ من ناحية أخرى، الضغط بدون فقدان قابل للعكس، مما يعني أنه عند الضغط، يتم الحفاظ على جميع البيانات واستعادتها بالكامل أثناء فك الضغط. هذا يعني أن الضغط بدون فقدان مناسب للملفات النصية، وفي عالم مستودعات البيانات وبحيرات البيانات، سيكون النوع الوحيد ذو الصلة للاستخدام. تعمل بعض تنسيقات الملفات الصوتية (FLAC و ALAC) وملفات الصور (GIF، PNG، إلخ) بشكل جيد مع هذا النوع من الضغط.

اختيار طريقة

لا توجد طريقة ضغط أفضل بشكل عام. تدخل عوامل مختلفة في اختيار الطريقة المناسبة على أساس كل حالة على حدة. لتعزيز ذلك بأمثلة، سيميل مهندس البيانات في صناعة المالية الذي يعمل على البيانات الجدولية المخزنة إلى استخدام الضغط بدون فقدان بسبب تأثير فقدان البيانات في إنشاء تقارير دقيقة. بدلاً من ذلك، يمكن أن يكون الضغط مع الفقدان هو الطريقة المناسبة في تحسين صفحة الويب مع الكثير من الصور عن طريق ضغط الصور وتقليل عناصر التحميل بجعل الموقع أخف. لذلك، من الأهمية بمكان إجراء تقييم لتحديد طريقة الضغط الأنسب التي تتماشى مع متطلبات العمل.

تقنيات الضغط

سيغطي هذا القسم فقط تقنيات الضغط الشائعة لكل من الضغط مع الفقدان وبدون فقدان. يرجى ملاحظة أن هذا ليس شاملاً بأي حال من الأحوال. علاوة على ذلك، قد تحتوي التقنيات التي تمت مناقشتها على اختلافات طفيفة لتعزيز أدائها، كما تدعمها أبحاث مختلفة.

تقنيات الضغط بدون فقدان

ثلاث تقنيات شائعة بدون فقدان هي ترميز طول التشغيل (RLE)، وترميز هوفمان، وتقنيات Lempel-Ziv-Welch.

\ ترميز طول التشغيل: يعتمد RLE على ترميز البيانات، بحيث يستبدل تسلسلات البيانات المتكررة بقطعة واحدة من البيانات وعدد تلك القطعة من البيانات. إنه فعال لعمليات التشغيل الطويلة للبيانات المتكررة. أيضًا، مجموعات البيانات التي تحتوي على أبعاد (حقول) يتم فرزها من مستوى منخفض إلى مستوى عالٍ من التفرد تستفيد من RLE.

\ على سبيل المثال، خذ سلسلة بسيطة مثل AAAAABBCDDD. يضغط RLE البيانات لتصبح A(5)B(2)C(1)D(3). لتكون أكثر عملية، خذ جدولًا في الصورة أدناه.

\ الشكل 1 - قبل RLE. من المهم ملاحظة أن مستوى التفرد يتزايد في الحقول من اليسار إلى اليمين

الشكل 2 - بعد RLE

نظرًا لأن RLE يعتمد على عمليات تشغيل الحقول المتكررة، وفي المثال الثاني، التفرد وترتيب فرز البيانات، لا يمكن ضغط سجل Mouse في عمود العنصر إلى مجرد Mouse (3) لأن العمود السابق يقسم جميع القيم إلى IT, Mouse و HR, Mouse. تتوافق بعض تنسيقات الملفات مع RLE، مثل تنسيقات ملفات الصور النقطية مثل TIFF و BMP وما إلى ذلك. تدعم ملفات Parquet أيضًا RLE، مما يجعلها مفيدة جدًا في بحيرات البيانات الحديثة باستخدام التخزين الكائني مثل S3 أو GCS.

\ ترميز هوفمان: يعتمد على النمذجة الإحصائية التي تعين أكوادًا متغيرة الطول للقيم في البيانات الأولية بناءً على التردد الذي تحدث به في البيانات الأولية. يمكن الإشارة إلى تمثيل هذه النمذجة على أنها شجرة هوفمان، والتي تشبه الشجرة الثنائية. يتم بعد ذلك استخدام هذه الشجرة لإنشاء كود هوفمان لكل قيمة في البيانات الأولية. تعطي الخوارزمية الأولوية لترميز القيم الأكثر تكرارًا في أقل عدد ممكن من البتات.

\ لنأخذ نفس البيانات المستخدمة في مثال RLE AAAAABBCDDD. تبدو شجرة هوفمان المقابلة كهذا.

\ شجرة هوفمان

من الشجرة، يمكننا أن نرى أن الحرف A ممثل بـ 0 وبالمثل D ممثل بـ 10. بالمقارنة مع الحروف B: 111 و C:110، نلاحظ أن A و D ممثلان ببتات أقل. هذا لأن لديهم تردد أعلى؛ وبالتالي، فإن خوارزمية هوفمان تمثلهم ببتات أقل حسب التصميم. تصبح البيانات المضغوطة الناتجة 00000111111110101010.

\ يستخدم ترميز هوفمان قاعدة البادئة، التي تنص على أن الكود الذي يمثل حرفًا يجب ألا يكون موجودًا في بادئة أي كود آخر. على سبيل المثال، لا يمكن أن يحتوي كود هوفمان الصالح على الحرفين c و d ممثلين باستخدام C: 00 و D: 000 لأن تمثيل C هو بادئة لـ D.

\ لرؤية هذا عمليًا، يحتوي دليل مجال علوم الحاسوب على مولد شجرة هوفمان يمكنك اللعب به.

\ ترميز Lempel–Ziv–Welch: تم إنشاؤه بواسطة Abraham Lempel و Jacob Ziv و Terry Welch في عام 1984 وسُمي على اسم المبدعين، بوضوح 😅. على غرار RLE وترميز هوفمان، يعمل LZW بشكل جيد مع البيانات التي تحتوي على الكثير من البيانات المتكررة. خوارزمية LZW تعتمد على القاموس وتنشئ قاموسًا يحتوي على أزواج مفتاح-قيمة للأنماط الشائعة في البيانات الأولية. يمكن أيضًا الإشارة إلى هذا القاموس على أنه جدول الكود. باستخدام توضيح لشرح كيفية عمل هذه التقنية، لنأخذ بياناتنا الأولية لتمثيلها بـ ABBABABABA. عند تمريرها عبر الخوارزمية باستخدام تكوين من A-Z كقيم محتملة، يبدو جدول الكود الناتج كالتالي:

\ جدول كود LZW

من جدول الكود أعلاه، يوجد زوج مفتاح-قيمة لجميع الحروف من A-Z وأزواج مفتاح-قيمة للأنماط مثل AB و BB و BA و ABA. من خلال وجود تمثيل أقصر لهذه الأنماط، يمكن لخوارزمية LZW ضغط البيانات الأولية عن طريق ترميزها في بتات أقل. وبالتالي، باستخدام جدول الكود الذي تم إنشاؤه من هذا المدخل، فإن الإصدار المضغوط هو 0 1 1 26 29 28. من المهم ملاحظة المسافات في البيانات المضغوطة. يمكن للمرء أن يفكر فيها على أنها نهاية حرف، بحيث لن يفسر فك التشفير 1,0 كـ 10 لأنهما يعنيان أشياء مختلفة.

\ عادة ما يكون LZW ذو أغراض عامة ويستخدم على نطاق واسع اليوم. تم دمجه في العديد من أنظمة التشغيل المستندة إلى Unix/Linux خلف أمر shell compress. أيضًا، تنسيقات الملفات الشائعة المتوافقة مع LZW هي GIF و TIFF و PDF. يمكن رؤية تطبيقات أخرى لضغط LZW في مجال معالجة اللغة الطبيعية، كما هو موضح في هذه الورقة حول الرموز في معالجة اللغة الطبيعية.

\ RLE وترميز هوفمان وترميز LZW هي أمثلة شائعة فقط. تتجاوز تقنيات الضغط بدون فقدان هذه الثلاثة (3) الموصوفة أعلاه. تتضمن التقنيات الأخرى DEFLATE، التي تستخدم مزيجًا من ترميز هوفمان و LZW - على وجه التحديد LZ77.

تقنيات الضغط مع الفقدان

في هذا القسم، سننظر في نوعين من الضغط مع الفقدان. تذكر أن الضغط مع الفقدان يقدم فقدانًا للبيانات الأصلية، مما يعني أنه لا يتم الاحتفاظ بجميع البيانات.

\ تحويل جيب التمام المنفصل (DCT): تُستخدم طريقة الضغط هذه بشكل أساسي في ملفات الصوت والصورة والفيديو ويشار إليها أيضًا بشكل شائع باسم ضغط الكتل. تستخدم دالة رياضية - دالة جيب التمام، كما يوحي الاسم - لتحويل كتل البيانات الأصلية إلى ترددات. عادةً ما تكون كتل البيانات مصفوفة من 8x8، 4x4، وهكذا، في هذا الترتيب من الحجم.

\ يأتي الضغط عند التعامل مع الترددات العالية التي تحدث في البيانات، بمجرد ترجمة البيانات الأولية إلى مجال التردد باستخدام الدالة الرياضية. العملية الإجمالية لاستخدام DCT للضغط هي:

  • تقسيم البيانات الأولية إلى أجزاء. على سبيل المثال، في ضغط الصور، قد يكون هذا 8x8 بكسلات.
  • تطبيق الدالة الرياضية لتحويل أجزاء البيانات إلى ترددات. سينتج عن هذا بعض الترددات العالية والترددات المنخفضة.
  • يتم بعد ذلك تقليل أو إزالة الترددات العالية اعتمادًا على درجة الفقدان المقبولة التي يرغب المرء في إدخالها. هذا هو المكان الذي يصبح فيه حقًا ضغطًا مع فقدان.
  • للتحويل مرة أخرى إلى بيانات قابلة للتمثيل، يتم تمرير جميع الترددات المتبقية عبر تحويل جيب التمام المنفصل العكسي - IDCT - لاستعادة البيانات من الترددات.

\ يُستخدم DCT على نطاق واسع في مجالات مختلفة اليوم، ليس فقط في الضغط ولكن أيضًا في معالجة الإشارات. تنسيقات الملفات الشائعة المتوافقة مع DCT هي JPEG (صور)، MP3 (صوت)، و MPEG (فيديو). بالإضافة إلى ذلك، يمكن لـ DCT تحقيق نسب ضغط عالية، مما يجعله مناسبًا للأنظمة الرقمية مع الكثير من الصور، مثل صفحات الويب على الإنترنت.

\ ضغط فراكتال: الفراكتال هو نمط لا نهائي ذاتي التكرار يتكرر على مقاييس مختلفة. عند النظر إليه من أي نقطة على المقياس، يبدو النمط مشابهًا. نظرًا لأن الأنماط متشابهة على أي مقياس، فإن ضغط الفراكتال يقلل من مقياس الفراكتال "الكبيرة" لتقليل حجم البيانات.

\ أمثلة على الفراكتال

تم تقديم ضغط فراكتال بواسطة Michael Barnsley في الثمانينيات. الفكرة العامة باستخدام صورة هي أنه إذا كانت الصورة تحتوي على عدة أجزاء تبدو متشابهة، فلماذا تخزينها مرتين؟ للقيام بذلك، يقوم ضغط الفراكتال بما يلي:

  • يقسم الصورة إلى كتل غير متداخلة تُعرف باسم كتل النطاق. يمكن أن تكون هذه كتل نطاق من 8x8، 16x16 بكسلات، إلخ.
  • يفحص الصورة بحثًا عن أنماط ذاتية التكرار (أنماط فراكتال). باستخدام كتل النطاق، تجد الخوارزمية أقسامًا أكبر من الصورة مشابهة لكتل النطاق هذه. تُشار إلى هذه الأقسام الأكبر باسم كتل المجال.
  • يتم بعد ذلك تطبيق دالة تحويل على كتلة المجال لتقريب كتل النطاق. دوال التحويل هذه هي دوال رياضية مثل القياس والترجمة والدوران وما إلى ذلك. يمكن أيضًا الإشارة إليها على أنها تحويلات. تسمى هذه التحويلات أكواد فراكتال فيما يتعلق بضغط الفراكتال.
  • يتم بعد ذلك ترميز البيانات لتلك دوال التحويل. بدلاً من تخزين بيانات البكسل-البكسل، يتم تخزين التحويلات. هذه التحويلات هي القواعد التي تصف كيفية إعادة بناء الصورة من كتل المجال.

\ باستخدام أكواد الفراكتال، يتم إعادة بناء الصورة باستخدام عملية تكرارية. يمكن أن تكون هذه العملية مكلفة من الناحية الحسابية، ولكن يمكن لضغط الفراكتال تحقيق نسبة عالية من الضغط مقارنة بتقنيات الضغط الأخرى. نظرًا لاعتمادها على الأنماط ذاتية التكرار، فإنها ستؤدي بشكل أفضل على البيانات التي تتوافق مع وجود مثل هذه الأنماط ذاتية التكرار. ستكون الأمثلة هي الصور الطبيعية (صور الطبيعة) وصور الحمض النووي.

\ هناك تقنيات ضغط أخرى مع فقدان، مثل تحويل المويجات المنفصل، التكميم. عادةً ما تُستخدم هذه التقنيات في ملفات الصور والصوت والفيديو ومناسبة لأنواع أو تنسيقات ملفات معينة - JPEG، MP3 - لكل نوع ملف.

\ عمومًا يحتوي الضغط مع الفقدان على نسب ضغط أعلى من الضغط بدون فقدان ويتوقع أحيانًا أن يعرف المستخدم مقدار الفقدان الذي يجب إدخاله مسبقًا. من المهم التأكيد على أن اختيار طريقة وتقنية الضغط يعتمد على عدة عوامل. في صميم هذه العوامل تنسيق البيانات والنتيجة المرجوة.

ملخص

بشكل عام، يناقش هذا المنشور الضغط في عالم البيانات. يعتمد بشدة على مجموعة المعرفة الموجودة في علوم الحاسوب ونظرية المعلومات. الضغط يعني تقليل الحجم الذي يشغله كيان ما، وفي مجال البيانات، يشير الحجم إلى مساحة التخزين. الضغط في الأنظمة الرقمية له مزايا عديدة عند القيام به بشكل صحيح. الواضح هو أنه يقلل من المساحة ويوفر مجالًا لتخزين المزيد من البيانات. تشمل المزايا الأخرى نقلًا أسرع، واستخدام نطاق ترددي أقل، وتحسنًا عامًا في كفاءة النظام المذكور. تذكر، هذا عندما يتم القيام به بشكل صحيح.

\ للاستفادة من مزايا الضغط، من المهم معرفة نوع الاستخدام. الضغط إما مع فقدان أو بدون فقدان. يقدم الضغط مع الفقدان فقدانًا في البيانات الأصلية وهو عادة غير قابل للعكس، بينما يضغط الضغط بدون فقدان البيانات ويحتفظ بجميع المعلومات الواردة في البيانات الأصلية. علاوة على ذلك، هناك خطاب حول أنواع الضغط الهجينة، لكنني أعتقد أن مزيجًا من الفقدان وبدون فقدان هو مجرد فقدان. دعني أعرف ما رأيك في التعليقات.

\ أخيرًا، تم تقديم تقنيات مختلفة لكل من الضغط مع الفقدان وبدون فقدان. قائمة التقنيات وشروحات هذه التقنيات ليست شاملة ولا شاملة. أعتبرها فقط بداية جيدة في إعطائك فكرة عن كيفية عمل كل تقنية. للختام، أضفت موارد إضافية لمساعدتك على التحقيق بشكل أكبر والقراءة بشكل أعمق حول الضغط في البيانات الضخمة.


موارد إضافية

فيديو: أساسيات بحيرة البيانات - ترميز RLE مع Parquet عمليًا

ورقة: مراجعة لتقنيات ضغط البيانات

ورقة: تقنيات الضغط بدون فقدان

مقدمة موجزة لضغط البيانات من قبل David Salomon

ورقة: دراسة لتقنيات ضغط البيانات المختلفة

منشور مدونة: الضغط في تنسيقات الملفات المفتوحة

مقال: تنسيقات الملفات المفتوحة

مقال: الضغط في قواعد البيانات

الضغط مع الفقدان لبيانات الجينوم (RNA)

\

فرصة السوق
شعار BIG
BIG السعر(BIG)
$0.0001043
$0.0001043$0.0001043
-0.56%
USD
مخطط أسعار BIG (BIG) المباشر
إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني [email protected] لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.