ویژگی های اصلی بیگ دیتا
مقدمه
در این بخش می خوایم با هم راجع به Vهای کلیدی در بیگ_دیتا صحبت کنیم. یه نکته ای هم هست راجع به پارادایم بیگ دیتا، و اونم اینکه این پارادایم شامل سه تاپیک کلیدی هست.
- سیستم های داده ای توزیع شده
- منابع مستقل و ترکیبی به صورت افقی
- مقیاس پذیری فوق العاده بالا
- (مقیاس پذیری ما اینجا به صورت افقی هست نه عمودی تا بتونیم با استفاده از Commodity Hardware، بالاترین توان پردازشی رو به دست بیاریم).
اما قبل ازهر چیزی باید بگم باارزش ترین V خود Value هست. سایر ویژگی های بیگ دیتا بدون اینکه ما بتونیم بینشی از کسب و کارمون داشته باشم ارزش خاصی ایجاد نمی کنه. یعنی
- Volume
- Velocity
- Variety
جالبه بدونید حجم دیتا از 2009 تا 2020 به میزان 44 برابر افزایش پیدا کرده و از 0.8 زتابایت رسیده به حدود 35 زتابایت و این افزایش به صورت توانی رخ میده. اما ویژگی Variety میاد به پیچیدگی و انواع دیتاتایپ های مختلف اشاره میکنه. ما دیتاهای مختلفی داریم مثل
🔹داده های رابطه ای (در قالب جداول و تراکنش ها)
🔸داده های متنی (سطح وب)
🔸داده های نیمه ساختاری (مثل اسناد xml)
🔹داده های گرافی
🔸مثل شبکه های اجتماعی
🔹مثل اسناد وب معنایی (RDF)
🔹و داده های جریانی
Velocity
ویژگی Velocity در واقع به سرعت تولید دیتا اشاره داره و نکته اینجاست که فاز تحلیل هم باید به سرعت و بصورت آنلاین صورت بگیره. به عنوان میشه به مانتورینگ سلامت افراد اشاره داشت.
بعضا دیده میشه که ویژگی Veracity که هم جزو V های کلیدی شمرده میشه. راستی برای بررسی ویژگی های value و Variability می تونید به بررسی تفاوت های دو ویژگی Value, Variability از ویژگی های بیگ_دیتا سربزنید.
تو تعریفی که موسسه مطرح گارتنر در سال 2012 از بیگ_دیتا ارایه داده به سه تا ویژگی اشاره کرده:
- High Volume
- High Velocity
- High Variety
باید به این مطلب اذعان کرد دیتا وقتی بیگ میشه که توان پردازشی ما تو گام های ذیل به چالش مواجه میشه:
🗳Capture
📄Storage
📊Search
🧾Sharing
📥Transfer
📜Analysis
🧮Visualization
Variability
اما Variability به تغییر در دیتاست یا در نرخ گردش دیتا، فرمت و ساختاردیتا و حجم دیتا اشاره داره به طوری که میتونه فرآیند پردازش رو به طور کل تحت تاثیر قرار بده. تاثیراتی که نیازمند تغییر در موارد ذیل هست:
ریفکتورینگ معماری ها
ریفکتورینگ اینترفیس ها
ریفکتورینگ الگوریتم ها
ریفکتورینگ ذخیره سازی
و …
بیگ دیتا واقعا ٰVariable هست اونم بخاطر ابعاد بسیار وسیعی که دیتا داره که همین دیتا از دیتا سورس ها و دیتاتایپ های گوناگون نشات گرفته. ناهماهنگی، تناقض، بی ثباتی و ناسازگاریی که تو ویژگی Velocity مطرح هست منجر به ایجاد تغییر در نرخ گردش دیتا میشه. برای روشن شدن هرچه بهتر ویژگی Variability یه نمونه مثال براش بخوام بگم می تونم به بحث تحلیل احساسات توی متن اشاره کنم. امکان داره ما n تا توییت با کلمات یکسان داشته باشیم اما همین کلمات توی هر توییت می تونن مفهوم و معنای متفاوتی داشته باشن.
Veracity
اما در رابطه با Veracity باید گفت این ویژگی به صحت دیتا اشاره داره، چون احتمال وجود اطلاعات غلط و ناصحیح وسط این همه حجم از دیتای سرسام آوری که داره تولید میشه حتما هست و همیشه نمیشه به این دیتاها به طور قطعی و 100٪ اطمینان داشت.
Validity
اما Validity، ما میایم میگیم اصلا دیتای ما کاملٍ کامل درست و صحیح، اما شاید برای کیس مدنظرمون مناسب نباشه و به قولی فیت کارمون نباشه.
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.