ভ্যারিয়েন্স ও স্ট্যান্ডার্ড ডেভিয়েশন

Last updated 24 days ago

আমরা আগেই বলেছি ডাটা ডিস্ট্রিবিউশন করাকে স্প্রেড আউট করা বা ছড়িয়ে দেয়াও বলা যায়। সেক্ষেত্রে আমরা জানতে পেরেছি যে নরমালি ডিস্ট্রিবিউটেড ডাটা বা ডাটাকে নরমালি ডিস্ট্রিবিউট করার অনেক সুবিধা আছে। তো, সেই নরমালি ডিস্ট্রিবিউট করার পর যদি পর্যবেক্ষণ করি যে- ডাটা গুলো গড় মান থেকে কতটা ছড়ানো বা এর থেকে কত দুরে অবস্থিত সেক্ষেত্রে যে ফ্যাক্টরটি সম্বদ্ধে জানতে হবে সেটি হচ্ছে উক্ত ডিস্ট্রিবিউশনের ভ্যারিয়েন্স।

ভ্যারিয়েন্স হচ্ছে - উক্ত ডিস্ট্রিবিউশনের mean (গড়) মান থেকে প্রত্যেকটি এলিমেন্টের দূরত্বের বর্গের গড়। অর্থাৎ, উপরের sizes অ্যারের ভ্যারিয়েন্স বের করার জন্য আমরা নিচের ফর্মুলা ব্যবহার করতে পারি,

$$\begin{equation*} Variance, \, \sigma ^ 2 = \frac{\sum (x-\mu) ^ 2}{N} \end{equation*}$$

যেখানে$x$হচ্ছে এলিমেন্ট এবং$\mu$হচ্ছে গড়। আর$N$হচ্ছে মোট এলিমেন্ট সংখ্যা।

$$\begin{equation*} Variance = \frac{(1-11.19)^2 + (4-11.19)^2 + (5-11.19)^2 + (6-11.19)^2 ... (18-11.19)^2 + (20-11.19)^2}{36} \end{equation*}$$

আর, স্ট্যান্ডার্ড ডেভিয়েশন হচ্ছে ভ্যারিয়েন্স এর বর্গমূল,

$Standard \, Deviation = \sqrt{Variance}$

নিজে নিজে ক্যালকুলেশনটা করে দেখতে পারেন। আমি numpy এর std ফাংশন ব্যবহার করে তাড়াতাড়ি জেনে নেই স্ট্যান্ডার্ড ডেভিয়েশন কত,

np.std(sizes)
3.9144990061482714