MEAN TRONG THỐNG KÊ LÀ GÌ

Share:

Thống kê là một phần rất đặc biệt quan trọng trong Machine Learning. Trong nội dung bài viết này đã đề cập đến những khái niệm cơ phiên bản nhất trong thống kê trải qua các phương pháp toán học và lập trình sử dụng Python.Bạn đang xem: Mean trong những thống kê là gì

Mô tả một tập dữ liệu

Giả sử rằng bạn chạy 100 m trong sáu lần, những lần chạy chúng ta dùng đồng hồ thời trang đo lại thời gian chạy (tính bằng giây) và hiệu quả 6 lần chạy của khách hàng gồm sáu quý giá (còn hotline là quan sát). Một phương pháp được cần sử dụng trong những thống kê là thực hiện bảng tích lũy dữ liệu như sau:


*

Để thấy được quan hệ giữa các dữ liệu một phương pháp trực quan, chúng ta cũng có thể dùng biểu đồ vật cột như sau:


*

Biểu vật trên có thể được tạo bằng cách dùng thư viện matplotlib:

from matplotlib import pyplot as pltLan_chay = So_giay = xs = plt.bar(xs, So_giay)plt.ylabel("Số giây")plt.xlabel("Lần chạy")plt.title("Thống kê số giây sau các lần chạy")plt.xticks(, Lan_chay)plt.show()Từ bảng tài liệu hay biểu đồ, bạn có thể suy ra một vài thông tin dễ dàng như lần chạy nào gồm số giây lớn số 1 hay nhỏ nhất nhưng họ vẫn cần phải biết nhiều hơn.

Bạn đang đọc: Mean trong thống kê là gì

Xu hướng tập trung (Central Tendencies)

Một trong những cách thức đo lường phổ cập dùng trong thống kê là giám sát và đo lường theo xu hướng tập trung dựa vào 3 thông số là số trung bình (mean tốt average), số trung vị (media) cùng số mode – là số gồm tần suất xuất hiện nhiều nhất trong mẫu.

Mean

Mean có thể được tính một cách đơn giản bằng tổng của toàn bộ các cực hiếm của dữ liệu trong mẫu phân tách cho form size mẫu. Lấy ví dụ như tính số giây vừa phải của 6 lần chạy như sau:


*

Với ham là số giây của lần chạy sản phẩm i. Hàm tính Mean của một mẫu rất có thể được định nghĩa dễ dàng bằng Python như sau:

Lan_chay = So_giay = # Định nghĩa hàm tính meandef mean(mau): return sum(mau)/len(mau)print(mean(So_giay))MedianTrong định hướng xác suất với thống kê, ví như m là số trung vị (Median) của một tập mẫu nào đó thì 50% số thành phần trong tập chủng loại đó có giá trị nhỏ dại hơn hay bằng m với một nửa còn lại có giá trị bằng hoặc to hơn m.

Median được xem như sau: sắp xếp dữ liệu và lấy quý hiếm ở giữa. Giả dụ số giá trị là một trong những chẳn thì median là trung bình của 2 quý hiếm ở giữa. Để phát âm hơn về trung vị bạn cũng có thể xem xét hai tập mẫu mã sau:

S1 = 7, 3, 2, 4, 3

S2 = 8, 7, 5, 6, 4,3

Trước khi tính trung vị, họ cần bố trí dữ liệu theo lắp thêm tự tăng (hay giảm) dần. Tập S1 hoàn toàn có thể được viết lại

S1 = 2,3,3,4,7

Và S2 rất có thể được viết lại:

S2 = 3,4,5,6,7,8

Như vậy Median(S1) = 3 cùng Median(S2) = (5+6)/2 = 5.5. Đoạn mã sau minh họa hàm tính Median:

# Hàm tính Median của một tập mẫudef median(v): n = len(v) # sắp xếp tập mẫu sorted_v = sorted(v) midpoint = n // 2 if n % 2 == 1: # giả dụ số phần tử của tập mẫu là lẻ thì Median là phần tử ở giữa sau khoản thời gian # tập chủng loại được bố trí return sorted_v else: # nếu số bộ phận của tập mẫu mã là chẵn thì Median là Median của hai bộ phận # sống giữa sau khi tập mẫu được thu xếp lo = midpoint - 1 hi = midpoint return (sorted_v + sorted_v) / 2QuantileDạng tổng thể của Median là Quantile– là gần như giá trị (hay điểm giảm (cut points)) phân tách tập mẫu mã thành phường phần có số bộ phận bằng nhau. Lúc ấy ta có thể gọi những điểm này là p-quantiles. Median 2-quantiles. Một Quantile phổ cập khác cần sử dụng trong xác suất và thống kê điện thoại tư vấn là Tứ phân vị (quartile) https://vi.wikipedia.org/wiki/T%E1%BB%A9_ph%C3%A2n_v%E1%BB%8B là 4-quantiles. Coi danh sách các quantiles trên https://en.wikipedia.org/wiki/Quantile

Hàm Python sau sẽ có mang một hàm quantile trả về một quantile theo tỉ trọng p:

def quantile(x, p): p_index = int(p * len(x)) return sorted(x)Mode Mode là số bao gồm tần suất xuất hiện thêm nhiều tuyệt nhất trong tập mẫu. Xem xét các tập mẫu mã và Mode của chúng:

S1 = 1, 1, 3, 3, 3, 4 -> Mode (S1) = 3 vày 3 mở ra nhiều độc nhất trong S1

S2 = 1, 2, 3 -> Mode(S2) = 1,2,3 vì những số 1,2,3 gồm số lần xuất hiện thêm bằng nhau là 1

S3 = 1, 2, 2, 1 -> Mode(S3) = 1,2 vì những số 1,2 có số lần mở ra bằng nhau là 2

Đoạn mã Python sau khái niệm hàm mode trả về các thành phần Mode:

from collections import CounterS1 = S2 = S3 = def mode(x): counts = Counter(x) max_count = max(counts.values()) return print(mode(S1)) # print(mode(S2)) # print(mode(S3))#

Đo lường sự biến chuyển thiên của dữ liệu (Variation of Data)

Để tính toán sự vươn lên là thiên tốt (thường so với giá trị trung bình) của tài liệu người ta thường được sử dụng các thông số Range (khoảng trở thành thiên), Interquartile Range (IQR – khoảng tầm tứ phân vị), Standard Deviation (độ lệch chuẩn), Variance (phương sai), Standard Error (sai số chuẩn).

Range (Khoảng trở thành thiên)

Được tính bằng phương pháp lấy giá chỉ trị lớn nhất trừ giá chỉ trị nhỏ tuổi nhất trong mẫu. Đoạn mã Python sau mô tả phương pháp tính Range:

def data_range(x): return max(x) - min(x)Ví dụ vào mẫu bao gồm 6 quan gần kề về thời gian chạy 100 m nghỉ ngơi trên ta có:

Range = 25.1- 17.9 = 7.2 giây

Deviation (độ lệch)

Trong thống kê, khi muốn giám sát và đo lường sự phân tán của dữ liệu so với mức giá trị trung trung khu ta cần sử dụng khái niệm độ lệch (deviation). Trả sử ta sử dụng giá trị trung bình làm giá trị trung tâm, khi đó ta bao gồm tổng độ lệch của tất cả quan sát với cái giá trị trung bình trong mẫu tất cả n quý hiếm là:


*

Vì các giá trị si hoàn toàn có thể lớn, bởi hay nhỏ dại hơn Mean bắt buộc giá trị độ lệch những lần quan sát sẽ có những quý giá âm, dương tốt 0 và điều đó sẽ dẫn đến tác dụng tổng độ lệch d có thể bằng 0. Để tránh sự bất tiện này, bọn họ sẽ cần sử dụng giá trị tuyệt vời và hoàn hảo nhất cho những độ lệch và cũng nhằm không bị ảnh hưởng từ kích cỡ mẫu bọn họ sẽ dùng phương pháp tổng độ lệch như sau:


*

Tuy nhiên, vụ việc của giá trị tuyệt đối là tính không liên tiếp tại gốc tọa độ nên bọn họ sẽ sử dụng các công cầm cố khác để đo lường và tính toán sự phân tán của tài liệu như phương không đúng (variance) cùng độ lệch chuẩn chỉnh (standard deviation).

Phương sai (variance) với độ lệch chuẩn chỉnh (standard deviation)

Trong tỷ lệ thống kê bao gồm hai quan niệm cơ phiên bản là population (tạm dịch: quần thể) và sample. Population là 1 trong tập hòa hợp có con số lớn các cá thể (hay các tên gọi khác như phần tử, thành viên, v.v.) cùng một sample là một trong những tập con hay tập chủng loại của population. Để tiện bài toán minh họa, những khái niệm hay bí quyết trong bài viết này được áp dụng trên các sample thay vày population.

Xem thêm: Is It Possible To Fully Own The Last Of Us Part Ii, The Last Of Us Version For Pc

Vì tiêu giảm của giá bán trị hoàn hảo trong bí quyết tính độ lệch nên bạn có thể sử dụng quan niệm phương sai (variance) để đo lường và tính toán sự phân tán của dữ liệu. Phương sai áp dụng cho tập mẫu (sample) bao gồm n phần tử gọi là phương sai mẫu (sample variance) tất cả công thức như sau:


Vấn đề cần sử dụng (n-1) tuyệt N tương quan đến những khái niệm cầu lượng chệch (biased estimator) và mong lượng ko chệch (unbiased estimator). Gồm thể tham khảo thêm tại https://stats.stackexchange.com/questions/17890/what-is-the-difference-between-n-and-n-1-in-calculating-population-variance

Phương không nên là tham số tốt nhất để giám sát sự biến thiên (hay phân tán) của dữ liệu trong mẫu vày nó đã quan tâm đến độ lệch của mỗi quan sát so với số trung bình, một số loại bỏ tác động của kích cỡ mẫu và là hàm mượt. Tuy nhiên, điểm yếu của phương sai là không cùng đơn vị tính với Mean. Đơn vị tính của phương không đúng là bình phương của đơn vị tính của trung bình. Chẳn hạn, đơn vị chức năng tính của thời hạn chạy vừa đủ là giây trong khí đó đơn vị chức năng tính của phương sai là giây bình phương. Để xử lý vấn đề này, fan ta rước căn bậc 2 của phương không đúng và kết quả này điện thoại tư vấn là độ lệch chuẩn (Standard Deviation). Cách làm độ lệch chuẩn chỉnh (áp dụng trên tập mẫu):


Các hàm Python sau dùng làm tính phương sai chủng loại và độ lệch chuẩn chỉnh mẫu:

# Tính tổng bình phươngdef sum_of_squares(s): return sum(s_i * s_i for s_i, s_i in zip(s, s))# Định nghĩa hàm tính meandef mean(s): return sum(s)/len(s)# tính độ lệchdef deviation(s): s_Mean = mean(s) return # tính phương saidef variance(s): n = len(s) d = deviation(s) return sum_of_squares(d) / (n - 1)# tính độ lệch chuẩndef standard_deviation(s): return math.sqrt(variance(s))

Tính đối sánh tương quan (Correlation)

Trong triết lý xác suất và thống kê, hệ số đối sánh tương quan (Coefficient Correlation) cho thấy thêm độ mạnh bạo của mối quan hệ tuyến tính giữa hai biến chuyển số ngẫu nhiên. Từ đối sánh tương quan (Correlation) được thành lập từ Co- (có nghĩa “together”) với Relation (quan hệ).

Hệ số tương quan giữa 2 biến hoàn toàn có thể dương (positive) hoặc âm (negative). Hệ số đối sánh dương cho thấy rằng quý hiếm 2 biến chuyển tăng cùng nhau còn hệ số đối sánh âm thì trường hợp một biến hóa tăng thì biến đổi kia giảm.

Một khái niệm đặc biệt quan trọng khác liên quan đến tính đối sánh là hiệp phương sai (covariance). Giả dụ phương sai sử dụng để giám sát sự thay đổi thiên của một biến hốt nhiên (hay tài liệu trên một tập mẫu) thì hiệp phương sai đo lường sự thay đổi thiên của nhì biến thiên nhiên (hay tài liệu trên nhị tập mẫu mã cùng số cá thể). Bí quyết hiệp phương không nên của hai biến chuyển (hay nhì tập mẫu tất cả cùng n cá thể) x, y:


Với sdx cùng sdy tương xứng là độ lệch chuẩn chỉnh của x và y.

Đoạn mã Python dùng để tính hệ số tương quan r như sau:

def dot(x,y): return sum(x_i * y_i for x_i, y_i in zip(x, y))# hiệp phương saidef covariance(x, y): n = len(x) return dot(deviation(x), deviation(y)) / (n - 1)# tính thông số tương quandef correlation(x, y): stdev_x = standard_deviation(x) stdev_y = standard_deviation(y) if stdev_x > 0 và stdev_y > 0: return covariance(x, y) / (stdev_x * stdev_y) else: return 0Xét một lấy một ví dụ về mối tương quan giữa nhiệt độ (Temprature) và doanh số bán kem (Ice Cream Sales) như sau:


Qua trang bị thị chúng ta thấy rằng, nhiệt độ độ càng cao thì doanh thu bán kem càng tăng. Hệ số tương quan và thiết bị thị của nhị biến ánh nắng mặt trời và doanh thu bán kem hoàn toàn có thể được diễn đạt qua các dòng mã Python:

Temperature = Ice_Cream_Sales = plt.scatter(Temperature,Ice_Cream_Sales)plt.show()print(correlation(Temperature, Ice_Cream_Sales)) # 0.9575Hệ số đối sánh tương quan sẽ giao động 0.9575.

Kết luận

Qua nội dung bài viết này bọn họ đã khám phá các tư tưởng cơ bạn dạng nhất trong thống kê lại – một nghành có vai trò đặc biệt trong Machine Learning. Bài tiếp theo họ sẽ khám phá các khái niệm trong một lĩnh vực có quan liêu hệ cực kì mật thiết với những thống kê là xác suất và cũng có thể có vai trò cực kỳ quan trọng trong Machine Learning.

Bài viết liên quan