ОБРАБОТКА СТАТИСТИЧЕСКИХ ДАННЫХ НА ОСНОВЕ ПРОГРАММ ДЛЯ ОС LINUX

Раздел: ИТ в образовании

Журнал: Использование ИКТ в учебном процессе

5 июля 2012 г.

Авторы: Буяковская Ирина Александровна

И. А. Буяковская

ОБРАБОТКА СТАТИСТИЧЕСКИХ ДАННЫХ НА ОСНОВЕ ПРОГРАММ ДЛЯ ОС LINUX

В данной статье приводится обзор программных средств, входящих в состав ПСПО  и реализующих статистический анализ данных.

Решение задач математической статистики связано как с расчетом количественных показателей, так и с графической интерпретацией полученных результатов.

Достаточно удобным инструментом для анализа статистических данных являются электронные таблицы: OpenOffice.org Calc, Gnumeric. В них можно выполнять операции сортировки и ранжирования данных, вычисления описательных статистик, построения некоторых видов графиков, представления  распределения дискретной случайной величины и интервальных данных. Причем эти операции выполнимы как на основе использования непосредственно функций из категории статистические, так и из других категорий (логические, электронная таблица, математические), а также на основе надстройки «Подбор параметра».

Например рассмотрим следующую задачу, решение которой производится в программе OpenOffice.org Calc: В ряду чисел:  2, 7, 10, __, 18, 19, 27 одно число оказалось стертым. Восстановите его, зная, что среднее арифметическое этих чисел равно 14.

Воспользуемся надстройкой «Подбор параметра» для нахождения стертого элемента выборки . Для этого наберите элементы ряда в столбец A. В ячейку A9 внесите формулу нахождения среднего арифметического считая, что утерянный элемент расположен в ячейке A7. Таким образом, формула будет выглядеть следующим образом: =SUM(A1:A7)/7. Для запуска надстройки выбираем команду: Сервис - Подбор параметра. В открывшемся диалоговом окне задаем следующие настройки:

Рис. 1. Диалоговое окно «Подбор параметра»

В результате в ячейку A7 будет получено значение утерянного элемента ряда.

Рис. 2. Результат вычисления на основе надстройки «Подбор параметра»

Решим задачу на графическую интерпретацию статистических данных: Проверочную работу по алгебре выполняли 180 учащихся. В результате группировки работ по полученным оценкам составили таблицу:

На основании данных этой таблицы постройте полигон распределения оценок за проверочную работу.

Для построения полигона отмечают в координатной плоскости точки, абсциссами которых служат оценки, а ординатами – соответствующие им частоты.

Рис. 3. Полигон распределения оценок

Но полноценная обработка результатов исследования должна выполняться в специализированных пакетах. Универсальным пакетом из свободного программного обеспечения является PSPP, который часто сопоставляют с лицензионным пакетом SPSS предназначенного для статистического анализа данных. В пакете PSPP предусмотрен рассчет основных числовых характеристик входящих в состав описательной статистики, решаются задачи линейной регрессии, включены такие статистические методы анализа как: t-тест и непараметрические критерии. Он разработан для выполнения анализа входных данных как можно быстрее, независимо от их размера.

Также в качестве одного из направлений рассматривается применение математических пакетов позволяющих выполнять вычисления и построение статистических диаграмм и графиков. В данном случае можно привести такие как: Scilab, Maxima и Mathomatic.

В то же время применимо использование таких узкоспециализированных пакетов предназначенных только для анализа и визуализации научных данных  как: KmPlot, QtiPlot, Gnuplot, UDAV, MayaVi, Open Data Explorer (OpenDX). Продукт Open Data Explorer является версией пакета визуализации данных и разработки приложений корпорации IBM с открытым исходным кодом, который необходим для выполнения крайне сложных задач визуализации научных данных. Программа MayaVi представляет собой инструмент визуализации данных, связываемый с языком Python.

PDF