Тема: Статистические методы анализа данных: цель, задачи, основные разделы, стадии применения.

СТАТИСТИЧЕСКИЕ МЕТОДЫ в экологии, совокупность методов количественного определения общих свойств и характера взаимосвязи варьирующих экологическими явлений и процессов с помощью спец. математического аппарата, основанного на теории вероятностей и др. разделах высшей математики.

Применение методов статистической обработки результатов экологических исследований проводится с целью получения пригодных для сравнения количественных характеристик распределения организмов, проведения самой процедуры сравнения, а также установления зависимости между отдельными переменными, характеризующими среду обитания.

Основные разделы оценки рядов: среднее, отклонение, вариация, ошибка;

Оценка корреляции (Показатель ранговой корреляции Спирмена),

Сравнение рядов (достоверность различий),

Оценки сходства,

Оценка экологического разнообразия,

Оценка ширины экологической ниши (местообитания).

Применение статистических методов складывается из 3 стадий:

1. сбора информации или осуществления массовых статистических наблюдений,
2. сводки и систематизации материала
3. обобщения материала, где собственно и применяют математические методы, которые складываются из 4 основных разделов - характеристики выборочной совокупности, корреляционного, регрессионного и дисперсионного анализов.

Характеристика выборочной совокупности заключается в нахождении общих признаков вариационного ряда. Наиболее распространенной величиной, характеризующей выборочную совокупность, служит средняя арифметическая, равная сумме всех вариантов, деленной на число последних. Корреляционный анализ применяют для установления взаимной связи нескольких признаков. В экологии, как правило, каждому значению одного признака или фактора соответствует несколько значений другого. Дисперсионный анализ применяют для установления роли отдельных факторов в изменчивости изучаемого признака. Регрессионный анализ применяют для установления зависимости изменений одного параметра экосистемы от изменения одного или нескольких др. параметров, обусловливающих изменения первого (изменения величины урожая в зависимости от осадков, температуры и содержания питательных веществ в почве; изменения сахаристости и кислотности ягод винограда - от осадков, температуры и гранулометрического состава почв).

Методы стат. обработки рядов данных.

Методами статистической обработки результатов эксперимента называются математические приемы, формулы, способы количественных расчетов, с помощью которых показатели, получаемые в ходе эксперимента, можно обобщать, приводить в систему, выявляя скрытые в них закономерности.

Речь идет о таких закономерностях статистического характера, которые существуют между изучаемыми в эксперименте переменными величинами.

Данные – это основные элементы, подлежащие классифицированию или разбитые на категории с целью обработки.

Некоторые из методов математико-статистического анализа позволяют вычислять так называемые элементарные математические статистики, характеризующие выборочное распределение данных, например:

- выборочное среднее,

- выборочная дисперсия,

- мода,

- медиана и ряд других.

Иные методы математической статистики позволяют судить о динамике изменения отдельных статистик выборки, например:

- дисперсионный анализ,

- регрессионный анализ.

С помощью третьей группы методов выборочных данных, можно достоверно судить о статистических связях, существующих между переменными величинами, которые исследуют в данном эксперименте:

- корреляционного анализа;

- факторного анализа;

- методов сравнения.

Все методы математико-статистического анализа условно делятся на первичные и вторичные.

Первичными называют методы, с помощью которых можно получить показатели, непосредственно отражающие результаты производимых в эксперименте измерений.

Вторичными называются методы статистической обработки, с помощью которых на базе первичных данных выявляют скрытые в них статистические закономерности.

К первичным методам статистической обработки относят, например:

- определение выборочной средней величины;

- выборочной дисперсии;

- выборочной моды;

- выборочной медианы.

В число вторичных методов обычно включают:

- корреляционный анализ;

- регрессионный анализ;

- методы сравнения первичных статистик у двух или нескольких выборок.

Рассмотрим методы вычисления элементарных математических статистик, начав с выборочного среднего.

Среднее арифметическое значение – это отношение суммы всех значений данных к числу слагаемых.

Среднее значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества.

Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.

Дисперсия – это мера разброса данных относительно среднего значения³⁰.

Чем больше дисперсия, тем больше отклонения или разброс данных. Ее определяют для того, чтобы можно было отличать друг от друга величины, имеющие одинаковую среднюю, но разный разброс.

Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам.

Знание медианы полезно для того, чтобы установить, является ли распределение частных значений изученного признака симметричным и приближающимся к так называемому нормальному распределению. Средняя и медиана для нормального распределения обычно совпадают или очень мало отличаются друг от друга.

Если выборочное распределение признаков нормально, то к нему можно применять методы вторичных статистических расчетов, основанные на нормальном распределении данных. В противном случае этого делать нельзя, так как в расчеты могут вкрасться серьезные ошибки.

Мода еще одна элементарная математическая статистика и характеристика распределения опытных данных. Модой называют количественное значение исследуемого признака, наиболее часто встречающееся в выборке.

Для симметричных распределений признаков, в том числе для нормального распределения, значения моды совпадают со значениям среднего и медианы. Для других типов распределений, несимметричных, это не характерно.

Mетод оценки корреляции двух совокупностей,

Метод вторичной статистической обработки, посредством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит название метод корреляционного анализа. Он показывает, каким образом одно явление влияет на другое или связано с ним в своей динамике. Подобного рода зависимости существуют, к примеру, между величинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически достоверно коррелируют друг с другом и если при этом есть уверенность в том, что одно из них может выступать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости.

Имеется несколько разновидностей данного метода:

Линейный корреляционный анализ позволяет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название «линейный».

Корреляция - важный статистический инструмент. Этот метод в статистике может помочь нам определить и описать взаимосвязь между двумя переменными. Мы должны быть осторожны, чтобы правильно использовать и интерпретировать корреляцию. Одно из таких предупреждений - всегда помнить, что корреляция не подразумевает причинно-следственной связи. Существуют и другие аспекты корреляции, с которыми мы должны быть осторожны. При работе с корреляцией мы также должны быть осторожны с экологической корреляцией.

Экологическая корреляция - это корреляция, основанная на средних значениях. Хотя это может быть полезно, а иногда даже необходимо учитывать, мы должны быть осторожны и не предполагать, что этот тип корреляции применим и к отдельным людям.

Пример первый

Мы проиллюстрируем концепцию экологической корреляции и подчеркнем, что ею нельзя злоупотреблять, рассмотрев несколько примеров. Примером экологической корреляции между двумя переменными является количество лет образования и средний доход. Мы можем видеть, что эти две переменные имеют довольно сильную положительную корреляцию: чем выше количество лет образования, тем выше средний уровень дохода. Было бы ошибкой думать, что эта корреляция справедлива для индивидуальных доходов.

Когда мы рассматриваем людей с одинаковым уровнем образования, уровни доходов распределены. Если бы мы построили диаграмму рассеяния этих данных, мы бы увидели такой разброс точек. В результате корреляция между образованием и индивидуальными доходами была бы намного слабее, чем корреляция между годами обучения и средними доходами.

Пример второй

Другой пример экологической корреляции, который мы рассмотрим, касается структуры голосования и уровня доходов. На уровне штатов более богатые штаты, как правило, чаще голосуют за кандидатов от Демократической партии. Более бедные штаты чаще голосуют за кандидатов-республиканцев. Для отдельных людей эта корреляция меняется. Большая часть более бедных людей голосует за демократов, а большая часть богатых людей - за республиканцев.

Пример третий

Третий пример экологической корреляции - это когда мы смотрим на количество часов упражнений в неделю и средний индекс массы тела. Здесь количество часов упражнений является объясняющей переменной, а средний индекс массы тела - ответом. По мере увеличения физических нагрузок мы ожидали бы снижения индекса массы тела. Таким образом, мы наблюдали бы сильную отрицательную корреляцию между этими переменными. Однако, когда мы смотрим на индивидуальный уровень, корреляция не будет такой сильной.

Экологическая ошибочность

Экологическая корреляция связана с экологической ошибочностью и является одним из примеров такого рода ошибочности. Этот тип логической ошибки предполагает, что статистическое утверждение, относящееся к группе, также применимо к индивидам внутри этой группы. Это форма ошибки разделения, которая ошибочно принимает утверждения, касающиеся групп, за отдельных лиц.

Другой способ, которым экологические ошибки проявляются в статистике, - это парадокс Симпсона. Парадокс Симпсона относится к сравнению между двумя особями или популяциями. Мы будем различать эти два параметра с помощью A и B. Серия измерений может показать, что переменная всегда имеет более высокое значение для A, чем B. Но когда мы усредняем значения этой переменной, мы видим, что B больше, чем A.

Обзор парадокса

Предположим, мы наблюдаем за несколькими группами и устанавливаем взаимосвязь или корреляцию для каждой из этих групп. Парадокс Симпсона гласит, что когда мы объединяем все группы вместе и смотрим на данные в агрегированной форме, корреляция, которую мы заметили ранее, может измениться на противоположную. Чаще всего это происходит из-за скрытых переменных, которые не были учтены, но иногда это связано с числовыми значениями данных.

Пример

В определенной больнице работают два хирурга. Хирург А оперирует 100 пациентов, и 95 выживают. Хирург Б оперирует 80 пациентов, и 72 выживают. Мы рассматриваем возможность проведения операции в этой больнице, и важно пережить операцию. Мы хотим выбрать лучшего из двух хирургов.

Мы смотрим на данные и используем их, чтобы вычислить, какой процент пациентов хирурга А пережил свои операции, и сравнить это с показателем выживаемости пациентов хирурга Б.

95 пациентов из 100 выжили у хирурга А, таким образом, 95/100 = 95% из них выжили.
72 пациента из 80 выжили у хирурга Б, таким образом, 72/80 = 90% из них выжили.

Исходя из этого анализа, какого хирурга нам следует выбрать для нашего лечения? Казалось бы, хирург А - более безопасная ставка. Но так ли это на самом деле?

Что, если мы проведем дальнейшее исследование данных и обнаружим, что первоначально больница рассматривала два разных типа операций, но затем объединила все данные вместе, чтобы сообщить о каждом из своих хирургов. Не все операции одинаковы, некоторые считались экстренными операциями высокого риска, в то время как другие носили более рутинный характер и были запланированы заранее.

Из 100 пациентов, которых лечил хирург А., 50 относились к группе высокого риска, из которых трое умерли. Остальные 50 считались обычными, и из них 2 умерли. Это означает, что при обычной операции выживаемость пациента, которого лечит хирург А, составляет 48/50 = 96%.

Теперь мы более внимательно рассмотрим данные по хирургу Б и обнаружим, что из 80 пациентов 40 относились к группе высокого риска, из которых семеро умерли. Остальные 40 были обычными, и умер только один. Это означает, что выживаемость пациента составляет 39/40 = 97,5% при обычной операции у хирурга Б.

Теперь, какой хирург кажется вам лучше? Если ваша операция должна быть обычной, то хирург B на самом деле лучший хирург. Если мы посмотрим на все операции, выполненные хирургами, A лучше. Это довольно нелогично. В этом случае скрытая переменная типа операции влияет на объединенные данные хирургов.

Методы оценки разнообразия сообществ

Нумерическое видовое богатство или видовая плотность. Нумерическое видовое богатство — это количество видов на строго оговорённое число особей или на определённую биомассу. Видовая плотность — это количество видов в расчёте на определённую площадь.
Индексы видового разнообразия. Позволяют учесть не только число видов, но и количество особей данных видов в исследуемой выборке. Наиболее часто используемыми являются индексы Маргалефа и Менхиника.
Индексы неоднородности. Учитывают выравненность видов при оценке разнообразия. К ним относятся информационно-статистические индексы Шеннона и Бриллюэна, а также индексы доминирования (Симпсона, Берегера-Паркера, Пиелоу).
Индексы общности (коэффициенты сходства). В биоценологических, фаунистических и биогеографических работах часто используют индексы Жаккара и Серенсена-Чекановского.

Также для оценки разнообразия сообществ могут применяться специализированные прикладные программы, например, Species diversity and Richness, которые позволяют выполнить необходимые расчёты на основании имеющейся базы данных

Методы ширины экологических ниш.

Для изучения разнообразия природных ресурсов, используемых особью или видом, биологи анализируют обычно два экологических параметра: ширину экологической ниши и равномерность распределения по местообитаниям. Для оценки этих показателей чаще всего применяют индекс Симпсона (индекс «полидоминантности»).

Например, требуется оценить ширину экологической ниши вида, использующего те или иные кормовые объекты, или распределенного по ряду местообитаний. Имеются следующие исходные данные распределения: гипотетический вид использует 7 типов корма (встречается в 7 местообитаниях), каждый из которых использует с частотой - 0,40; 0,25; 0,10; 0,10; 0,08; -9- 0,05; 0,02 («доли» - это те же проценты, но не от 0 до 100, а от 0 до 1). Возводим каждое из этих значений в квадрат и суммируем: 0,16+0,0625+0,01+0,01+0,0064+0,0025+ +0,000625=0,2518. 1/0,2518=3,97. Вычисляемая таким образом ширина экологической ниши или местообитания является показателем относительным, т.е. предназначена только для сравнения нескольких видов между собой. В оригинальном виде данный индекс не учитывает общего разнообразия ресурса или местообитаний, который потенциально может использоваться видом. Т.е. в примере, рассмотренном выше, помимо тех 7 ресурсов (местообитаний) используемых видом, в данной экосистеме могут быть также ресурсы, не используемые, видом, но этот факт данной формулой не учитывается. Для «исправления» этого недостатка полученный при помощи индекса Симпсона показатель нормируют по числу всех потенциальных ресурсов (местообитаний): Sλ /N, где N - общее число всех ресурсов (местообитаний), которые может использовать (в которых может встречаться) исследуемый вид. Данный показатель также является относительным и лежит в пределах от нуля (бесконечно стремится к нулю в случае очень большого числа неиспользуемых ресурсов) до бесконечности.

Система показателей статистики природных ресурсов: задачи, показатели.

Формирования статистики охраны окружающей природной среды.

Основными задачами статистики природных ресурсов (ПР) являются:

1) разработка системы показателей и методов их исчисления;

2) определение способов получения информации, ее сбор, обработка и анализ, организация наблюдения;

3) контроль за соблюдением природоохранного законодательства, национальных и международных правил природопользования;

4) характеристика наличия, качества, состояния и размещения всех компонентов ПР;

5) определение объемов запасов природных ресурсов по степени их изученности и возможности вовлечения в экономический оборот;

6) характеристика рациональности использования природных ресурсов, оценка влияния человеческой деятельности на состояние ПР;

7) оценка влияния ПР на деятельность человека и условия его жизни;

8) характеристика образования, утилизации, захоронения производственных и бытовых отходов и связанного с этим ущерба;

9) характеристика размещения природных ресурсов и определение природно—ресурсного потенциала страны и регионов;

10) исследование динамики объема вовлекаемых в экономический оборот ресурсов при их разработке, добыче и использовании;

11) характеристика формирования природных фондов, их источников и направлений использования;

12) оценка эффективности природоохранных мероприятий и их результатов;

13) определение авансированных и текущих затрат экологического назначения и их эффективности;

14) анализ динамики процессов, происходящих в природной среде, выявление основных тенденций, факторов и степени их влияния;

15) анализ реализации национальных и международных программ сохранения, воспроизводства, восстановления и рационального использования природных ресурсов как части национального богатства.

В статистике природных ресурсов применяются следующие показатели:

ü показатели наличия, использования, загрязнения и охраны всех компонентов и ресурсов (водных, лесных, земельных, атмосферного воздуха, заповедников и других охраняемых территорий, растительного и животного мира);
ü состояния природно-ресурсного потенциала и всех его составляющих (воздушного бассейна, водных, лесных, минеральных ресурсов, флоры и фауны и др.);
ü качества компонентов природной окружающей среды и ее изменения;
ü степени воздействия на состояние природных ресурсов различных видов деятельности;
ü эффективности мероприятий, проводимых для нейтрализации отрицательного антропогенного воздействия на среду обитания;
ü образования, улавливания, утилизации, уничтожения и захоронения промышленных и бытовых отходов;
ü эффективности авансированных и текущих затрат, связанных с охраной природных ресурсов и рационализацией природопользования.

Период с 1992 г. по настоящее время характеризуется значительной стагнацией статистики ОПС (т.е. статистического изучения природных ресурсов, природопользования, состояния, загрязнения (деградации) и охраны окружающей природной среды) по сравнению с предшествующими периодами, отсутствием крупных новаций, а также нарастанием системных проблем. Используется в основном опыт, накопленный ранее, и то не в полной мере. Статистика в 90-х гг. XX в. и в начале XXI в. все более теряла централизованный характер, в широких масштабах распылялась по различным министерствам и ведомствам. При этом существенно сузилась информационная база.

Охват соответствующих объектов статистическими наблюдениями и получение минимума отчетной информации в 90-х гг. XX в. и начале XXI в. были весьма затруднены, поскольку предприятия и организации зачастую отказывались отчитываться. В целях восстановления информационных потоков пришлось принимать специальные правительственные постановления.

Поиск по этому блогу

"СИСТЕМНЫЙ АНАЛИЗ И МОДЕЛИРОВАНИЕ В ЭКОЛОГИИ" ДЛЯ 3 КУРСА ИЭУР