[Python, Data Mining, Открытые данные] Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 3

Автор Сообщение
news_bot ®

Стаж: 6 лет 3 месяца
Сообщений: 27286

Создавать темы news_bot ® написал(а)
10-Сен-2020 06:31

Продолжаем наше исследование, посвященное ситуации в США со стрельбой полицейских и уровнем преступности среди представителей белой и черной (афроамериканской) рас. Напомню, что в первой части я рассказал о предпосылках исследования, его целях и принятых оговорках / допущениях; а во второй части была демонстрация анализа взаимосвязи между расовой принадлежностью, преступностью и гибелью от рук служб правопорядка.Напомню также и промежуточные выводы, сделанные на основе статистических наблюдений (за период с 2000 по 2018 год):
  • В количественном (абсолютном) выражении белых жертв полиции больше, чем черных.
  • В среднем от рук полиции погибает 5.9 на 1 млн. черных и 2.3 на 1 млн. белых (черных в 2.6 раз больше).
  • Годовой разброс (отклонение) по гибели чернокожих от рук полиции почти в два раза выше, чем в данных по белым жертвам.
  • Жертвы полиции среди белых монотонно растут (в среднем на 0.1 - 0.2 в год), в то время как жертвы среди черных вернулись на уровень 2009 г. после пика в 2011 - 2013 гг.
  • Белые совершают в два раза больше преступлений, чем черные, в абсолютном выражении, но в 3 раза меньше в относительном выражении (на миллион представителей своей расы).
  • Преступность среди белых относительно монотонно растет на протяжении всего периода (выросла в 2 раза за 18 лет). Преступность среди черных также растет, но скачкообразно. За весь период преступность среди черных выросла также в 2 раза (аналогично белым).
  • Гибель от рук полиции связана с криминальностью (количеством совершаемых преступлений). При этом эта корреляция неоднородна по расам: для белых она близка к идеальной, для черных далека от таковой.
  • Смертельные случаи при встречах с полицией растут "в ответ" на рост преступности, с лагом в несколько лет (особенно видно по данным среди черных).
  • Белые преступники немного чаще встречают смерть от рук полиции, чем черные.
Сегодня, как я обещал, посмотрим на географическое распределение этих данных по отдельным штатам США, что должно либо подтвердить, либо опровергнуть выводы, сделанные в масштабах всей страны. Однако, прежде чем мы займемся этой географией, давайте сделаем шаг назад и посмотрим, что будет, если вместо категории "все преступления" (All Offenses) в качестве исходных данных по преступности взять только самые "злодейские". Многие из моих читателей указали в комментариях, что это будет правильнее, так как "все преступления" включают, например, мелкое воровство или торговлю наркотиками, что (по логике) не должно быть связано с агрессивным поведением, провоцирующим полицейских на стрельбу. Хотя я лично не могу целиком с этим согласиться и считаю, что любое совершенное преступление может повлечь за собой повышенное внимание со стороны полиции (которое, в свою очередь, может кончиться не лучшим образом)... все же, давайте проявим любопытство и посмотрим!Нападения и убийства вместо "всех преступлений"Итак, в том месте, где мы формируем датасет по преступлениям, вместо строки
df_crimes1 = df_crimes1.loc[df_crimes1['Offense'] == 'All Offenses']
пишем:
df_crimes1 = df_crimes1.loc[df_crimes1['Offense'].str.contains('Assault|Murder')]
Таким образом, наш новый фильтр включает виды преступлений, связанных с нападением (Assault) и убийством (Murder). Замечу сразу, что этот набор данных не включает непредумышленное убийство и убийство в рамках самозащиты, а только умышленное убийство. Весь остальной код оставляем без изменений. Вот что дает перерасчет данных.Удельное количество преступлений на миллион представителей расы:
Видим, что порядок меньше, но графики почти идентичны предыдущим (по всем преступлениям).Связь между преступностью и жертвами полиции:
Корреляционная матрица:White_promln_crWhite_promln_uofBlack_promln_crBlack_promln_uofWhite_promln_cr1.0000000.6847570.9866220.729674White_promln_uof0.6847571.0000000.6141320.795486Black_promln_cr0.9866220.6141321.0000000.680893Black_promln_uof0.7296740.7954860.6808931.000000Как видим, согласованность в этом случае хуже (0.68 против 0.88 и 0.72 по данным всех преступлений). Но радует здесь, по крайней мере, что коэффициенты корреляции почти не различаются между белыми и черными, т.е. можно сказать, что между преступлениями и жертвами полиции есть некая постоянная корреляция.Ну, и наш "самодельный" индекс - отношение количества жертв полиции к количеству преступлений:
Здесь разница между расами выглядит еще более заметной, чем в прошлый раз. Вывод тот же - белые преступники чаще гибнут от рук полиции, чем черные.Таким образом, все сделанные выводы остаются в силе. Что ж, теперь - уроки географии! :)Исходные данныеДля анализа преступности по штатам я использовал другие исходные датасеты из базы данных ФБР, а именно: К сожалению, получить качественные данные по совершенным преступлениям, штатам и расовому признаку не удалось, как я ни бился: возвращаемые результаты далеко не полные, в частности, отсутствует информация по некоторым штатам. Но и этих данных вполне достаточно для нашего скромного анализа.Первый набор содержит данные о количестве преступлений по всем 51 штату с 1991 по 2018 год, по следующим видам преступлений:
  • violent crime: все насильственные преступления (убийство, грабеж, изнасилование и нападение с отягчающими обстоятельствами), см. определение на сайте ФБР;
  • homicide: убийство
  • rape legacy: изнасилование (по старым меркам - до 2013 г.)
  • rape revised: изнасилование (по новым меркам - начиная с 2013 г.)
  • robbery: грабеж
  • aggravated assault: нападение с отягчающими обстоятельствами
  • property crime: преступления против собственности
  • burglary: взлом / проникновение в собственность
  • larceny: хищение
  • motor vehicle theft: угон автотранспорта
  • arson: поджог
Для целей настоящего исследования мы будем использовать количество насильственных преступлений (violent crime), что согласуется с вышеизложенной логикой.Второй набор содержит данные по количествам преступлений по 51 штату с 2000 по 2018 год, с разбивкой по расам (выделяемые расовые категории - см. в предыдущей статье). Поскольку БД по арестам имеет несколько другую разбивку по типам преступлений и не имеет готового набора по насильственным преступлениям, исходный запрос и результаты содержат 4 вида соответствующих правонарушений (убийство, грабеж, изнасилование и нападение с отягчающими обстоятельствами).География преступности без расовой принадлежностиДля начала посмотрим на количество совершаемых преступлений насильственного характера по штатам без расовой принадлежности преступников:
import pandas as pd, numpy as np
CRIME_STATES_FILE = ROOT_FOLDER + '\\crimes_by_state.csv'
df_crime_states = pd.read_csv(CRIME_STATES_FILE, sep=';', header=0,
                              usecols=['year', 'state_abbr', 'population', 'violent_crime'])
Загруженные данные:yearstate_abbrpopulationviolent_crime02016AL48605452587811996AL42730002415921997AL43190002437931998AL43520002228641999AL436986221421...............14232000DC572059862614242001DC573822919514252002DC569157932214262003DC557620906114272016DC68433682361428 rows × 4 columnsДобавим полные названия штатов (CSV перечня штатов здесь- уже использовали в прошлый раз). Также почистим и отсортируем данные:
df_crime_states = df_crime_states.merge(df_state_names, on='state_abbr')
df_crime_states.dropna(inplace=True)
df_crime_states.sort_values(by=['year', 'state_abbr'], inplace=True)
Поскольку в датасете есть данные о численности населения, вычислим удельные значения преступности на миллион человек:
df_crime_states['crime_promln'] = df_crime_states['violent_crime'] * 1e6 / df_crime_states['population']
Наконец, отобразим данные в виде двумерного массива за период с 2000 по 2018 год, переместив названия штатов в столбцы и убрав лишние столбцы:
df_crime_states_agg = df_crime_states.groupby(['state_name', 'year'])['violent_crime'].sum().unstack(level=1).T
df_crime_states_agg.fillna(0, inplace=True)
df_crime_states_agg = df_crime_states_agg.astype('uint32').loc[2000:2018, :]
Получили таблицу с 19 строками (по количеству наблюдений, т.е. лет с 2000 по 2018) и 51 столбцом (по количеству штатов).Давайте отобразим топ-10 штатов по среднегодовому количеству преступлений:
df_crime_states_top10 = df_crime_states_agg.describe().T.nlargest(10, 'mean').astype('int32')
countmeanstdmin25%50%75%maxstate_nameCalifornia1918151419425153763165508178597193022212867Texas191176146522104734113212121091122084126018Florida19110104185428198092809113541127488131878New York1981618954868495755497756385376105111Illinois1962866104454777554039641856993781196Michigan194927350294171244900497375403556981Pennsylvania194694150663919241607481885102155028Tennessee194195124323806340321415624335846482Georgia194022833273435538283394354149547353North Carolina193793631933271834706382434025843125Давайте также посмотрим на графике для наглядности:
df_crime_states_top10 = df_crime_states_agg.loc[:, df_crime_states_agg_top10.index]
plt = df_crime_states_top10.plot.box(figsize=(12, 10))
plt.set_ylabel('Кол-во насильственных преступлений (2000 - 2018)')

"Голливудский" штат намного опережает по этой печальной статистике все остальные. Тройка лидеров - южные штаты (Калифорния, Техас и Флорида); именно про эти штаты снято большинство американских фильмов про бандитов :)Также видно, что в некоторых штатах уровень преступности существенно изменился за наблюдаемый период (Калифорния, Флорида, Иллинойс), в то время как в других он остался почти на том же уровне (например, в Джорджии).Подозреваю, что преступность непосредственно связана с численностью населения. Давайте посмотрим на топ-10 штатов по населению в 2018 году:
df_crime_states_2018 = df_crime_states.loc[df_crime_states['year'] == 2018]
plt = df_crime_states_2018.nlargest(10, 'population').sort_values(by='population').plot.barh(x='state_name', y='population', legend=False, figsize=(10,5))
plt.set_xlabel('Население (2018)')
plt.set_ylabel('')

Как говорится, те же фаберже, только в профиль. Удостоверимся в корреляции между преступностью и населением:
# группируем данные по штатам за 2000 - 2018 гг (среднее арифметическое по полям)
df_corr = df_crime_states[df_crime_states['year']>=2000].groupby(['state_name']).mean()
# смотрим корреляцию между столбцами "население" и "кол-во преступлений"
df_corr = df_corr.loc[:, ['population', 'violent_crime']]
df_corr.corr(method='pearson').at['population', 'violent_crime']
- получаем коэффициент корреляции 0.98. Что и требовалось доказать!А вот удельные показатели преступности дают совсем другой топ-лист:
plt = df_crime_states_2018.nlargest(10, 'crime_promln').sort_values(by='crime_promln').plot.barh(x='state_name', y='crime_promln', legend=False, figsize=(10,5))
plt.set_xlabel('Кол-во насильственных преступлений на 1 млн. чел. (2018)')
plt.set_ylabel('')

Вот так дела! По удельным значениям впереди штаты с небольшой численностью населения: Округ Колумбия (т.е. столица США) и Аляска (в обоих по 700+ тыс. человек на 2018 г.) и один штат со средней численностью (Нью-Мексико с 2 млн. чел.) Из нашего предыдущего топа здесь засветился только Теннесси, что придает этому штату, мягко говоря, не очень хорошую репутацию...Отобразим наши наблюдения на карте США. Для этого необходимо импортировать библиотеку folium:
import folium
Сначала - преступления за 2018 г. в абсолютных значениях:
FOLIUM_URL = 'https://raw.githubusercontent.com/python-visualization/folium/master/examples/data'
FOLIUM_US_MAP = f'{FOLIUM_URL}/us-states.json'
m = folium.Map(location=[48, -102], zoom_start=3)
folium.Choropleth(
    geo_data=FOLIUM_US_MAP,
    name='choropleth',
    data=df_crime_states_2018,
    columns=['state_abbr', 'violent_crime'],
    key_on='feature.id',
    fill_color='YlOrRd',
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name='Насильственные преступления за 2018 г.',
    bins=df_crime_states_2018['violent_crime'].quantile(list(np.linspace(0.0, 1.0, 5))).to_list(),
    reset=True
).add_to(m)
folium.LayerControl().add_to(m)
m

Теперь то же в удельных значениях (на 1 млн человек):
m = folium.Map(location=[48, -102], zoom_start=3)
folium.Choropleth(
    geo_data=FOLIUM_US_MAP,
    name='choropleth',
    data=df_crime_states_2018,
    columns=['state_abbr', 'crime_promln'],
    key_on='feature.id',
    fill_color='YlOrRd',
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name='Насильственные преступления за 2018 г. (на 1 млн. населения)',
    bins=df_crime_states_2018['crime_promln'].quantile(list(np.linspace(0.0, 1.0, 5))).to_list(),
    reset=True
).add_to(m)
folium.LayerControl().add_to(m)
m

Видим, что в первом случае примерно поровну северных и южных штатов, а во втором случае - одни южные штаты плюс столица США и Аляска. Жертвы полиции по штатам (без расовой принадлежности)Давайте сейчас поглядим, что происходит в конкретных штатах в отношении полицейской стрельбы на уничтожение. Подготовим данные: добавим в наш существующий датасет по гибели от рук закона (см. предыдущую часть) полные наименования штатов, сгруппируем количество случаев по штатам, выделим период с 2000 по 2018 год и отобразим удобным образом.
df_fenc_agg_states = df_fenc.merge(df_state_names, how='inner', left_on='State', right_on='state_abbr')
df_fenc_agg_states.fillna(0, inplace=True)
df_fenc_agg_states = df_fenc_agg_states.rename(columns={'state_name_x': 'State Name'})
df_fenc_agg_states = df_fenc_agg_states.loc[:, ['Year', 'Race', 'State', 'State Name', 'Cause', 'UOF']]
df_fenc_agg_states = df_fenc_agg_states.groupby(['Year', 'State Name', 'State'])['UOF'].count().unstack(level=0)
df_fenc_agg_states.fillna(0, inplace=True)
df_fenc_agg_states = df_fenc_agg_states.astype('uint16').loc[:, :2018]
df_fenc_agg_states = df_fenc_agg_states.reset_index()
Отобразим топ-10 штатов за 2018 год:
df_fenc_agg_states_2018 = df_fenc_agg_states.loc[:, ['State Name', 2018]]
plt = df_fenc_agg_states_2018.nlargest(10, 2018).sort_values(2018).plot.barh(x='State Name', y=2018, legend=False, figsize=(10,5))
plt.set_xlabel('Кол-во жертв от рук полиции за 2018 г.')
plt.set_ylabel('')

Также посмотрим на данные за весь период в виде "ящиков с усами":
fenc_top10 = df_fenc_agg_states.loc[df_fenc_agg_states['State Name'].isin(df_fenc_agg_states_2018.nlargest(10, 2018)['State Name'])]
fenc_top10 = fenc_top10.T
fenc_top10.columns = fenc_top10.loc['State Name', :]
fenc_top10 = fenc_top10.reset_index().loc[2:, :].set_index('Year')
df_sorted = fenc_top10.mean().sort_values(ascending=False)
fenc_top10 = fenc_top10.loc[:, df_sorted.index]
plt = fenc_top10.plot.box(figsize=(12, 6))
plt.set_ylabel('Кол-во жертв от рук полиции (2000 - 2018)')

Ну что же, та же "великолепная троица": Калифорния, Техас и Флорида плюс еще два южных штата - Аризона и Джорджия. Лидеры обнаруживают, как и прежде, больший разброс по годам, демонстрируя изменения. Связь между жертвами полиции и криминаломКак и в предыдущей статье, будем исследовать связь между гибелью от рук полиции и криминальностью. Начнем пока без выделения расового признака, чтобы посмотреть есть ли связь в целом и как она распределяется по штатам.Для начала необходимо объединить данные по преступлениям (насильственного характера) с данными по жертвам полиции, попутно указав диапазон с 2000 по 2018 год (этот же период анализировался в предыдущей части исследования).
# добавляем в исходный датасет полные названия штатов
df_fenc_crime_states = df_fenc.merge(df_state_names, how='inner', left_on='State', right_on='state_abbr')
# переименовываем столбцы
df_fenc_crime_states = df_fenc_crime_states.rename(columns={'Year': 'year', 'state_name_x': 'state_name'})
# обрезаем период до 2000-2018
df_fenc_crime_states = df_fenc_crime_states[df_fenc_crime_states['year'].between(2000, 2018)]
# агрегируем количество смертей по годам и штатам
df_fenc_crime_states = df_fenc_crime_states.groupby(['year', 'state_name'])['UOF'].count().reset_index()
# добавляем данные по преступлениям
df_fenc_crime_states = df_fenc_crime_states.merge(df_crime_states[df_crime_states['year'].between(2000, 2018)], how='outer', on=['year', 'state_name'])
# заполняем пробелы нулями
df_fenc_crime_states.fillna({'UOF': 0}, inplace=True)
# приводим типы данных
df_fenc_crime_states = df_fenc_crime_states.astype({'year': 'uint16', 'UOF': 'uint16', 'population': 'uint32', 'violent_crime': 'uint32'})
# сортируем
df_fenc_crime_states = df_fenc_crime_states.sort_values(by=['year', 'state_name'])
На выходе:yearstate_nameUOFstate_abbrpopulationviolent_crimecrime_promln02000Alabama7AL4447100216204861.59519712000Alaska2AK62693235545668.87636922000Arizona11AZ5130632272815317.27865132000Arkansas4AR2673400119044452.75678942000California97CA338716482105316215.552311........................9072018Virginia18VA8517685170321999.6043539082018Washington24WA7535591234723114.8187329092018West Virginia7WV180583252362899.4945279102018Wisconsin10WI5813568171762954.4678939112018Wyoming4WY57773712262122.072846Напомню, что столбец UOF (от "Use Of Force" - применение силы) содержит количество смертей от рук служб правопорядка (которых я иногда кратко называю "полицией", хотя здесь есть и другие службы, например ФБР) в результате намеренного применения силы.Сразу создадим и датафрейм со среднегодовыми данными:
df_fenc_crime_states_agg = df_fenc_crime_states.groupby(['state_name']).mean().loc[:, ['UOF', 'violent_crime']]
Отобразим графики преступлений и жертв полиции (среднегодовые значения для всех штатов):
plt = df_fenc_crime_states_agg['violent_crime'].plot.bar(legend=True, figsize=(15,5))
plt.set_ylabel('Среднегодовое кол-во насильственных преступлений')
plt2 = df_fenc_crime_states_agg['UOF'].plot(secondary_y=True, style='g', legend=True)
plt2.set_ylabel('Среднегодовое кол-во жертв от рук полиции', rotation=90)
plt2.set_xlabel('')
plt.set_xlabel('')
plt.set_xticklabels(df_fenc_crime_states_agg.index, rotation='vertical')
plt

Если внимательно посмотреть на эту совмещенную диаграмму, можно сделать пару наблюдений:
  • связь между преступностью и гибелью от полиции хорошо прослеживается "невооруженным глазом": зеленая кривая в большинстве случаев "повторяет" столбики преступности;
  • в штатах с высоким уровнем преступности (Флорида, Иллинойс, Мичиган, Нью-Йорк, Техас) количество жертв полиции несколько ниже (в пропорциональном отношении) по сравнению со штатами с более низким уровнем преступности.
Посмотрим на диаграмму рассеяния:
plt = df_fenc_crime_states_agg.plot.scatter(x='violent_crime', y='UOF')
plt.set_xlabel('Среднегодовое кол-во насильственных преступлений')
plt.set_ylabel('Среднегодовое кол-во жертв от рук полиции')

Здесь становится хорошо заметно, что соотношение между жертвами полиции и преступностью зависит от уровня преступности. Условно говоря, для штатов со среднегодовым количеством преступлений до 75 тыс. количество жертв полиции растет полее полого, чем для штатов со среднегодовым количеством преступлений свыше 75 тыс. Таких "преступных" штатов здесь, как мы видим, всего четыре. Давайте посмотрим им "в лицо":
df_fenc_crime_states_agg[df_fenc_crime_states_agg['violent_crime'] > 75000]
UOFviolent_crimestate_nameCalifornia133.263158181514.578947Florida54.578947110104.315789New York19.15789581618.052632Texas64.368421117614.631579Ну конечно же, это уже знакомая нам четверка "всадников Апокалипсиса": Калифорния, Флорида, Техас и Нью-Йорк.Давайте посмотрим на корреляцию между нашими данными по 3 кейсам:
  • Штаты со среднегодовым количеством преступлений до 75 тыс.
  • Штаты со среднегодовым количеством преступлений свыше 75 тыс. (наша "четверка")
  • Все штаты
Для первого кейса:
df_fenc_crime_states_agg[df_fenc_crime_states_agg['violent_crime'] <= 75000].corr(method='pearson').at['UOF', 'violent_crime']
получаем коэффициент 0.839. Это значимая величина, но до 0.9 не доходит, так как здесь налицо значительный разброс по 47 штатам.Для второго кейса:
df_fenc_crime_states_agg[df_fenc_crime_states_agg['violent_crime'] > 75000].corr(method='pearson').at['UOF', 'violent_crime']
получаем уже 0.999 - идеальную корреляцию! Для третьего кейса (все штаты):
df_fenc_crime_states_agg.corr(method='pearson').at['UOF', 'violent_crime']
получаем нечто среднее между двумя предыдущими: 0.935. Но этот общий коэффициент указывает на весьма значительно корреляцию.А теперь посмотрим, как распределен по штатам наш "индекс стрельбы в преступников" (это, конечно, условное название). Разделим, как и раньше, количество жертв полиции на количество преступлений:
df_fenc_crime_states_agg['uof_by_crime'] = df_fenc_crime_states_agg['UOF'] / df_fenc_crime_states_agg['violent_crime']
plt = df_fenc_crime_states_agg.loc[:, 'uof_by_crime'].sort_values(ascending=False).plot.bar(figsize=(15,5))
plt.set_xlabel('')
plt.set_ylabel('Отношение кол-ва жертв полиции к кол-ву преступлений')

Здесь интересно заметить, что наши лидеры по преступности ушли в середину и даже ближе концу, показывая тем самым, что в самых преступных штатах не самые "кровавые" полицейские (по отношению к потенциальным или реальным преступникам). Промежуточные выводы:
1. Количество насильственных преступлений прямо зависит от количества населения (спасибо, кэп!)2. В абсолютном выражении лидеры по преступности - самые населенные штаты: Калифорния, Флорида, Техас и Нью-Йорк.2. В удельном отношении (на миллион населения) преступности больше в южных штатах, чем в северных, где заметны только два низко населенных штата - Аляска и Округ Колумбия (г. Вашингтон).3. Между преступностью и гибелью от рук полиции подтверждается заметная корреляция, составляющая в среднем 0.93 по всем штатам. При этом для лидеров по преступности эта корреляция достигает почти единицы (т.е. линейная пропорция), в то время как для остальных штатов - 0.84.
Влияние расы на преступность и гибель от полиции по штатамУбедившись, что преступность в целом влияет на гибель от рук полиции, давайте добавим теперь расовый фактор и посмотрим, на что он влияет. Как я уже объяснил выше, для этой цели будем использовать данные по арестам, поскольку они являются наиболее полными из доступных, покрывая основные виды преступлений и все штаты США. Естественно, ни в одном штате и ни в одной стране нельзя приравнять количество арестов к количеству преступлений, но эти показатели, тем не менее, тесно взаимосвязаны. Поэтому для статистических изысканий аресты нам годятся. И мы уже договорились, что будем рассматривать аресты только за насильственные преступления (убийство, грабеж, изнасилование и нападение с отягчающими обстоятельствами), в соответствии с принятой концепцией анализа.Загружаем данные из CSV и привычно добавляем названия штатов:
ARRESTS_FILE = ROOT_FOLDER + '\\arrests_by_state_race.csv'
# берем только аресты белых и черных
df_arrests = pd.read_csv(ARRESTS_FILE, sep=';', header=0, usecols=['data_year', 'state', 'white', 'black'])
# суммируем аресты за 4 вида преступлений по годам и штатам
df_arrests = df_arrests.groupby(['data_year', 'state']).sum().reset_index()
# добавляем наименования штатов
df_arrests = df_arrests.merge(df_state_names, left_on='state', right_on='state_abbr')
# переименовываем и удаляем столбцы
df_arrests = df_arrests.rename(columns={'data_year': 'year'}).drop(columns='state_abbr')
# поглядим, что получилось
df_arrests.head()
yearstateblackwhitestate_name02000AK140613Alaska12001AK139718Alaska22002AK143677Alaska32003AK173801Alaska42004AK163765AlaskaСразу создадим данные со среднегодовыми показателями:
df_arrests_agg = df_arrests.groupby(['state_name']).mean().drop(columns='year')
Аресты белых и черных по 51 штату (среднегодовые значения)blackwhitestate_nameAlabama2805.8421051757.315789Alaska221.894737844.157895Arizona1378.3684217007.157895Arkansas2387.8947372303.789474California26668.36842187252.315789Colorado1268.2105265157.368421Connecticut2097.6315792981.210526Delaware1356.8947371048.578947District of Columbia111.1111114.944444Florida12.0000007.000000Georgia8262.8421053502.894737Hawaii81.052632368.736842Idaho44.0000001362.263158Illinois5699.8421051841.894737Indiana3553.3684215192.263158Iowa1104.4210533039.473684Kansas522.3157891501.315789Kentucky1476.8947371906.052632Louisiana5928.7894743414.263158Maine63.736842699.526316Maryland7189.1052634010.684211Massachusetts3407.1578957319.684211Michigan7628.1578956304.157895Minnesota2231.2105262645.736842Mississippi1462.210526474.368421Missouri5777.4736845703.368421Montana27.684211673.684211Nebraska591.4210531058.526316Nevada1956.4210533817.210526New Hampshire68.368421640.789474New Jersey6424.1578956043.789474New Mexico234.4210532809.368421New York8394.5263168734.947368North Carolina10527.9473687412.947368North Dakota61.263158277.052632Ohio4063.9473684071.368421Oklahoma1625.1052633353.000000Oregon445.1052633373.368421Pennsylvania11974.15789511039.473684Rhode Island275.684211699.210526South Carolina5578.5263163615.421053South Dakota67.105263349.368421Tennessee6799.8947378462.526316Texas10547.63157922062.684211Utah167.1052631748.894737Vermont43.526316439.210526Virginia4100.4210533060.263158Washington1688.9473686012.105263West Virginia271.2631581528.315789Wisconsin3440.0555564107.722222Wyoming27.263158506.947368При рассмотрении этих данных нельзя не заметить некоторые странности. В одних штатах аресты исчисляются тысячами и сотнями, в других - десятками и единицами. Так, например, по Флориде - одному из самых густо населенных штатов - отображается только 19 арестов в год (12 черных и 7 белых). Здесь явно не хватает каких-то точек наблюдений; проверим это:
df_arrests[df_arrests['state'] == 'FL']
И видим, что, действительно, по Флориде доступны данные только за 2017 год. Что ж, придется использовать то, что имеем... По остальным штатам все данные есть. Но разница на 1-2 порядка может также объясняться различной населенностью. Давайте подгрузим данные по населению (для обеих рас) и посмотрим.Данные по численности я взял с сайта Бюро переписи населения США. В России сайт почему-то не работает, но вы же знаете, как заставить его заработать ;) Здесьподготовленный CSV с данными переписи с 2010 по 2019 г. К сожалению, сведений по населению по штатам за более ранние периоды (с 2000 по 2009 г.) нет. Таким образом, для этой части исследования придется сузить диапазон наблюдений до 9 лет (с 2010 по 2018 г.).
POP_STATES_FILES = ROOT_FOLDER + '\\us_pop_states_race_2010-2019.csv'
df_pop_states = pd.read_csv(POP_STATES_FILES, sep=';', header=0)
# данные имеют специфический формат, придется поколдовать ))
df_pop_states = df_pop_states.melt('state_name', var_name='r_year', value_name='pop')
df_pop_states['race'] = df_pop_states['r_year'].str[0]
df_pop_states['year'] = df_pop_states['r_year'].str[2:].astype('uint16')
df_pop_states.drop(columns='r_year', inplace=True)
df_pop_states = df_pop_states[df_pop_states['year'].between(2000, 2018)]
df_pop_states = df_pop_states.groupby(['state_name', 'year', 'race']).sum().unstack().reset_index()
df_pop_states.columns = ['state_name', 'year', 'black_pop', 'white_pop']
Данные по численности белых и черных по штатамstate_nameyearblack_popwhite_pop0Alabama20105044936134622361Alabama20115067912134770082Alabama20125102512134842563Alabama20135137360134888124Alabama2014516231613493432...............454Wyoming2014313922167008455Wyoming2015295682177740456Wyoming2016293042170700457Wyoming2017294442148128458Wyoming2018296042139896Добавляем этот датасет к арестам и вычисляем удельные показатели по арестам на 1 млн представителей каждой расы:
df_arrests_2010_2018 = df_arrests.merge(df_pop_states, how='inner', on=['year', 'state_name'])
df_arrests_2010_2018['white_arrests_promln'] = df_arrests_2010_2018['white'] * 1e6 / df_arrests_2010_2018['white_pop']
df_arrests_2010_2018['black_arrests_promln'] = df_arrests_2010_2018['black'] * 1e6 / df_arrests_2010_2018['black_pop']
И так же создаем датасет со среднегодовыми показателями:
df_arrests_2010_2018_agg = df_arrests_2010_2018.groupby(['state_name', 'state']).mean().drop(columns='year').reset_index()
df_arrests_2010_2018_agg = df_arrests_2010_2018_agg.set_index('state_name')
Объединенный датасет по арестам и численности (среднегодовые значения)stateblackwhiteblack_popwhite_popwhite_arrests_promlnblack_arrests_promlnstate_nameAlabamaAL1682.0000001342.0000005.152399e+061.349158e+0799.424741324.055203AlaskaAK255.000000870.5555561.069489e+051.957445e+06445.1997042390.243876ArizonaAZ1635.5555566852.0000001.279172e+062.260403e+07302.9230021267.000192ArkansasAR1960.6666672466.0000001.855574e+069.465137e+06260.4599171055.854934CaliforniaCA24381.66666779477.0000001.007921e+071.128020e+08704.7314082419.234376ColoradoCO1377.2222225171.5555569.508173e+051.882940e+07274.2094561439.257054ConnecticutCT1823.7777782295.3333331.643690e+061.165681e+07196.7127751114.811569DelawareDE1318.000000914.1111118.354622e+052.635794e+06347.3749801582.395733District of ColumbiaDC139.2222224.7777781.288488e+061.154416e+064.112547108.101938FloridaFL12.0000007.0000001.415383e+076.498292e+070.1077210.847827GeorgiaGA8137.2222224271.4444441.279378e+072.500293e+07170.939250639.869143HawaiiHI81.333333383.7777781.124298e+051.453712e+06264.353469725.477589IdahoID51.8888891373.7777785.288222e+046.154316e+06223.151878978.205026IllinoisIL4216.0000001284.2222227.554687e+063.980927e+0732.199075557.493894IndianaIN2924.4444445186.1111112.522917e+062.267508e+07228.6995151155.168768IowaIA1181.0000002999.2222224.305640e+051.141794e+07262.6667532760.038539KansasKS539.5555561512.1111117.116182e+051.006714e+07150.232160758.851182KentuckyKY1443.8888892173.6666671.442174e+061.558094e+07139.5269701001.433470LouisianaLA5917.0000003255.3333336.021228e+061.174245e+07277.277874981.334817MaineME78.000000678.0000007.667733e+045.059062e+06134.0240321019.061684MarylandMD6460.4444443325.4444447.229037e+061.426036e+07233.317775893.942720MassachusettsMA3349.5555566895.1111112.249232e+062.226671e+07309.7459101505.096888MichiganMI6302.4444445647.4444445.645176e+063.170670e+07178.1116841116.364030MinnesotaMN2570.0000002686.7777781.311818e+061.867259e+07143.9028821986.464052MississippiMS1251.000000418.7777784.478208e+067.122651e+0658.753686279.574565MissouriMO4588.3333335146.1111112.854060e+062.023871e+07254.2923231608.303611MontanaMT34.222222788.3333332.210444e+043.660813e+06214.9449021525.795754NebraskaNE618.8888891154.8888893.701520e+056.709768e+06172.2699721687.725359NevadaNV2450.0000004480.3333331.052192e+068.647157e+06517.4015642316.374085New HampshireNH89.777778784.7777787.873600e+045.012056e+06156.5808881141.127571New JerseyNJ5429.5555564971.8888895.241910e+062.595141e+07191.4279551037.217679New MexicoNM260.1111113136.0000002.053876e+056.905377e+06454.1291351268.115549New YorkNY6035.7777786600.2222221.373077e+075.534157e+07119.253616439.581451North CarolinaNC9549.0000006759.3333338.804027e+062.844145e+07238.3200771088.968561North DakotaND100.666667386.2222226.583289e+042.583206e+06149.1904551536.987272OhioOH3632.8888893733.3333335.879375e+063.844592e+0797.107129617.699379OklahomaOK1577.3333333049.0000001.189604e+061.160567e+07262.9045931326.463864OregonOR375.4444443125.0000003.292284e+051.402225e+07222.8196151148.158169PennsylvaniaPA11227.00000010652.1111115.945100e+064.232445e+07251.5988381893.415475Rhode IslandRI274.888889595.0000003.275551e+053.592825e+06165.605635837.932682South CarolinaSC4703.2222223094.1111115.365012e+061.324712e+07234.287821877.892998South DakotaSD103.777778448.3333336.154533e+042.903489e+06153.9951841641.137012TennesseeTN7603.0000009068.6666674.460808e+062.070126e+07438.4868121708.022356TexasTX10821.66666721122.1111111.345661e+078.628389e+07245.051258803.917061UtahUT193.2222221797.3333331.558876e+051.079659e+07166.4312661240.117890VermontVT54.222222520.5555563.017111e+042.376143e+06219.1299181785.111547VirginiaVA4059.5555563071.2222226.544598e+062.340732e+07131.178648620.504151WashingtonWA1791.7777785870.4444441.147000e+062.289368e+07256.6322411566.862244West VirginiaWV294.1111111648.6666672.597649e+056.908718e+06238.5172071132.059057WisconsinWI3525.3333334046.2222221.516534e+062.018658e+07200.4410642325.622492WyomingWY28.777778464.5555562.856356e+042.151349e+06216.0046461005.725503Отобразим в виде диаграмм:
  • Количество арестов в абсолютных значениях
    plt = df_arrests_2010_2018_agg.loc[:, ['white', 'black']].sort_index(ascending=False).plot.barh(color=['g', 'olive'], figsize=(10, 20))
    plt.set_ylabel('')
    plt.set_xlabel('Среднегодовое кол-во арестов (2010-2018 гг.)')
Длинная картинка
2. Теперь в удельных значениях:
plt = df_arrests_2010_2018_agg.loc[:, ['white_arrests_promln', 'black_arrests_promln']].sort_index(ascending=False).plot.barh(color=['g', 'olive'], figsize=(10, 20))
plt.set_ylabel('')
plt.set_xlabel('Среднегодовое кол-во арестов на 1 млн представителей расы (2010-2018 гг.)')
Еще одна длинная картинка
Что можно сказать при взгляде на эти данные?Во-первых, конечно, количество арестов зависит от количество населения - это заметно по данным для обеих рас.Во-вторых, в абсолютных показателях белых арестовывают несколько чаще. Говорю "несколько", потому как видно, что эта закономерность соблюдается не во всех штатах (см. например, Северная Каролина, Джорджия, Луизиана и др.) А во-вторых, разница в большинстве штатов не слишком заметна (за исключением, пожалуй, Калифорнии, Техаса, Колорадо, Массачусетса и нескольких других штатов.В-третьих, в удельных показателях (на миллион представителей расы) во всех штатах черных арестовывают гораздо больше, чем белых.Давайте проверим наши выводы цифрами.Разница между средним количеством арестов белых и черных:
df_arrests_2010_2018['white'].mean() / df_arrests_2010_2018['black'].mean()
- получаем 1.56. Т.е. белых за наблюдаемые 9 лет арестовывали в среднем в полтора раза больше, чем черных.Теперь то же в удельных показателях:
df_arrests_2010_2018['white_arrests_promln'].mean() / df_arrests_2010_2018['black_arrests_promln'].mean()
- получаем 0.183. Т.е. вероятность ареста черных в 5.5 раз выше, чем белых.Таким образом, гипотеза о большей преступности среди черных еще раз подтверждается на примере арестов по всем штатам США.Чтобы понять, как раса и преступность связаны с гибелью от рук стражей закона, объединим данные по арестам с данными по жертвам полиции.Подготовим данные по жертвам с расовым признаком с разбивкой по штатам:
df_fenc_agg_states1 = df_fenc.merge(df_state_names, how='inner', left_on='State', right_on='state_abbr')
df_fenc_agg_states1.fillna(0, inplace=True)
df_fenc_agg_states1 = df_fenc_agg_states1.rename(columns={'state_name_x': 'state_name', 'Year': 'year'})
df_fenc_agg_states1 = df_fenc_agg_states1.loc[df_fenc_agg_states1['year'].between(2000, 2018), ['year', 'Race', 'state_name', 'UOF']]
df_fenc_agg_states1 = df_fenc_agg_states1.groupby(['year', 'state_name', 'Race'])['UOF'].count().unstack().reset_index()
df_fenc_agg_states1 = df_fenc_agg_states1.rename(columns={'Black': 'black_uof', 'White': 'white_uof'})
df_fenc_agg_states1 = df_fenc_agg_states1.fillna(0).astype({'black_uof': 'uint32', 'white_uof': 'uint32'})
Полученный датасетyearstate_nameblack_uofwhite_uof02000Alabama4312000Alaska0222000Arizona01132000Arkansas1342000California1978...............9072018Virginia1179082018Washington0249092018West Virginia259102018Wisconsin379112018Wyoming04Производим объединение:
df_arrests_fenc = df_arrests.merge(df_fenc_agg_states1, on=['state_name', 'year'])
df_arrests_fenc = df_arrests_fenc.rename(columns={'white': 'white_arrests', 'black': 'black_arrests'})
Пример данных за 2017 годyearstateblack_arrestswhite_arrestsstate_nameblack_uofwhite_uof152017AK266859Alaska23342017AL30982509Alabama717532017AR20922674Arkansas67722017AZ24317829Arizona643912017CA2493780367California251371102017CO17816079Colorado2271272017CT16872114Connecticut151402017DE1198782Delaware431592017GA77474171Georgia15211732017HI88419Hawaii011922017IA14003524Iowa152102017ID611423Idaho062292017IL2847947Illinois13112482017IN35654300Indiana9132672017KS5851651Kansas3102862017KY14812035Kentucky1183052017LA58752284Louisiana1353242017MA29536089Massachusetts143432017MD66623371Maryland853612017ME89675Maine183802017MI61495459Michigan673992017MN25132681Minnesota174182017MO45715007Missouri13204372017MS1266409Mississippi7104552017MT50915Montana034742017NC81775576North Carolina9145012017NE80578Nebraska015162017NH113817New Hampshire035352017NJ48594136New Jersey965542017NM2052094New Mexico0205732017NV26954657Nevada3125922017NY59236633New York796112017OH44723882Ohio11236302017OK16382872Oklahoma3206492017OR4533222Oregon296682017PA1012310191Pennsylvania7176812017RI315633Rhode Island017002017SC46452964South Carolina3107122017SD124537South Dakota027312017TN66548496Tennessee4247502017TX1149320911Texas18567692017UT1991964Utah157882017VA42833247Virginia8178042017VT75626Vermont018232017WA18905804Washington8278422017WV3501705West Virginia1108562017WY36549Wyoming018722017DC1358District of Columbia118902017WI36044106Wisconsin6158922017FL127Florida1943ОК, теперь можно вычислить корреляцию между арестами и жертвами полиции, как мы уже делали раньше:
df_corr = df_arrests_fenc.loc[:, ['white_arrests', 'black_arrests', 'white_uof', 'black_uof']].corr(method='pearson').iloc[:2, 2:]
df_corr.style.background_gradient(cmap='PuBu')
white_uofblack_uofwhite_arrests0.8727660.622167black_arrests0.7023500.766852Получаем вновь неплохую корреляцию: 0.87 для белых и 0.77 для черных! Здесь интересно отметить, что эти значения очень близки к коэффициентам корреляции, полученным нами на примере данных по преступлениям в предыдущей части статьи (там было 0.88 для белых и 0.72 для черных).Наконец, давайте посмотрим на наш "индекс стрельбы в преступников", разделив количество жертв полиции на количество арестов по каждой расе:
df_arrests_fenc['white_uof_by_arr'] = df_arrests_fenc['white_uof'] / df_arrests_fenc['white_arrests']
df_arrests_fenc['black_uof_by_arr'] = df_arrests_fenc['black_uof'] / df_arrests_fenc['black_arrests']
df_arrests_fenc.replace([np.inf, -np.inf], np.nan, inplace=True)
df_arrests_fenc.fillna({'white_uof_by_arr': 0, 'black_uof_by_arr': 0}, inplace=True)
Посмотрим на графике, как распределяется этот показатель по штатам (возьмем 2018 год):
plt = df_arrests_fenc.loc[df_arrests_fenc['year'] == 2018, ['state_name', 'white_uof_by_arr', 'black_uof_by_arr']].sort_values(by='state_name', ascending=False).plot.barh(x='state_name', color=['g', 'olive'], figsize=(10, 20))
plt.set_ylabel('')
plt.set_xlabel('Отношение кол-ва жертв к кол-ву арестов (за 2018 г.)')
Опять длинная картинка
Видно, что в большинстве штатов показатель для белых превышает показатель для черных, хотя есть и яркие исключения: Юта, Западная Вирджиния, Канзас, Айдахо и Округ Колумбия.Но сравним средние показатели по всем штатам:
plt = df_arrests_fenc.loc[:, ['white_uof_by_arr', 'black_uof_by_arr']].mean().plot.bar(color=['g', 'olive'])
plt.set_ylabel('Отношение кол-ва жертв к кол-ву арестов')
plt.set_xticklabels(['Белые', 'Черные'], rotation=0)

Показатель для белых выше в 2.5 раза. То есть, если этот индекс о чем-то говорит, то белый преступник имеет в среднем в 2.5 раза большую вероятность встретить смерть от рук полиции, чем черный преступник. Конечно, этот показатель сильно варьируется по штатам: например, в Айдахо черный преступник погибает в 2 раза чаще белого, а в Миссисипи - в 4 раза реже.Что же, это исследование подошло к концу. Пора резюмировать.Выводы
  • Преступность в штатах прямо зависит от численности населения. Наиболее "преступные" штаты, о которых мы привыкли смотреть криминальные хроники или художественные фильмы, - просто самые густо населенные. При рассмотрении удельных показателей насильственных преступлений (на душу населения) лидерами оказываются совершенно неожиданные штаты - Аляска, Округ Колумбия (со столицей США) и Нью-Мексико.
  • В целом южные штаты показывают более высокие показатели преступности (в удельном выражении), чем северные штаты.
  • В США количество совершаемых преступлений и арестов обнаруживает значительную разницу среди белых и среди черных в удельном выражении: черные совершаю в 3 раза больше преступлений и в 5 раз чаще попадают под арест, чем белые.
  • Черные погибают в 2.5 раза чаще от рук служб правопорядка, чем белые.
  • Гибель от рук служб правопорядка имеет хорошо прослеживаемую связь с преступностью: чем больше преступлений, тем больше смертельных исходов от встреч с полицией. Эта корреляция подтверждается в целом по штатам и для каждой расы, хотя она немного выше для белых. Это подтверждается и разницей в отношении количества жертв полиции к количеству преступлений и арестов между расами: белые преступники имеют несколько более высокую вероятность встретить смерть, чем черные.
Хочу напоследок выразить благодарность моим читателям, давшим ценные комментарии и советы :)PS. В следующей, отдельной статье я планирую продолжить рассматривать преступность в США и ее связь с расовой принадлежностью. Сначала поколдуем с официальными данными по преступлениям на почве расовой и иной нетерпимости, а потом поглядим на конфликты между полицией и населением с другой стороны и разберем случаи гибели полицейских при исполнении служебных обязанностей. Если эта тема интересна, прошу дать знать в комментариях!
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_python, #_data_mining, #_otkrytye_dannye (Открытые данные), #_python, #_pandas, #_data_science, #_black_lives_matter, #_open_source, #_rest, #_api, #_big_data, #_politsija (полиция), #_ssha (сша), #_python, #_data_mining, #_otkrytye_dannye (
Открытые данные
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 21-Май 15:42
Часовой пояс: UTC + 5