[Информационная безопасность, Python, Программирование, Машинное обучение] Вышла библиотека PyWhat для автоматического парсинга трафика    
    
    
        
    
    
    
    
            
    
        
            
                
                                    
                
                                    
                
                    
                
            
        
    
    
        
            
                
                
                    
                           
                    
                        Автор 
                        Сообщение 
                    
                                        
                        
                            
                                
                                
                                                                                                            news_bot ®
                                                                        
                                                                                                                                                
                                                                            
                                                                                                                
                                            Стаж: 7 лет 8 месяцев                                        
                                                                                                                
                                            Сообщений: 27286                                        
                                                                                                                                                
                                                             
                            
                                
                             
                         
                        
                            
                                
                                    
                                        
                                        
 
Разработана удобная библиотека PyWhat, которая помогает классифировать данные в неструктурированном массиве. Например, у вас несколько мегабайт трафика, записанного в стандартном формате .pcap. Что с ним делать? PyWhat спарсит все строки, выделит:
- кошельки криптовалют,
 
- номера социального страхования,
 
- кредитные карточки,
 
- заголовки видеороликов Youtube ID,
 
- любые хэши,
 
- другие известные типы данных.
Так в трафике гораздо проще ориентироваться. Увидев нужный пакет, затем в Wireshark можно выбрать остальные пакеты конкретно из этого потока в реальном времени.
В принципе, всё то же самое можно сделать фильтрами в Wireshark, если искать в трафике что-то конкретное, но эта библиотека автоматизирует процесс и экономит время.
Иди другой пример. Посреди кода или в каком-то файле встречается таинственная строка 5f4dcc3b5aa765d61d8327deb882cf99. Нет проблем. Запускаем PyWhat — и смотрим, что это такое, с помощью команды what "5f4dcc3b5aa765d61d8327deb882cf99".

Задача команды what — выяснить происхождение строки символов, фрагмента, текста внутри файла или какого-то hex-значения.
Автор библиотеки приводит такой пример. Вы столкнулись с новым вариантом вредоносного ПО под названием WantToCry. Вспоминаете, что оригинальный Wannacry удалось остановить, потому что никому не известный паренёк обнаружил в коде «выключатель» с триггером на появление сайта по указанному адресу. Парень зарегистрировал этот домен — и остановил распространение Wannacry во всём мире.
«Итак, запускаем what — находим все домены во вредоносной программе — и через API регистратора доменов все их регистрируем. Если Wannacry появится снова, вы сможете остановить его за считанные минуты», — пишет автор.

В общем, библиотека помогает найти структурированные данные в любом файле, поддерживает рекурсивный поиск файлов в директориях, работает с API.
PyWhat относится к классу «вероятностных библиотек» на Python (probabilistic library), созданных в процессе машинного обучения моделей. В каком-то смысле, такие модели после обучения распознают форматы строк примерно как системы машинного обучения распознают лица конкретных людей, сверяясь с базой паттернов.
Из других полезных вероятностных библиотек/пакетов на Python можно назвать следующие:
- probablepeople: парсер неструктурированных западных имён с разбиением их по полям (имя, фамилия и другие компоненты)
 
- usaddress: парсер американских адресов с разбиением из одной строки на шесть полей
 
- chardet: автоматическое определение кодировки символов
 
- Gen.jl: система вероятностного программирования общего назначения с программируемым выводом. Например, позволяет наводить порядок в таблицах с плохо структурированными данными
 
- DataProfiler: инструмент, похожий по функциональности на PyWhat. Принимает на входе файлы и данные любых форматов, а на выходе выдаёт структурированную информацию по следующим полям:
 
- UNKNOWN
 
- ADDRESS
 
- BAN (bank account number, 10-18 digits)
 
- CREDIT_CARD
 
- EMAIL_ADDRESS
 
- UUID
 
- HASH_OR_KEY (md5, sha1, sha256, random hash, etc.)
 
- IPV4
 
- IPV6
 
- MAC_ADDRESS
 
- PERSON
 
- PHONE_NUMBER
 
- SSN
 
- URL
 
- US_STATE
 
- DRIVERS_LICENSE
 
- DATE
 
- TIME
 
- DATETIME
 
- INTEGER
 
- FLOAT
 
- QUANTITY
 
- ORDINAL
 
 Возможно переобучение модели DataProfiler на новые типы данных.

оригинал
===========
 Источник:
habr.com
===========
Похожие новости:
- [Python, Программирование, Алгоритмы, Визуализация данных, Учебный процесс в IT] Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации
 
- [Информационная безопасность, Реверс-инжиниринг, Исследования и прогнозы в IT, IT-компании] Cassandra: криптор, который любит держаться в тени
 
- [Программирование, Проектирование и рефакторинг, Разработка игр, Unity] Подпишись, чтобы не пропустить — События
 
- [Программирование, Java] Сравнение Java-записей, Lombok @Data и Kotlin data-классов (перевод)
 
- [Python, Big Data, Карьера в IT-индустрии, Data Engineering] Почему в X5 Group выделили Data Engineering в отдельный центр компетенций
 
- [C, Программирование микроконтроллеров, Matlab] Лаконичная реализация конечных автоматов в Matlab, Octave, C
 
- [Python, Microsoft SQL Server] Создание таблицы субъектов РФ в формате Geography T-SQL (SQL Server)
 
- [Python, Тестирование веб-сервисов] Почему мне так нравится использовать Python для автоматизации тестирования? (перевод)
 
- [Мессенджеры, Python, Twitter API, Машинное обучение, DIY или Сделай сам] Твиттер Илона Маска в телеграме и с переводом на русский
 
- [Python, Swift, Искусственный интеллект] О том как мы научили машину определять пол человека по его почерку
Теги для поиска: #_informatsionnaja_bezopasnost (Информационная безопасность), #_python, #_programmirovanie (Программирование), #_mashinnoe_obuchenie (Машинное обучение), #_pywhat, #_verojatnostnye_biblioteki (вероятностные библиотеки), #_parsing (парсинг), #_raspoznavanie_obrazov (распознавание образов), #_verojatnostnoe_programmirovanie (вероятностное программирование), #_strukturirovannye_dannye (структурированные данные), [url=https://torrents-local.xyz/search.php?nm=%23_blog_kompanii_datatsentr_«miran»&to=0&allw=0&o=1&s=0&f%5B%5D=820&f%5B%5D=959&f%5B%5D=958&f%5B%5D=872&f%5B%5D=967&f%5B%5D=954&f%5B%5D=885&f%5B%5D=882&f%5B%5D=863&f%5B%5D=881&f%5B%5D=860&f%5B%5D=884&f%5B%5D=865&f%5B%5D=873&f%5B%5D=861&f%5B%5D=864&f%5B%5D=883&f%5B%5D=957&f%5B%5D=859&f%5B%5D=966&f%5B%5D=956&f%5B%5D=955]#_blog_kompanii_datatsentr_«miran» (
Блог компании Дата-центр «Миран»
)[/url], #_informatsionnaja_bezopasnost (
Информационная безопасность
), #_python, #_programmirovanie (
Программирование
), #_mashinnoe_obuchenie (
Машинное обучение
)
                                        
                                        
                                        
                                     
                                    
                                    
                                                                    
                                                                                             
                         
                        
                            
                                                                    
                                                             
                         
                    
                    
                
                
            
        
    
    
    
    
    
            
    
            
    
        
    
    
        
                        Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
    
    
        
        Текущее время: 01-Ноя 00:57
Часовой пояс: UTC + 5 
            
    
                
| Автор | Сообщение | 
|---|---|
| news_bot ® 
                                                                            
                                                                                                                
                                            Стаж: 7 лет 8 месяцев                                         | |
|  Разработана удобная библиотека PyWhat, которая помогает классифировать данные в неструктурированном массиве. Например, у вас несколько мегабайт трафика, записанного в стандартном формате .pcap. Что с ним делать? PyWhat спарсит все строки, выделит: 
 Так в трафике гораздо проще ориентироваться. Увидев нужный пакет, затем в Wireshark можно выбрать остальные пакеты конкретно из этого потока в реальном времени. В принципе, всё то же самое можно сделать фильтрами в Wireshark, если искать в трафике что-то конкретное, но эта библиотека автоматизирует процесс и экономит время. Иди другой пример. Посреди кода или в каком-то файле встречается таинственная строка 5f4dcc3b5aa765d61d8327deb882cf99. Нет проблем. Запускаем PyWhat — и смотрим, что это такое, с помощью команды what "5f4dcc3b5aa765d61d8327deb882cf99".  Задача команды what — выяснить происхождение строки символов, фрагмента, текста внутри файла или какого-то hex-значения. Автор библиотеки приводит такой пример. Вы столкнулись с новым вариантом вредоносного ПО под названием WantToCry. Вспоминаете, что оригинальный Wannacry удалось остановить, потому что никому не известный паренёк обнаружил в коде «выключатель» с триггером на появление сайта по указанному адресу. Парень зарегистрировал этот домен — и остановил распространение Wannacry во всём мире. «Итак, запускаем what — находим все домены во вредоносной программе — и через API регистратора доменов все их регистрируем. Если Wannacry появится снова, вы сможете остановить его за считанные минуты», — пишет автор.  В общем, библиотека помогает найти структурированные данные в любом файле, поддерживает рекурсивный поиск файлов в директориях, работает с API. PyWhat относится к классу «вероятностных библиотек» на Python (probabilistic library), созданных в процессе машинного обучения моделей. В каком-то смысле, такие модели после обучения распознают форматы строк примерно как системы машинного обучения распознают лица конкретных людей, сверяясь с базой паттернов. Из других полезных вероятностных библиотек/пакетов на Python можно назвать следующие: 
  оригинал =========== Источник: habr.com =========== Похожие новости: 
 Блог компании Дата-центр «Миран» )[/url], #_informatsionnaja_bezopasnost ( Информационная безопасность ), #_python, #_programmirovanie ( Программирование ), #_mashinnoe_obuchenie ( Машинное обучение ) | |
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
    Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 01-Ноя 00:57
Часовой пояс: UTC + 5 
