mIRC - популярный в нулевых клиент для чатов, работающих по протоколу IRC. Именно там прошли мои школьные годы, а точнее с 2005 по 2010 года.
У меня сохранились почти все логи переписок за это время, а это около 7000 файлов общим размером 15 МБ (без учета общих каналов). Для сравнения все тома Войны и Мир весят 3 МБ.
Что делать с такой информацией? Подготовил датасет, обучил модель и простой чат-бот для Telegram готов. Теперь можно пообщаться с пользователем Скаут, которому 14 лет и он учится в 7 классе.
- messages_log/ - папка с примерами переписок
- collect_data.ipynb - ноутбук с обработкой логов сообщений и обучением модели
- telegram_bot.py - бот для ТГ
Скрипты написаны на основании статьи на Хабре