Больше информации по резюме будет доступно после регистрации

Зарегистрироваться
Была более двух недель назад

Женщина, 26 лет, родилась 14 ноября 1999

Москва, не готова к переезду, готова к командировкам

Lead NLP Data Scientist

550 000  на руки

Специализации:
  • Дата-сайентист
  • Программист, разработчик

Тип занятости: полная занятость

Опыт работы 5 лет 3 месяца

Ноябрь 2024по настоящее время
1 год 6 месяцев

Москва, rabota.sber.ru/

Финансовый сектор... Показать еще

Руководитель направления по исследованию данных
1. Разработка AI-агентов для краудсорсинговой площадки Сбера – AI-агент для для улучшения пользовательского опыта подачи инициатив (Пользователи взаимодействуют с агентом посредством чата, AI-агент помогает сформулировать текст инициативы, проверить ее на дубликаты среди уже существующих, рассчитать фин. эффект; LLM - GigaChat). Агент выведен в ПРОД. Качество агента по оценке экспертов – 93%, среднее время подачи инициативы на площадке с AI-агентом сократилось с 60 минут о 20. – Разработка AI-агента для эффективной проверки экспертами поданных инициатив (AI-агент проверяет инициативу на наличие в бэклогах, целях команды, выдает краткое саммари, проверяет по чек-листу, а также формирует заключение эксперта). Текущий статус: PoC – Разработка ML-пайплайна для маршрутизации инициативы на профильного эксперта (Решение включает в себя несколько этапов, дополнительно дообучались с помощью LoRA модели классификации (ruRoberta-large) и модели-эмбеддеры (E5-large-multilingual)). Решение выведено в ПРОД, качество 90% на топ-3 – Определение областей применения AI для оптимизации бизнес-процесса – Определение наиболее важных проблем пользователей при подаче инициатив и наиболее острых проблем экспертов при проверке поданных инициатив – Управление интеграцией AI-агентов в продукт (планирование спринтов back-end и front-end команд, улучшение UI/UX при использовании продукта, разработка Python-микросервисов агентов) 2. Разработка NLP-моделей для оптимизации процесса сбора и анализа инициатив сотрудников 3. Разработка модуля AI-аналитики на платформе по оценке сервисов Сбера 4. Менторство младших коллег и стажеров
Август 2023Ноябрь 2024
1 год 4 месяца

Москва, rabota.sber.ru/

Финансовый сектор... Показать еще

Ведущий исследователь данных
1. RAG (Retrieval Augmented Generation): – Разработка скрипта для context-aware деления документов на чанки заданного размера и наполнение поискового индекса – Подготовка обучающего и тестового датасетов для обучения эмбеддера – Обучение эмбеддера для векторного поиска (backbone – E5-LARGE Multilingual) – SFT LLM на собранном инструктивном сете (backbone – LLAMA-2) – Проведение экспериментов с улучшением пайплайна векторного поиска: * Обучение ре-ранкера для улучшения результатов работы ретривера (backbone – ruRoBERTa-LARGE) * RAG-Fusion 2. Кэширование LLM: – Разработка пайплайна для кэширования частотных пользовательских запросов – Обучение q2q-модели для нахождения вопросов-синонимов (backbone – E5-LARGE Multilingual) – Разработка скрипта для обновления кэша 3. Определение жизненной потребности клиента: – Разработка пайплайна для определения жизненной постребности клиента банка в real-time (ASR+LLM) 4. Менторство младших коллег и стажеров
Май 2022Июль 2023
1 год 3 месяца
Diginetica
NLP-разработчик
1. Настройка и улучшение поиска для онлайн-платформ – Анализ пользовательских запросов и интентов – Подбор стратегии поиска и ранжирования, анализ качества поисковой выдачи 2. Оптимизация процесса настройки поиска – Создание инструмента для проверки данных в фидах онлайн-магазинов – Усовершенствование инструмента для генерации синонимов/исправлений опечаток/транслитераций) 3. Сбор пользовательских отзывов на продукты (совместно с Тинькофф): написание алгоритма, позволяющего матчить данные из чеков с реальными товарами в фидах клиентов 4. RnD: исследование методов и процессов внедрения больших языковых моделей в поиск для e-commerce платформ
Июль 2021Август 2022
1 год 2 месяца
Яндекс
Асессор-разработчик
1. Оценка поисковой выдачи Computer Science 2. написание ликбезов (аннотаций) оценки CS-запросов
Октябрь 2020Февраль 2021
5 месяцев

Москва

Информационные технологии, системная интеграция, интернет... Показать еще

Разметчик текста
Разметка тональности новостных текстов на испанском языке

Навыки

Уровни владения навыками
Python
Data Science
NLP
Transformers
Plotly
PyTorch
PyCharm
pandas
Python (сортировка, поиск по списку, динамическое программирование, обход графа, поиск элемента/эле)
pymorphy2, NLTK, spaCy для обработки текстов на естественном языке
опыт работы с моделями для морфо-синтаксического анализа (UDPipe, Stanza)
генерация/классификация текстовых данных (CNN, RNN, BERT, GPT)
CNN для обработки изображений (Res-Net, U-Net, автоэнкодеры)
использование библиотек для машинного обучения: torch, transformers, sklearn
анализ данных и их визуализация: NumPy, SciPy, pandas, matplotlib, networkx, pyvis
SQL
C# (знание базового синтаксиса и основных операций)
Git
Matplotlib
Seaborn
NLTK
Numpy
Deep Learning
Docker
FastAPI
LangChain
LangGraph
Peft

Обо мне

Личные качества: Целеустремленность, ответственность, грамотная речь, коммуникабельность, внимательность, умение работать в команде

Высшее образование (Магистр)

2023
Высшее образование (Магистр)
Филологический факультет, Фундаментальная и прикладная лингвистика
2021
Высшее образование (Магистр)
Филологический факультет, Теоретическая и прикладная лингвистика (лингвист)

Знание языков

Русский — Родной

Английский — C1 — Продвинутый

Испанский — B2 — Средне-продвинутый

Гражданство, время в пути до работы

Гражданство: Россия

Разрешение на работу: Россия

Желательное время в пути до работы: Не имеет значения