Как мы используем справочные данные для повышения разрешения идентификации при сопоставлении медицинских карт пациентов

Справочные данные как источник правды

Datavant недавно объявила о включении референтных данных в Datavant Match, сквозной технологии конфиденциальности исследовательского уровня, предназначенной для открытия новых вариантов использования в рамках сопоставления деидентифицированных записей. Здесь мы рассмотрим, как наборы референтных данных способствуют этому новому стандарту точности и полноты при подборе пациентов.

Ссылочные данные — это именно то, на что это похоже: большой массив данных, на который мы можем ссылаться в процессе сопоставления, мост между разрозненными наборами данных. Обращение к этим данным позволяет нам с очень высокой степенью достоверности сопоставить медицинские записи, принадлежащие одному человеку, но содержащие разные части информации, идентифицирующей личность (PII). Это означает, что записи, которые в противном случае было бы трудно или невозможно сопоставить с помощью других методов, могут успешно сопоставляться. В этом отношении справочные данные служат источником истины для наших моделей машинного обучения.

Референсный источник достоверных данных Datavant представляет собой тщательно отобранный набор данных из общедоступных записей, онлайн-данных и частных источников, собранных с соблюдением строгих правил гигиены данных, охватывающих все население США за 30 лет. Объем этих данных позволяет нам отслеживать изменения личных идентификаторов отдельных лиц с течением времени, что позволяет нам проводить больше совпадений с большей точностью.

Вы и ваши данные

Несмотря на то, насколько фиксированной вы можете считать свою личность, ваши идентифицирующие личность данные на самом деле представляют собой серию изолированных моментальных снимков взаимодействия с системой здравоохранения. При наблюдении в масштабе персональные данные популяции кажутся беспорядочными и постоянно меняющимися. Сколько адресов у вас было? Телефонные номера? Вы когда-нибудь меняли свое имя? Используете ли вы иногда (но не всегда) псевдоним или сокращение имени? Все эти изменения усложняют задачу с уверенностью сказать, что данные в местоположении А и данные в местоположении Б должны быть привязаны к вам.

Реальные данные

Для тех, кто не связан с отраслью здравоохранения, данные из реального мира могут звучать как фиксированный массив информации, но он не является ни фиксированным, ни единым, однородным массивом данных, ожидающих открытия для исследования. Большое количество игроков в экосистеме здравоохранения владеют небольшими кусочками пирога данных реального мира. В нескольких срезах находится личная идентифицирующая информация любого пациента, записанная в определенный момент времени, а также некоторая (но, вероятно, не вся) информация об истории болезни пациента. Наша цель — подключить последнее, не раскрывая первое. Это один из способов, которым мы работаем, чтобы разрушить многочисленные хранилища данных в экосистеме здравоохранения.

Существует огромная ценность в возможности изучать данные реального мира, от ускорения фармацевтических исследований до мониторинга всего пути пациента. Но мало смысла в попытках изучить сегментированные биты данных, которые мы не можем осмысленно соединить. С помощью Datavant Match мы можем находить записи отдельных лиц в фрагментированных наборах данных и с очень высокой степенью уверенности знать, что набор записей принадлежит одному пациенту, не ставя под угрозу конфиденциальность пациента.

Соединение записей пациентов между хранилищами данных

Хранение, совместное использование и связывание PII регулируется HIPAA. В отличие, например, от платформы социальных сетей, которая может относительно свободно связывать идентифицирующие данные своих пользователей с другими платформами и наборами данных (подумайте: таргетированная реклама на основе поисковой активности или сообщений в социальных сетях), наша платформа должна связывать данные достаточно свободно быть полезным в отрасли (например, для различных исследователей, поставщиков медицинских услуг, страховых компаний и т. д.), но также продолжать защищать идентифицирующую информацию о пациентах.

В другом месте в техническом блоге Datavant мы обсуждали некоторые стратегии Datavant для соединения точек данных пациентов в фрагментированных наборах данных, включая токенизацию Datavant, а также некоторые подходы для оценки перекрытия записей между наборами данных. Оба эти подхода являются частью более крупной головоломки, которая составляет нашу всеобъемлющую стратегию сопоставления.

Токены

Токены — это первый шаг к тому, как мы сопоставляем данные пациентов, сохраняя при этом безопасность PII. Токен — это необратимо хешированная и зашифрованная строка, основанная на определенных элементах PII. Токены обеспечивают безопасное хранение и обмен данными за пределами хранилища данных владельца данных. В случае нарушения безопасности одним владельцем данных PII, содержащаяся в других связанных наборах данных, остается защищенной.

Токен может быть сгенерирован из:

or

Для каждого набора данных мы генерируем множество токенов с помощью различных комбинаций PII. На базовом уровне мы можем проводить попарные сравнения между записями, чтобы определить, совпадают ли они. Затем мы измеряем производительность по точности на парах записей:

  • TP = истинное положительное значение = правильно предсказанное совпадение
  • FP = Ложное срабатывание = неверно предсказанное совпадение
  • FN = ложноотрицательный результат = неверно предсказанное несоответствие

Ключевые показатели, которые мы ищем, — это точность и полнота.

  • Точность = TP/(TP+FP)
  • Отзыв = TP/(TP+FN)

Например:

В записи 2 отсутствует информация в поле «Номер телефона», и из-за этого отсутствует токен, в определении которого используется номер телефона. Здесь 2 пары токенов совпадают, 1 пара токенов не совпадает, а 1 пара токенов неизвестна. Существует верхний предел того, насколько мы можем быть уверены, что эти две записи совпадают на основе сравнения этих токенов. Токены более высокого качества обеспечат большую уверенность.

Улица и улица

Когда вы выполняете задачи с проверкой кода для доступа к веб-сайтам, вы помогаете разработать ИИ где-то, чтобы он лучше распознавал вещи, которые люди узнают мгновенно, независимо от угла, под которым они просматриваются, их относительного положения по отношению к другим объектам или того, как солнечный свет падает на них. их. Точно так же люди распознают распространенные сокращения слов как эквивалентные слову, которое они сокращают, но алгоритм сопоставления должен научиться распознавать «улицу» и «ул. как эквивалент. На уровне машинного обучения есть много таких факторов, которые мешают точному сопоставлению, в том числе:

  • Несоответствия форматирования: «Main St.» по сравнению с «Main Street» или «12.01.04» по сравнению с «01–12–2004»
  • Вариации в содержании данных: "Мэри" против "Марианна" против "М."
  • Изменения в идентифицирующих данных, которые происходят, когда пациенты переезжают, вступают в брак, разводятся и т. д.
  • Отсутствующие данные: отсутствие телефонных номеров или имен или любого другого поля информации, которое не считается уместным во время конкретного взаимодействия с системой здравоохранения.
  • Данные-заполнители: использование «123–45–6789» вместо реального SSN или «11/22/3333» вместо DOB.

Неверные данные = неверные токены

Качество данных имеет решающее значение для сопоставления качества. Если вышеуказанные проблемы не будут решены, то у нас будут большие бункеры, полные неверных данных. Но Datavant не анализирует исходный набор данных на наличие несоответствий, отсутствующих данных или наличия данных-заполнителей; мы анализируем только токенизированную версию набора данных. Следовательно, токены должны быть оптимизированы для соответствия производительности. Если мы видим, например, один столбец в наборе данных с необычно высокой частотой одного токена, это, вероятно, означает, что этот токен содержит какие-то данные-заполнители.

Мы используем несколько других процессов смягчения и стандартизации для решения проблем с плохими данными при генерации токенов. К ним относятся фонетические алгоритмы, такие как Soundex и Metaphone. Soundex был разработан в начале 1900-х годов для лучшего анализа данных переписи населения. Это звукоподобный алгоритм, который помогает стандартизировать варианты написания имен (например, Стивен и Стивен). Метафон — это алгоритм, разработанный в 1990 году, который должен был стать улучшением Soundex. Он принимает во внимание множество вариаций и несоответствий в английском правописании и произношении. Эти и несколько других стратегий стандартизации и смягчения последствий помогают улучшить качество имеющихся у нас данных.

Ниже вы можете увидеть, как эти меры могут быть реализованы при создании набора токенов. Выделенные поля считаются точными. Поля в скобках были уменьшены:

В нашем процессе машинного обучения есть еще несколько шагов, которые мы не будем здесь рассматривать. Как только мы определили совпадение, мы назначаем Datavant ID (DVID) деидентифицированным записям пациентов. DVID согласуются между наборами данных в рамках конкретного варианта использования и существуют в виде добавленного столбца в каждом наборе данных:

Как мы уже упоминали, каждый набор данных собирает данные о человеке в определенный момент времени, но DVID разработаны так, чтобы быть стабильными во времени и учитывать изменение адресов, имен, номеров телефонов и адресов электронной почты.

Обучение модели

Мы обучаем нашу модель машинного обучения на миллиардах записей, ища закономерности между записями. Наши обучающие данные репрезентативны для населения США и взяты из реальных данных и данных электронных медицинских карт. Это означает, что мы видим совпадения с высочайшей точностью в очень большом масштабе, принимая во внимание доступные токены, их скорость заполнения и вариант использования данных. Это позволяет нам проводить очень точные сопоставления независимо от происхождения данных или контекста, в котором они были собраны.

В результате у нас есть возможность установить желаемый баланс точности и отзыва в зависимости от конкретных потребностей клиента. Если мы увеличим точность нашего сопоставления (обнаружим только совпадения с высокой степенью достоверности), это может произойти за счет отзыва. Если мы увеличим полноту (разрешим включение совпадений более низкого качества), это также может произойти за счет точности. С референсными данными эти компромиссы значительно меньше.

Как узнать, правильно ли мы понимаем? Справочные данные как мост данных и источник правды

Наконец, чтобы проверить успех нашего машинного обучения, нам нужно сопоставить наши прогнозы с источником истины. Что касается примера с капчей, приведенного выше, участие человека в миллионах взаимодействий с капчей помогает обучать ИИ, а также служит источником истины для будущего обучения. Для нас именно здесь вступает в действие уровень референциальных данных. Он позволяет нам как проверять наши прогнозы, так и находить дополнительные совпадения, которые в противном случае могли бы быть пропущены.

Как мы упоминали выше, точность и полнота часто являются компромиссом друг для друга, при этом более высокая точность часто приравнивается к более низкой полноте, и наоборот. Используя ссылочный набор данных в качестве источника достоверной информации и связующего звена между наборами данных, мы можем повысить точность сопоставления до более чем 99 % точности при 95 % полноте.

Больше положительных результатов, меньше отрицательных результатов

Мы работаем над тем, чтобы повысить положительные результаты, обеспечиваемые изучением взаимосвязанных данных реального мира, а также работаем над уменьшением негативных последствий неадекватного или плохого сопоставления. Пропущенные совпадения (т. е. ваша история рентгеновских снимков, не связанная с вашей историей аптек) ограничивают возможность сбора информации о пациентах с хроническими заболеваниями. Это может привести к повторным тестам, пропущенным диагнозам и задержке лечения. Ложноположительные совпадения (т. е. сопоставление вашей рентгенологической истории с чьей-либо аптечной историей) приводят к неточному отслеживанию пациентов и могут поставить под угрозу качество научных исследований. Достижение сочетания высокой точности и высокой полноты, обеспечиваемое включением справочных данных, означает, что мы можем меньше жертвовать в поисках более качественных совпадений.

Об авторах

Автор: Варун Лахоти и Николас ДеМеисон, при участии Аниша Кулкарни, Джона Лешина и Веры Муках.

Варун Лахоти — менеджер по продукту в Datavant. Имеет опыт работы в области биомедицинской инженерии, информатики и аналитики. Свяжитесь с Варуном в LinkedIn.

Николас ДеМезон пишет для Datavant, где он возглавляет инициативы по брендингу талантов. Свяжитесь с Ником в LinkedIn.

Мы набираем сотрудников удаленно в разные команды. Ознакомьтесь с нашими открытыми позициями.