РЕФЕРАТ:
В те дни, когда Интернета не существовало, первые миллениалы или предыдущее поколение в основном делали свои покупки в зависимости от молвы, которую они получали от своих друзей и семьи. Людям приходилось довольствоваться некачественным качеством продуктов, потому что не было возможности проверить, были ли эти отзывы личными или эти люди «только что где-то слышали». В условиях лесного пожара, который превратился в Интернет, покупки в основном совершаются в Интернете. Но как узнать, стоят ли продукты, представленные в Интернете, ваших денег и времени? Вот где в игру вступают обзоры продуктов. Священное место, где вы знаете, предоставлены ли отзывы о «проверенных покупках» или они просто предоставлены случайным пользователем веб-сайта. Давайте погрузимся в мир обзоров, основанных на машинном обучении, и посмотрим, что происходит за экраном вашего ноутбука или мобильного телефона!
Приложения электронной коммерции предоставляют покупателям дополнительное преимущество при покупке продукта с добавленными предложениями в виде отзывов. Очевидно, что обзоры полезны и эффективны для клиентов, которые собираются покупать товары. Но такое огромное количество отзывов также создает проблемы для клиентов, поскольку они не могут выделить полезные из них. Тем не менее, такое огромное количество отзывов создает проблему для клиентов, поскольку становится очень трудно фильтровать информативные обзоры. Эта пропорциональная проблема была предпринята в этом блоге. Подход, который мы подробно обсудим позже, ранжирует отзывы на основе их соответствия продукту и ранжирует нерелевантные отзывы.
Эта работа проводилась в четыре этапа: предварительная обработка / фильтрация данных, извлечение признаков, ранжирование парных обзоров и классификация.
Результатом будет список обзоров для определенного рейтинга продукта на основе релевантности с использованием подхода попарного ранжирования.
I. ВВЕДЕНИЕ:
Ранжирование обзоров и показ релевантной информации пользователям - сложная задача. Важность отзывов на странице продукта заключается в том, чтобы помочь покупателям принять решение о покупке, но тогда количество отзывов создает проблему и оставляет клиента в конфликтном состоянии.
Чтобы решить эту проблему, многие сайты электронной коммерции придумали разные способы фильтрации отзывов, чтобы повысить удовлетворенность клиентов. Вот несколько популярных способов отфильтровывать отзывы, чтобы удовлетворить клиентов:
- Фильтрация обзоров Amazon в соответствии с «Лучшими отзывами» на основе оценки полезности обзора и рейтинга профиля в обзоре пользователей и «Самые последние» обзоры, но по времени публикации обзора
- У Flipkart есть четыре способа демонстрации отзывов: самые полезные, самые свежие, сначала положительные и сначала отрицательные.
Эти методы в некоторой степени решают проблему, но основываются на оценке настроения рецензентов (голоса за / против) или статистических выводов (время, ввод рейтинга и т. Д.). Из-за необходимости на рынке требовался резкий подход к ранжированию обзоров на основе релевантности. В настоящее время только Google внедрил это в своих двух популярных продуктах - Google Play Store и Google Maps.
Обзоры / скрытые отзывы покупателей демонстрируют их предпочтения в отношении товаров. Из всех существующих решений, определенных выше, метод попарного ранжирования показал современные решения. Попарное ранжирование помогает сравнивать характеристики каждого обзора со всеми обзорами индивидуально в наборе данных.
Различные недавние исследователи исследовали метод попарного ранжирования для ряда приложений. В 2018 году Ю. al. исследовал несколько алгоритмов попарного ранжирования, чтобы показать разницу между несколькими парами элементов .
В дозе 1 мг мы следуем технике парного ранжирования, чтобы ранжировать обзоры по релевантности.
Блог структурирован следующим образом: в разделе II обсуждается рабочий процесс всего процесса для разработки четко определенной и высокоэффективной методологии. Предварительная обработка данных и фильтрация плохих отзывов обсуждается в разделе III. Подробное извлечение признаков обсуждается в разделе IV. Раздел V посвящен методологии, используемой для парного ранжирования, за которым следует раздел VI. В разделе VI обсуждалась модель классификации, которая использовалась для проверки результатов парного ранжирования. В разделе VII представлен подробный результат проведенного эксперимента и заключительные замечания.
II. Общий рабочий процесс
III. Предварительная обработка данных
В настоящее время мы обслуживаем более 1000 городов по всей Индии. Наши пользователи из всех слоев общества, которые понимают / пишут на разных языках и различаются по уровню грамотности. В настоящее время из более чем 50 тысяч отзывов (собран весь набор обзоров) от 4% до 8% отзывов написаны на языках, отличных от английского или хинглиш.
Этап 1: Фильтрация отзывов по языку, так как в настоящее время их очень мало, мы решили фильтровать отзывы, отличные от английского или хинглиша.
Этап 2: Около 7% отзывов были бессмыслицей. Чтобы отфильтровать глупые отзывы, мы использовали логику цепи Маркова. В английском вы ожидаете, что после q вы получите u. Если после буквы q следует что-то иное, кроме u, это произойдет с очень низкой вероятностью и, следовательно, должно вызывать серьезную тревогу. Нормализуйте числа в ваших таблицах, чтобы у вас была вероятность. Затем для запроса пройдите по матрице и вычислите произведение переходов, которые вы делаете. Затем нормализуйте по длине запроса. Когда число мало, вероятно, у вас бредовый запрос (или что-то на другом языке).
Этап 3: Удаление ненормативной лексики. Мы отфильтровываем ненормативную лексику как на английском, так и на хинглиш.
Этап 4: Коррекция орфографии для слов, для которых достоверность исправления составляет ›90%. Методология: Питер Норвиг, это поможет улучшить качество обзоров, например. слово withut
будет изменено на without
.
IV. Извлечение функций
Извлечение характеристик для охвата всех необходимых свойств / точек обзора и количественного измерения характеристик - очень необходимая задача для достижения высокоточных результатов. Следовательно, в этом разделе обсуждаются все функции, извлеченные из обзоров.
- Сила существительного (Rn): существительные являются подлежащими и считаются наиболее информативной частью языка. Количество тем показывает важность обзора, потому что только существительное описывает основные факторы обзора (которые говорят нам, о чем идет речь). Мы использовали POS-теги, чтобы найти существительные в обзоре, и вычислили оценку как:
Оценка (Rn) = TFIDF (существительное) / TFIDF (все слова) - Полярность отзыва (Rp): его значение находится в диапазоне от -1 до +1, что указывает на то, имеет ли отзыв положительный или отрицательный настрой.
3. Обзор субъективности (Rs). Субъективность - это мера отношения от объективного к субъективному и изменяется от 0 до 1. Объективные выражения - это факты, а субъективные выражения - это мнения, которые описывают чувства человека. Рассмотрим следующее выражение:
Бурнвита очень вкусна с молоком: Субъективно
Бурнвита коричневого цвета: Объективно
4. Сложность обзора (Rc): для оценки того, насколько хорош и сложен отзыв с точки зрения уникальных слов в обзоре и для всего корпуса отзывов о конкретном продукте.
Rc = количество уникальных слов в обзоре / количество уникальных слов во всем корпусе
5. Объем рецензии (Rw): количество слов в рецензии.
6. Service Tagger (Rd): лучший обзор - это тот, который больше рассказывает о том, каков продукт, его вкус, каково его использование, а также тот, который говорит об эффективности продукта. Обзоры в основном описывают продукт. Таким образом, создается словарь слов, в котором отзывы будут отмечены как основанные на услугах,
доставке и поддержке клиентов.
Нечеткое сопоставление каждого слова в обзоре выполняется со словами в словаре с помощью Левенштейна. расстояние. Расстояние Левенштейна помогает измерить разницу между двумя последовательностями и устранить ошибки заклинаний при проверке, например, вместо «Моя доставка была вовремя», в «Обзоре» неправильно написано «Моя доставка была вовремя». В этом случае нечеткое сопоставление поможет нам сопоставить оба обзора.
7. Комплексная оценка (Rsc): для повышения эффективности системы. Мы вычисляем сложную оценку с помощью VaderSentimentAnalyser. Эта библиотека взята из VADER (Valence Aware Dictionary и sEntiment Reasoner). Это инструмент анализа настроений на основе лексики и правил, специально настроенный для определения настроений, выраженных в контенте социальных сетей. Он может определять тональность сленга (например, SUX!), Эмодзи (😩, 😂), смайликов (:),: D) и различие между словесными выражениями, написанными с заглавной буквы (Я САД, мне грустно, это разные выражения) .
Rsc ≥ 0,5 (положительное настроение)
-0,5 ‹Rsc‹ +0,5 (нейронное настроение)
Rsc≤ -0,5 (отрицательное настроение)
Разное. Мы намеренно не включили рейтинг отзывов в качестве функции. Включение рейтингов приводит к полной ошибке во всей системе по двум причинам:
1. Распространенная путаница между рейтингом и обзорами. Например, кто-то, кто оценивает продукт на «1» (по шкале оценок от 1 до 5, где «1» - «самый низкий», а «5» - «самый высокий»), пишет комментарий обзора как «очень хорошее и полезное лекарство. '.
2. Большая часть отзывов клиентов имеет 5 или 1 звезду.
Мы находимся на полпути к процессу ранжирования обзоров.
Теперь у нас есть отфильтрованный / предварительно обработанный набор отзывов (более 50 тысяч) и его функции, которые помогут нам ранжировать отзывы на основе релевантности.
Затем мы обсудим разделы V, VI и VII, которые разъяснят , как мы использовали парное ранжирование с этими извлеченными характеристиками, преобразование проблемы в проблему классификации и результаты, заключение и будущую область действия.
Надеюсь, вам понравился этот блог и вы кое-что узнали! Я скоро вернусь со второй частью. [ПРОДОЛЖЕНИЕ СЛЕДУЕТ…]
Пожалуйста, не стесняйтесь делиться своими взглядами и отзывами в разделе комментариев ниже.
Ссылки:
- Скалли, Д. (2009). Масштабное обучение ранжированию.
- Секи, Ю. (2002). Извлечение предложений по tf / idf и взвешивание позиций из газетных статей.
- Ю. Р., Чжан Ю., Е Ю., Ву Л., Ван К., Лю К. и Чен Э. (2018,
октябрь). Множественное попарное ранжирование с неявной обратной связью. В материалах
27-й Международной конференции ACM по информации
и управлению знаниями (стр. 1727–1730). ACM. - Лю Т. Ю. (2009). Обучение ранжированию для поиска информации. Основы и тенденции® в поиске информации, 3 (3), 225–331.