![]() |
![]() |
![]() |
|
Регистрация | Справка | Пользователи | Социальные группы | Календарь | Поиск | Сообщения за день | Все разделы прочитаны |
КиноПоиск.ru Раздел посвящен работе сайта: ваши пожелания, критика, ошибки и т.д. и т.п. |
![]() |
|
|
Опции темы | Опции просмотра |
![]() |
#1 |
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]()
Я уже писал, что система подсчета коэффициента близости работает некорректно.
Насколько понимаю, сейчас близость считается по коэффициенту Пирсона. http://www.kinopoisk.ru/board/showthread.php?p=1264648 Этот коэффициент характеризует существование линейной зависимости между двумя величинами. А линейная зависимость определяет степень, с которой значения двух переменных "пропорциональны" друг другу. http://www.statplus.net.ua/ru/help/source/a_corr.htm Вот в чем проблема. Именно пропорциональность, а не близость определяет коэффициент Пирсона. И для подсчета близость он не подходит. Самый простой способ подсчета близости ***8722; подсчитать близость по каждой оценке и вывести средний коэффициент. Пример Последний раз редактировалось vvtt; 15.02.2010 в 14:14. |
![]() |
![]() |
![]() |
#2 |
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]()
Недостаток такого способа заключается в том, что совпадение двух десяток и единиц должно иметь разную важность.
Решение ***8722; использование средневзвешенного коэффициента, в котором близость по десяткам будет учитываться 10 раз, девяткам ***8722; девять и т. д. Тогда если пользователи, близость которых рассчитывается, поставят фильму по 10 баллов, это будет влиять на близость так же, как по 5 баллов двум или по единице десяти фильмам. Кроме того, по фильму 7 близость получилась 50%, хотя разрыв всего 1 балл. При использовании средневзвешенного коэффициента этот показатель будет незначительно влиять на коэффициент близости между пользователями. А еще лучше вообще не учитывать фильмы, большая оценка по которых 5 и ниже. А то поставит один пользователь всем фильмам 1, а второй 2, и близость - 50%. Для использования коэффициента нужно по каждому фильму определить большую из двух оценку, и умножить близость по фильму на эту оценку. Потом результаты по всем фильмам разделить на сумму больших из пар оценок. К=(Бл1*О1+Бл2*О2+...)/Сумма О Бл ***8722; близость по фильму О ***8722; большая оценка по фильму Пример Последний раз редактировалось vvtt; 15.02.2010 в 14:54. |
![]() |
![]() |
![]() |
#3 |
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]()
Как видно из примера, скорректированный коэффициент близости совпадает с меньшими из пар оценками. И суть метода сводится до деления суммы меньших на сумму больших оценок!
Никогда б не подумал, что такой простой способ уже учитывает весовой коэффициент. Ну, вот и все. Прикрепляю Excel, может кого-то заинтересует А, здесь нельзя Excel. Ну ладно, думаю и так все понятно Последний раз редактировалось vvtt; 15.02.2010 в 17:11. |
![]() |
![]() |
![]() |
#4 |
Свой в доску!
Регистрация: 10.02.2010
Сообщений: 401
|
![]()
Рискну предположить, что команда разработчиков кинопоиска "слегка" знакома с мат. статистикой.
Главная же проблема заключается в том, что понимать под словом "близость" двух пользователей сайта. Ну например, в Вашем понимании близость оценок 7 и 8 = 0,88 4 и 3 = 0,75 1 и 2 = 0,50 А с моей точки зрения если люди оценивают нечто примерно одиннаково, то и близость их примерно равна вне зависимости от оценки. Проще говоря, в первом случае оба посчитали что нечто неплохо, а в последнем что хуже некуда, откуда разные коэффициенты? И уж тем более мне не понятно почему Вы решили что и принялись решать проблему классическим способом. Как видите, всегда найдется человек, которого не будет устраивать работа системы ![]() Хотя, я не спорю, то что есть не совершенно, но где его взять, совершенство? |
![]() |
![]() |
![]() |
#5 |
Only human
Регистрация: 05.07.2005
Адрес: Мритью Лока
Сообщений: 9,487
|
![]()
Полагаю, смысл в том, что система носит рекомендательный характер, т.е. должна прогнозировать какой фильм скорее всего понравится пользователю. И далеко не факт, что людям с высокой близостью по худшим фильмам понравятся одни и те же фильмы.
|
![]() |
![]() |
![]() |
#6 | ||
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]() Цитата:
http://www.kinopoisk.ru/board/showth...=8603&page=348 и как не в меру любопытный человек решил найти причину Цитата:
На это есть несколько причин: 1) высокие оценки определяют интересы пользователя, а низкие - антиинтересы. Пользователи могут иметь разные интересы, но одинаково оценивать плохие фильмы. Поэтому совпадение двух десяток и единиц должно иметь разную важность 2) низкие оценки ставятся менее обдумано. Например, для меня разница между 1 и 4 очень незначительная, нелегко определить хуже из плохого. А между 7 и 10 намного больше 3) третья причина - то, что Вы написали: "первом случае оба посчитали что нечто неплохо, а в последнем что хуже некуда, откуда разные коэффициенты" Я не говорю, что нужно именно так менять систему, это просто вариант. Недоработанный сырой вариант Последний раз редактировалось vvtt; 16.02.2010 в 15:21. |
||
![]() |
![]() |
![]() |
#7 | |
Свой
Регистрация: 18.07.2009
Адрес: еще не живу
Сообщений: 92
|
![]() Цитата:
|
|
![]() |
![]() |
![]() |
#8 | |
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]() Цитата:
Так вот, я считаю, что низкие оценки могут нести или пользу или вред для рекомендаций. Полезные оценки фильмам, которым часть друзей по интересам поставили 6 и выше баллов. В этом случае близость с теми, кто высоко оценивает то, что вы оценили низко, упадет. А если друзья по интересам поставили фильму от 1 до 5, то такая низкая оценка будет вредить рекомендациям. Она повысит близость с теми, кто оценил этот фильм, а те, кто такое даже не смотрит, понизятся в списке друзей по интересам. Что и подтвердил эксперимент. Конечно, если фильм оценили все 300 друзей по интересам, то оценка будет полезной в любом случае. Но такого не бывает. Проблема в том, при какой части высоких оценок друзей по интересам удалять низкую оценку. Ведь если вы поставили 4, то близость упадет с теми, кто оценил и на 7, и на 1. Но хотелось бы просто не заморочивать себе голову и ставить все оценки всем фильмам. Для этого хорошо бы при оценке близости не учитывать те фильмы, по которым высшая из оценок двух пользователей 5 и меньше. Ну, можно снизить планку до 4 и меньше |
|
![]() |
![]() |
![]() |
#9 |
Новичок
Регистрация: 01.03.2010
Сообщений: 22
|
![]()
Предлагаю имхо адекватную и простую формулу вычисления "близости интересов":
100-11.11*S где S - это средняя арифметическая разность оценок всех общих фильмов. Примеры: 100-11.11*2.4=73.34% 100-11.11*0=100.00% 100-11.11*9=0.01% Последний раз редактировалось Zulenium; 02.03.2010 в 12:26. |
![]() |
![]() |
![]() |
#10 | |
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]() Цитата:
Если б нормально считалась близость, может и не было бы шантропы |
|
![]() |
![]() |
![]() |
#11 |
Свой
Регистрация: 18.07.2009
Адрес: еще не живу
Сообщений: 92
|
![]()
Ваша формула не учитывает количество общих фильмов, хотя возможно это не обязательно, если просто вводить начальные условия, но ИМХО, по Пирсону лучше, так как с ростом количества общих фильмов возрастает объективность рекомендаций конкретного пользователя, и я предпочту 75% по 500, чем 80% по 100.
Последний раз редактировалось Dogmat-igwt; 02.03.2010 в 23:07. |
![]() |
![]() |
![]() |
#12 | |
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]() Цитата:
Указанный Вами недостаток (с которым не соглашаюсь), отпадает, если посмотреть на список друзей по интересам. Чем меньше близость, тем больше предпочтение отдается пользователям с большим количеством общих фильмов. Кроме того, существует фильтр друзей по интересам, где каждый пользователь поставит такой порог общих фильмов, какой захочет. По-моему эта формула практически идеальна. Хотя, конечно, не верю, что что-то измениться ![]() |
|
![]() |
![]() |
![]() |
#13 | |
Новичок
Регистрация: 01.03.2010
Сообщений: 22
|
![]() Цитата:
Пресловутая формула Пирсона не перестаёт меня удивлять: с братом 72 общих фильма, средняя разность оценок 0.88, а близость выдаётся 54% ![]() Очевидно же, что должна быть выше 90%. Это ж получатся, что куча реально близких по интересам людей вообще никак не пересекаются в КП и не видят обоюдных рекомендаций и оценок. ![]() upd: Есть вариант - сделать для пользователей опцию выбора формулы. Можно так их и назвать "Сложная" и "Простая". Последний раз редактировалось Zulenium; 03.03.2010 в 16:54. |
|
![]() |
![]() |
![]() |
#14 |
Свой
Регистрация: 18.07.2009
Адрес: еще не живу
Сообщений: 92
|
![]()
По формуле Пирсона близость варьирует от -100% до 100% на сколько мне известно (не ручаюсь, могу путать с другой формулой, которую всегда считал формулой Пирсона), поэтому, если это так, то 54% эквиваленты 72% от 0 до 100.
|
![]() |
![]() |
![]() |
#15 | |
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]() Цитата:
Ответом был „Коэфф. Пирсона” Но так как его результатом не может быть оценка, то предположил, что по этому коэффициенту может рассчитываться только близость. Действительно, результат по коэффициенту может изменяться от -1 до 1. А как эту близость определяют, пес его знает Небольшое замечание - на сайте не существует близости со знаком "-". Соответственно, 54% и есть 54%, а не 72% Зы: надеюсь, Zulenium не обижается, что я постоянно так нагло вмешиваюсь в обсуждение его предложения ![]() Последний раз редактировалось vvtt; 03.03.2010 в 22:30. |
|
![]() |
![]() |
![]() |
#16 | |
Perfect cinema site user
Регистрация: 15.01.2006
Адрес: Moscow Region
Сообщений: 11,631
|
![]() Цитата:
Вот, к примеру, есть у меня друзья на КиноПоиске, у которых 5-6 баллов - это вполне такое среднее и смотрибельное кино, тогда как у меня - это однозначно плохой фильм. Мне всего лишь нужно осознать, что их 5 баллов - мои 7-8, после чего я смогу спокойно относиться к их оценкам. Е=mc2, и все такое ![]() |
|
![]() |
![]() |
![]() |
#17 |
World Community Grid
Регистрация: 08.09.2007
Сообщений: 1,728
|
![]() |
![]() |
![]() |
![]() |
#18 | |
World Community Grid
Регистрация: 08.09.2007
Сообщений: 1,728
|
![]()
Немного поигрался с оценками(сам архитектор ранее благославлял на такие игры), смотрел как изменяется близость.
Цитата:
В первых 4-е перестановках число общих оценок - 30 штук. Различие в 1 оценке на 1 балл, я оценил выше - 97.98%, ниже - 97.55% Различие в 10 оценках на 1 балл, я выше (моя 7, его 6) - 98.20%, ниже (моя 5, его 6) - 86.60% Различие в 1 оценке на 9 баллов, я выше (моя 10, его 1) - 0.86%, ниже (моя 1, его 10) - 0.86% Различие в 2 оценках на 9 баллов, в одном случае моя 10 - его 1, втором: моя 1 - его 10. Итог - 37.37%. Как-то чисто логически не сходится с тестом выше. Далее сократил количество совпадающих оценок до 10.., как оказалось, зря, близость не захотела рассчитыватся, поэтому стал увеличивать количество совпадающими оценками, и вот что вышло в результате: 22 оценки, 5 совпадают, 5 штук с разницей 9 баллов (мои 1, его 10), 12 штук с разницей 9 баллов (мои 10, его 1), и близость.. 99.38%. ![]() Методом тыка удалось выяснить - близость начинает рассчитыватся/выводится после 20 оценок. В результате совершенно противоположных оценок, удалось достичь 100% близости. Оказывается, можно и так. ![]() Последний раз редактировалось Ustas.SSR; 04.03.2010 в 02:21. |
|
![]() |
![]() |
![]() |
#19 |
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]() |
![]() |
![]() |
![]() |
#20 | |
Новичок
Регистрация: 01.03.2010
Сообщений: 22
|
![]()
Наоборот, я рад.
![]() Цитата:
Ну уж не настолько больше, тем более с учётом небольшого процента тестеров. Спасибо, кстати, за эксперимент! Теперь может и смысла нет ставить опционально две формулы. ![]() Последний раз редактировалось Zulenium; 04.03.2010 в 14:58. |
|
![]() |
![]() |
![]() |
#21 |
Свой
Регистрация: 18.07.2009
Адрес: еще не живу
Сообщений: 92
|
![]()
На другом, очень симпатичном мне сайте имеется способ подсчета с помощью статистической корреляции. Вот так это примерно выглядит: корреляция
Легко заметить, что формула, суть, аналогична предложенной ранее, только считается от -1 до 1. Остается выяснить, какие там коэффициенты. PS: Ustas-у отдельное спасибо, удивительно, что мне самому это в голову не пришло, сейчас больше внимания уделял расчетной формуле топа. Возможно не в Пирсоне дело, а просто ошибка в алгоритме кинопоиска? Последний раз редактировалось Dogmat-igwt; 04.03.2010 в 17:44. |
![]() |
![]() |
![]() |
#22 | ||
Свой
Регистрация: 03.09.2009
Сообщений: 53
|
![]() Цитата:
И еще меня это смущает Цитата:
В примере Ustas.SSR пропорциональность 100%, а близость должна быть 0% О, здесь еще интересные вещи написаны. "По определению, выбросы являются нетипичными, резко выделяющимися наблюдениями... Поэтому единичный выброс ... способен существенно изменить наклон прямой и, следовательно, значение корреляции... Некоторые исследователи применяют численные методы удаления выбросов. Например, исключаются значения, которые выходят за границы ±2 стандартных отклонений (и даже ±1.5 стандартных отклонений) вокруг выборочного среднего." Вот это дела! Большой разрыв по оценке может быть интерпретирован как "выброс". Поэтому он не учитывается. Теперь понятно, почему при увеличении разрыва "близость" (или точнее пропорциональность) может возрастать. Последний раз редактировалось vvtt; 04.03.2010 в 18:26. |
||
![]() |
![]() |
![]() |
#23 |
Новичок
Регистрация: 01.03.2010
Сообщений: 22
|
![]()
Можно добавить например такое влияние Количества общих фильмов:
100 - 11*S - 100/К Отрицательный результат приравниваем к нулю. Последний раз редактировалось Zulenium; 05.03.2010 в 11:51. |
![]() |
![]() |
![]() |
#24 | |
Свой
Регистрация: 18.07.2009
Адрес: еще не живу
Сообщений: 92
|
![]() Цитата:
Выражаюсь не совсем ясно, но могу потом поподробнее с раскладкой, если кому интересно... А Юстас молодец, админы, наверное, тоже в шоке от таких раскладов, потому что молчат. ![]() Последний раз редактировалось Dogmat-igwt; 05.03.2010 в 20:38. |
|
![]() |
![]() |
![]() |
#25 |
World Community Grid
Регистрация: 08.09.2007
Сообщений: 1,728
|
![]() |
![]() |
![]() |
![]() |
|
Здесь присутствуют: 1 (пользователей: 0 , гостей: 1) | |
Опции темы | |
Опции просмотра | |
|
|