Данные становятся информацией, если есть основания считать их достоверными. Абсолютное большинство открытых материалов Интернет (как и многие книги) не проходят независимой экспертизы. Оценка достоверности содержащихся в них данных – проблема пользователя.

 

Применительно к научным публикациям оценка достоверности (независимая экспертиза) осуществляется в форме рецензирования (single blind или double blind) на стадии приёмки статьи. Её уровень (симулятивный, формальный, содержательный, профессиональный, жёсткий), главным образом, и определяет научный авторитет журнала. Формализованным измерителем авторитета журнала является цитирование опубликованных в нём статей. Корректный учёт цитирований статьи (научного документа) предполагает наличие представительной по отношению ко всему множеству научных документов базы, которая содержит, как минимум, библиографические данные этих документов (индексирует их).

Наукометрия – это, в сущности, система показателей, построенная на сопоставлении библиографических данных: количества публикаций и их цитирований. Такие формализованные показатели, разумеется, не являются исчерпывающими, но в современной массовой и коммерциализованной науке их важность общепризнана.

 Индексация научных документов, БАЗЫ, наукометрия

 Научные библиографические базы индексируют некоторое множество источников (оно может быть замкнутым, как в Web of Science Core Collection и Scopus, или открытым, как Google Scolar и РИНЦ). Авторитет таких баз определяется и поддерживается качеством индексируемых ими документов (контента базы). Библиографичеcкие базы не включают полных текстов документов (поэтому не связаны проблемами copyright), а содержат лишь их метаданные (библиографическую запись). Для научной статьи метаданные – это журнал, авторы, название, аннотация, ключевые слова, список цитированных источников. Библиографичеcкие базы сообщают о цитированиях документа или избранной группы документов в ЭТОЙ базе и вычисляют различные наукометрические показатели (статей, авторов, журналов, организаций), связанные с цитированием. Эти показатели могут отличаться как алгоритмически, например, 2-летний и 5-летний импакт-факторы (в Journal Citation Reports – сервисе на портале Web of Science), CiteScore, SJR и SNIP (в Scopus), g-индекс (в Google Scolar), индекс Хирша и т.д., так и численно для одного и того же алгоритма в силу различия контента, на котором этот алгоритм реализуется (например, импакт-факторы в Journal Citation Reports и в РИНЦ могут отличаться в разы). Поэтому любой наукометрический показатель имеет смысл лишь при указании базы, на которой он вычислен. База может быть общедоступна (например, Google Scolar и РИНЦ) или доступна по подписке (например, Web of Science Core Collection, Scopus).

Вопрос о значимости того или иного показателя (и, соответственно, той или иной базы) при решении конкретных вопросов относится к сфере административной, а не наукометрической.

Поскольку любая система, будучи формализована алгоритмически (с открытым кодом), в естественных условиях замусоривается и допускает манипуляции (термин predator journals прочно вошёл в мировую практику), необходимы дополнительные меры по отбору источников и их фильтрации (экспертные или алгоритмы с закрытым кодом) для поддержания качества контента. Такие меры применяются в авторитетных библиографических базах при индексации источников (журналов и книг).

РИНЦ (общедоступна) – российская библиографическая база, созданная с целью максимально ПОЛНО отразить все публикации РОССИЙСКИХ УЧЁНЫХ. Поэтому (при соблюдении чисто формальных требований при загрузке) входной отбор источников и их фильтрация не проводится. Индексируются более 2000 текущих российских журналов, книги, сборники, труды конференций любого уровня. Данные по публикациям российских учёных в зарубежных журналах экспортируются из Scopus. Наукометрический инструментарий базы по разнообразию выводимых показателей является, пожалуй, беспрецедентным, поскольку строится параллельно на трёх подмножествах контента Научной электронной библиотеки (eLibrary), при этом вычисляется значительное число алгоритмически различных показателей. Показатели периодически пересчитываются, на пополняемом (загруженном) контенте. Поскольку требования полноты отражения и качества контента противоречивы, в современных условиях стремительного замусоривания базы (в том числе, с целью «накрутки» показателей) предпринята попытка «приподнять» авторитет базы, выделив при подсчёте показателей упомянутые выше три подмножества контента (три уровня): 1) весь контент eLibrary, 2) контент РИНЦ (где сохранены все издания, претендующие на научность), 3) ядро РИНЦ.

Ядро РИНЦ – около 600 российских журналов, отобранных в результате вполне разумной, хотя и небесспорной (смешанной формализованно-экспертной) процедуры. Причём сделано это с (пока лишь декларируемой) возможностью исключения журналов из базы по результатам мониторинга. Все наукометрические показатели вычисляются отдельно по ядру РИНЦ. Авторитет базы (по определению – только внутри страны) и рассчитываемых по ней показателей может выявить лишь время и российская административная практика. В качестве иллюстрации можно привести примеры, когда авторский индекс Хирша по РИНЦ равен 31, а по ядру РИНЦ – единице, импакт-фактор журнала по РИНЦ равен 0,879, а по ядру РИНЦ - 0,050. Бедность статистики цитирований – одна из угроз для востребованности базы.

Авторитетные библиографические базы призваны ответить на три группы вопросов:

  1. Биографические. Кто, где и когда опубликовал заслуживающий доверия результат?
  2. Библиографические. Где можно найти заслуживающую доверия информацию на заданную тему?
  3. Библиометрические (наукометрические). Как востребованы наукой те или иные результаты? Каковы формализованные показатели научной деятельности учёных и организаций?

В силу международного характера науки для корректного ответа на эти вопросы авторитетная база должна быть полидисциплинарной по содержанию и мировой по охвату. Современная авторитетная база (а это коммерческое предприятие) формируется на основе компромиссного разрешения противоречия между качественным отбором источников и объёмом контента базы. Пренебрежение первым ведёт к потере авторитета, сужение контента ведёт к уменьшению востребованности.

Авторитетность базы не гарантирует отсутствия в ней мусора, шума (или ложной информации). Последнее возможно на уровне отдельных статей (например, отзыв статей, в том числе, из весьма престижных журналов происходит как по инициативе издателей, так и авторов). Но именно в виде исключений, так как качество журналов является в такой базе предметом мониторинга (формализованного и экспертного).

Web of Science Core Collection (доступна в ННГУ), отображаемая на портале Web of Science – исторически первая (идущая от «отца» наукометрии Ю. Гарфилда) авторитетная мировая библиографическая база, обладающая наиболее глубоким архивом и изначально проводившая НАИБОЛЕЕ ЖЁСТКИЙ качественный отбор источников (разумеется, не бесспорный). Она индексирует научные журналы, выходящие во всех странах мира и по всем областям знания. Журналы, не имеющие англоязычных версий (в частности, российские гуманитарные), представлены слабо. База разбита на 7 множеств (3 подбазы журналов, 2 подбазы трудов конференций и 2 подбазы книг по областям знания), поиск по которым можно вести отдельно. С 2015 года в базу было включено восьмое множество - ESCI (Emerging Sources Citation Index) из примерно 5000 журналов (из них – около 100 российских), импакт-факторы которых НЕ ВЫЧИСЛЯЮТСЯ. После этого по числу индексируемых журналов (в том, числе, российских) база приблизилась к Scopus. База идёт по пути расширения контента: в 2018 году в ESCI индексировалось уже около 7000 журналов.

При оценке глубины архива базы следует различать собственный и доступный конкретному пользователю архивы. Глубина собственного архива по указанным выше журнальным подбазам – 1970 г. и 1975 г., по конференциям – 1990 г., по книгам – 2005 г. Глубина же доступного архива определяется условиями подписки. Ясно, что вычисленные на основе собственного и доступного архивов интегральные наукометрические показатели, например, индекса Хирша, могут существенно различаться. В настоящее время в ННГУ (в рамках национальной подписки) доступны архивы с 1975 года.

Наукометрический инструментарий, относящийся к журналам, выделен на портале Web of Science в отдельный сервис - Journal Citation Reports (недоступен в ННГУ), из которого в базу Web of Science Core Collection по результатам запроса подгружаются лишь двух- и пятилетние импакт-факторы и квартиль журнала с конкретной просматриваемой статьёй. Journal Citation Reports – единственная мировая база импакт-факторов научных журналов (исчисляемых, разумеется, на контенте Web of Science Core Collection). Редакции Journal Citation Reports обновляются ежегодно 1 июля и отражают результаты цитирования в статьях предыдущего года издания. Так, редакция Journal Citation Reports-2017 (действующая до 1 июля 2018 года) отражает результаты цитирования в 2016 году. Такая неизменность показателей данного года повышает их авторитет. Контент, для которого в Journal Citation Reports рассчитываются наукометрические показатели, также расширяется: число журналов, имеющих импакт-факторы, увеличилось в 2017-2018 гг. с 11300 до 13500.

SCOPUS (доступна в ННГУ) – более молодая авторитетная мировая библиографическая база, индексирующая НАИБОЛЬШЕЕ ЧИСЛО источников. Здесь индексируются научные журналы, выходящие во всех странах мира и по всем областям знания, книги, труды международных конференций. Неплохо представлены журналы, не имеющие англоязычных версий (в частности, российские). В отличие от Web of Science Core Collection собственный архив при наличии подписки доступен целиком и не делится на подбазы, но его глубина меньше и он довольно «неровный» – сейчас с почти полным охватом по индексируемым журналам это примерно 1980 г. (по значительному числу источников – 1960 г., по единичным – середина XIX в.). Тем не менее имеются отдельные журналы, для которых глубина архива – лишь 1996 г. Вследствие автоматизированной процедуры загрузки данных в базу архивные записи для «старых» статей далеко не всегда полные: в некоторых присутствуют лишь название журнала и статьи с фамилиями авторов. Поэтому поисковый запрос будет выводить на эти статьи лишь по указанным атрибутам. В процессе формирования контента в базу попало некоторое количество мусорных источников, которые в последние годы фильтруются (индексация их в Scopus прекращается). Наукометрический инструментарий применительно к журналам представлен показателем прямого цитирования (CiteScore), по алгоритму близкого к импакт-фактору, взвешенного цитирования (SJR) и контент-обусловленного цитирования (SNIP), а также процентилем журнала (по данным SJR). Эти показатели вычисляются для ВСЕХ журналов, включённых в базу, и ежемесячно пересчитываются на меняющемся (загруженном) контенте. Из-за естественного запаздывания загрузки, показатели последних двух лет сравнивать некорректно (особенно в начале года): например, для журнала Chemical Reviews отражаемый базой в феврале 2018 года CiteScore 2016 равен 42,79, тогда как CiteScore 2017 того же журнала показывается равным лишь 15,38 (заметим, что в Journal Citation Reports все выводимые наукометрические показатели разных лет сопоставимы, так как рассчитываются один раз в год).

Scimago Journal & Country Rank (общедоступна) – рейтинговая база журналов (и стран), в которой сходный с импакт-фактором показатель (SJR) рассчитывается на контенте SCOPUS по алгоритму взвешенного цитирования. В соответствии с величиной SJR и предметной областью определяется квартиль журнала. Естественно, квартили многих журналов отличаются от определяемых Journal Citation Reports (иной контент, иное разбиение на предметные области, иной алгоритм учёта цитирований). Показатель SJR экспортируется и отображается в базе SCOPUS.

MEDLINE (доступна в ННГУ) – библиографическая база Национальной медицинской библиотеки США. Отражается на портале Web of Science. Индексирует около 5000 научных журналов из всех стран мира (а также книги) по медицине, живым системам, биофизике и биохимии.

Chinese Science Citation Database (CSCD) (недоступна в ННГУ) – первая не англоязычная база, интегрированная на портале Web of Science. Формируется Академией наук КНР и индексирует более 1200 национальных научных журналов по всем отраслям знания.

Russian Science Citation Index (RSCI) (недоступна в ННГУ) – близкая по контенту к ядру РИНЦ национальная библиографическая база, интегрированная на портале Web of Science. Библиографические записи даются в двуязычном виде. Поисковые запросы, вводимые прямым набором, могут делаться как в англоязычном, так и в русскоязычном виде.