Снова обновлена "Копилка" (21 января 2023 г.)

Дорогие друзья!

В восьмой модели автоматического распознавания видов, которая была запущена 19 августа 2022 г., были второй раз использованы новые критерии отбора видов для обучающего датасета: теперь минимальный порог равен не ста наблюдениям, а ста фотографиям.

Осенью 2022 г. был анонсирован новый алгоритм добавления видов в модель автоматического распознавания: примерно раз в месяц те виды, которые добрались до квалификационного порога, добавляются в модель без пересчёта включенных ранее видов. Это позволило заметно ускорить включение новых растений. Новая модель (v1.6, т.е. шестая ежемесячная порция обновлений) основана на данных, выгруженных из системы 11 декабря 2022 г. - в ней появилось 324 новых вида растений, в т.ч. 21 вид флоры России.

После этого дополнения модели, мы быстро сделали чистку "Копилки флоры России", поскольку в релизе был опубликован аккуратный перечень новых видов. Оказалось, что за прошедший месяц 19 из 300 видов копилки стали известны системе, и она их предлагает пользователям при определении снимков.

После обновления наш список снова включает 300 видов (правда, теперь гораздо более редких), по каждому из которых нужно набрать ровно 100 наблюдений. Мы оставили критерий "100 наблюдений" для удобства как гарантия того, что вид точно будет включён в очередную модель. После выхода обновлений мы будем регулярно менять виды, преодолевшие этот порог, на те, что находятся ниже по списку.


РАЗНООБРАЗИЕ ОБУЧАЮЩИХ НАБОРОВ

Ещё 20 видов пока не включены в модель, но по ним уже набрано больше 100 наблюдений. Вот их перечень (они не включены в копилку):

Acer truncatum (Клён усечённый)
Alchemilla cymatophylla (Манжетка волнистолистная)
Asperula supina (Ясменник низкий)
Bolboschoenus planiculmis (Клубнекамыш плоскостебельный)
Carpesium abrotanoides (Карпезиум полынный)
Eleocharis uniglumis (Болотница одночешуйная)
Euphrasia hirtella (Очанка волосистенькая)
Hesperis pycnotricha (Вечерница густоволосистая)
Hypericum erectum (Зверобой прямой)
Juncus triglumis (Ситник трёхчешуйный)
Meniocus linifolius (Бурачок льнолистный)
Noccaea praecox (Нокея ранняя)
Pilosella bauhini (Ястребиночка Боэна)
Populus simonii (Тополь Симона)
Pyrus ussuriensis (Груша уссурийская)
Quercus macranthera (Дуб крупнопыльниковый)
Salix saxatilis (Ива скальная)
Sigesbeckia pubescens (Сигезбекия пушистая)
Suaeda prostrata (Сведа простёртая)
Teesdalia coronopifolia (Тисдайлия коронополистная)

Этот перечень уже пару месяцев остается более менее стабильным: несмотря на преодоление пороговых отметок, они пока не включены в модель. Почему? Во-первых, недостаточная доля наблюдений исследовательского уровня (Alchemilla, Pilosella, Euphrasia, Eleocharis, Suaeda и т.п.). А, во-вторых, недостаточное разнообразие устройств: напрямую в релизах iNaturalist об этом не говорится, но Алекс Шепард в комментариях к постам рассказал, что наложены дополнительные ограничения на разнообразие источников, из которых поступают фотографии.

Например, Asperula supina (ясменник низкий) - эндемик Крымско-Новороссийской флористической провинции. По нему есть 113 наблюдений, но 35 из них поступили от Светланы Богданович (@svetlana-bogdanovich), а 25 от Екатерины Кашириной (@katerina_kashirina).

Другой пример: преимущественно арктический вид, проникающий по горам в Прибайкалье, Salix saxatilis (Ива скальная). По ней накоплено уже 126 наблюдений. Правда, они сделаны всего 19 участниками, и здесь также имеется высокая концентрация фотографий от топ-наблюдателей: Елена Андриянова (@elena_andriyanova) сделала 40 наблюдений вида, а Игорь Поспелов (@taimyr) - ещё 39.

При выгрузке обучающего набора фотографий из их метаданных берутся сведения, на какие устройства был снят тот или иной вид. К сожалению, точные значения пороговых отметок при этом не обнародованы. Если небольшое разнообразие устройств и наблюдателей не позволяет сделать обучающую выборку репрезентативной, то такой вид оставляется в сторонке для дальнейшего накопления данных. Такие ограничения вводятся потому, что, как показал эмпирический опыт, при обучении модель становится сильно зависимой от типа и марки устройств, на которые производилась съемка и, например, может узнавать какой-то вид, снятый на айфонах, но не видеть его на прочих фотографиях.

В любом случае, для выполнения такой задачи, как включение новых видов в модель компьютерного зрения, нужны усилия большего числа участников. Только общими усилиями можно сделать обучающий набор данных в меру разнообразным.

Где находится порог разнообразия обучающих выборок? Попробуем разобраться эмпирически на примере видов с небольшим числом наблюдений, которые были впервые добавлены в модель в январе 2023 г.

Чрезвычайно редкий вид флоры России, который был описан как реликтовый эндемик Тункинской котловины - мегадения Бардунова (Megadenia bardunovii). В дальнейшем, она была синонимизирована с редким азиатским видом Megadenia pygmaea. По ней имеется 67 наблюдений с фото от 7 наблюдателей: это ровно 100 фотографий. Распределение числа фотографий (не наблюдений) от отдельных участников таково: 62 штуки (@allaverkhozina), 22 штуки (@sergei_kazanovsky), 11 штук (@nina_kulakova), еще четыре наблюдателя сделали от 1 до 7 фотографий (про разнообразие устройств при этом ничего сказать не могу, но вряд ли оно было высоким). Такого распределения оказалось достаточным для включения в модель автоматического распознавания.

Другие примеры только что включенных видов, едва преодолевших порог в 100 фото:

Stipa glareosa (68 наблюдений, в т.ч. 64 RG; 20 наблюдателей)
Veronica telephiifolia (69 наблюдений, в т.ч. 68 RG; 38 наблюдателей)
Gypsophila pacifica (70 наблюдений, в т.ч. 65 RG; 26 наблюдателей)

Исключение видов из модели также происходит время от времени - как правило, в результате работы экспертов. Иногда оказывается, что массовое переопределение наблюдений приводит к тому, что фотографий для обучающего набора недостаточно, и такие виды исключаются из предложений компьютерного зрения. К сожалению, списки таких видов не публикуются, а только общее число по всем группам. В этот раз исключены 58 таксонов из-за изменений таксономии и 18 таксонов в результате массовых переопределений материала.

В ближайшее время мы сделаем новую большую выгрузку списка проекта "Флора России" на предмет их включения в модель. На 21 января 2023 г., у нас имеется 7821 вид с исследовательским статусом (т.е. без учёта гибридов и соотнесением внутривидовых таксонов с соответствующим видом). Вероятно, около 4000 видов уже включены в модель. Обзор будет опубликован через несколько дней.


ЗАЧЕМ НУЖНА КОПИЛКА (и как ей пользоваться?)

Цель копилки - максимально ускорить процесс сбора фотографий по видам, которым чуть-чуть не хватает для включения в модель автоматического распознавания видов. Эти фото будут использованы в следующем обучающем наборе. Все мы замечаем, что каждый раз модель становится всё более компетентной и редко допускает грубые ошибки.

Участники целенаправленно пополняют копилку, ориентируясь как на список видов (добавляя региональные фильтры), так и на карту, по которой мы можем глянуть на ближайшие точки видов-кандидатов и постараться сделать дополнительные наблюдения именно этих видов.

Региональные примеры

Крым: 67 видов

Подмосковье: 25 видов

Дагестан: 58 видов

Иркутская область: 34 вида

Приморский край: 75 видов

Камчатка: 40 видов

Эксперты могут участвовать в целенаправленной верификации/определении данных по отдельным видам, что поможет им пройти квалификационные пороги не только по общему числу наблюдений, но и по доле исследовательского уровня.

Именно первое включение вида в модель основано на наиболее чистом датасете фотонаблюдений, поскольку эти изображения вручную определены экспертами и наблюдателями (без учета мнения модели). Затем неизбежно начинают накапливаться ошибки, основанные на использовании подсказок, и обучение следующей модели хотя бы частично становится основанным на автоматически определенных фотографиях. Впрочем, обучающий массив при этом неизбежно растёт.


Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @vera_sokolova, @ev_sklyar, @alexandrtichonov, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @tr3gl_svg, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).

Posted on January 22, 2023 03:53 AM by apseregin apseregin

Comments

Правильно понял что съемка одного растения на 2 устройства, например телефон и фотоаппарат, или 2 разных фотоаппарата и размещение их в одном наблюдении позволят лучше распозновать растения

Posted by aleks-khimin about 1 year ago

@aleks-khimin, да, насколько я понял это должно помогать как формально (преодоление порога), так и по делу (качество автоматического определения)

Posted by apseregin about 1 year ago

в крымском списке есть "обыкновенное" наблюдение https://www.inaturalist.org/observations/40246420
Они тоже включаются или как-то случайно попадает?

Posted by katerina_kashirina about 1 year ago

@katerina_kashirina, обучение модели проводится в т.ч. по фоткам из культуры. В настройках "Копилки" наблюдения всех трёх категорий, имеющие фотки

Posted by apseregin about 1 year ago

Add a Comment

Sign In or Sign Up to add comments