Борислав Попов, мениджър проекти в "Онтотекст лаб": Дейността ни е по средата между науката и индустрията
"Онтотекст" (Ontotext) е лаборатория на "Сирма груп", която извършва научноизследователска дейност и разработва технологии, свързани с представяне на знания и компютърна лингвистика. Наскоро компанията представи на международна конференция за семантичен уеб в Атина (Джорджия, САЩ) платформа за семантично търсене и анализ на тенденции - KIM. Борислав Попов e ръководител на разработката на KIM.
------------------------
Г-н Попов, "Онтотекст лаб" е лаборатория за семантични технологии. Какво точно правите?
-Това, което правим, е някъде по средата между науката и индустрията. Опитваме се да разработваме технологии от ново поколение, които придават смисъл на ресурсите в интернет. Постигаме го чрез комбинация на технологии за анализ на текст и представяне на знания. Това предоставя на хората по-добър начин да се ориентират в огромното количество информация, да намират неочевидни тенденции в огромни количества ресурси, например текст.
Кой се ползва от вашите технологии?
- Те могат да се прилагат в най-различни области, а в някои случаи приложенията, базирани на тях, се ползват от широк кръг хора. Много често експериментираме върху новинарски статии. Направихме анализ на 1.2 млн. новини, който разпознава именувани обекти в новините - хора, организации, географски места и др.
Можем да търсим хора с мениджърска позиция в телеком компании в Западна Европа, която информация могат да ползват компании за човешки ресурси, както и хора, които се занимават с бизнес и искат да знаят кои са изпълнителните директори на телекоми в Европа. Можем да видим и как се променя във времето популярността на една компания, която е стартирала рекламна кампания и е вложила много средства.
Истински интересни резултати се получават, когато имаме страшно много текст, нечитаем за нормален човек. На конференцията в Америка направихме демонстрация на живо върху 1.2 млн. новини за последните 5 години. Това е мощно средство за анализ върху информация, несмилаема за всеки човек. То ни дава надежда, че семантичните технологии, бидейки по-сложни от тези за търсене в интернет, са способни да достигнат мащаба на едно голямо предприятие, документите, които се обработват в него и мащаба на световната мрежа.
Как става търсенето? "Онтотекст" дава технологията, а клиентът ви търси в предоставена от вас база данни?
- Ние предоставяме базата данни, както и софтуер, с който базата да продължи да се обогатява. Един пример - "Дневник" има огромно количество статии, които сами сте произвели, но и материали от други източници, които вземате предвид в работата си. Оказва се обаче, че това са само моментни снимки на реалността. Не можем сами автоматично да изваждаме тенденциите, не можем да правим анализ на причинно-следствените връзки, а тази технология ни помага да навържем събития, развивали се дълго време.
Прилагаме технологията освен в новините и в конкретни области - за цифрови библиотеки за компании, които се занимават с технически текстове. В "Бритиш телеком" има наша инсталация, която събира и категоризира статии, свързани с тяхната работа.
Приложима ли е технологията в областта на отбраната, вътрешните и външните министерства, разузнаването?
- Да, това винаги е било интересно и влиза в полезрението на много правителства. Имали сме интерес от правителствата на САЩ и на Индия, от Министерството на отбраната, но още нямаме проекти.
Често правителствата сами разработват подобни технологии. Дори големите производители на оръжие имат отдели, които се занимават точно с това. Преди няколко години имахме проект с такъв производител, пряко свързан с разузнаването на Великобритания. Проектът беше по-различен, но пак ставаше дума за анализ на текст, за да се проследят тенденции, които водят до тероризъм.
Наричате представянето си в Джорджия пробив, кое ви дава основание да смятате така?
- Пробив е, защото искаме да прилагаме технологията върху огромни мащаби и успяхме да покажем на живо демонстрация върху огромно количество текст с тежки, изчислително сложни технологии. Другата иновация беше да се покаже как върху толкова голямо количество текст могат да се правят анализи на тенденции, да се мери промяната на популярността на обекти във времето, да се търсят чрез проследяване на взаимното появяване на обекти в текстовете конкретни типове връзки.
Визията за семантичния уеб е измислена до голяма степен от хората, които измислиха и уеб. Идеята за уеб е била да се създаде огромна мрежа от информационни ресурси, които са разбираеми за хората, т.е. била е ориентирана само към хората. Успехът на технологията обаче води до пренасищане с информация и това затруднява ефективното й използване.
Какъв беше интересът към технологията ви, получихте ли предложения?
- "Онтотекст" участва в индустриалната част на конференцията, където се представят реални технологии. Отскоро научните конференции правят именно това - показват приложимостта на разработките. Сред посетителите забелязахме и гурутата в тази област. Много от хората проявиха интерес за сътрудничество. Получихме предложения за конкретни проекти, като детайлите по тях ще бъдат изчистени в следващите няколко месеца. Така че за нас това представяне беше голям успех.
Резултат на колко време работа е платформата ви за семантичен уеб?
- Става дума за работата на екип от петима души в рамките на 4.5 години. Инвестицията от страна на "Сирма" е доста голяма, но се опитваме да привличаме средства за основната си дейност, като прилагаме тези технологии в други проекти. Друг начин за финансиране през последните няколко години са програмите на Европейския съюз, където имаме повече проекти от Софийския университет и ТУ - София, взети заедно.
Участвали сме в десет проекта за последните три-три и половина години, а "Онтотектст" съществува от пет години. Партнираме си с академични организации и изследователски лаборатории на големи компании. Това ни дава признание в общността, защото нашият труд е по-евтин от труда на западноевропейските компании. От друга страна, големите компании не са съвсем отворени в тези проекти - те по-скоро пращат "ловци на технологии", като не искат да изпуснат нищо качествено, което може да се появи.
Какви специалисти работят в "Онтотекст"?
- Екипът ни е пъстър като квалификация и личности. Има "инженери на знание", които се занимават с изграждането на модели на света, които ние наричаме "онтологии". Други са компютърни лингвисти и се занимават с технологиите за обработка на текст за извличане на знание. Имаме и програмисти, които според задачите стават специалисти в една или друга научна област. Така че нашият подход е по-различен от този на научните организации. Ние вземаме добри софтуерни инженери и оттам нататък те са способни да учат нови неща.
"Сирма" единствената българска софтуерна компания ли е, която има научно звено?
- И други компании се занимават с изследователската дейност, но в моето полезрение никоя не е толкова видима. Не е възможно да се прогресира по друг начин. Дори само да има приложно звено, което търси интересни технологии, пак е нещо.
Напоследък много се говори, че липсва връзка между бизнеса и науката, а вие го постигате в рамките на една компания.
- Така е, но това е било наша цел. Тесни са връзките ни с академичния свят в България и в Западна Европа. Колкото по-силна става една компания, толкова повече трябва да подкрепя образованието. Времената са такива, че е много трудно да се намират качествени хора и е нормално да помагаш в изграждането им.
Какъв е вашият опит в намирането на хора? Внасяте ли кадри?
- Малко остана да вземем двама нови колеги сърби, но ги нае наш партньор - Шефилдският университет. Българските ИТ компании са консервативни към наемането на чужденци на работа. Липсва им мултикултурен модел на работа. Но този момент ще дойде и компаниите трябва да надскочат концепцията, че трябва да се работи само с българи. Много фирми правят друго - сключват стратегически партньорства с компании в по-бедни държави, където изнасят част от производството си на софтуер. Такива са Виетнам, Индия, Китай. Но това е въпрос на нужда и все по-често ще се случва заради недостиг на ресурс.
Ние сме спокойни, защото предлагаме нещо уникално на хората, които работят при нас, което не могат да получат не само в българска, но и в множество чуждестранни компании.
Каква е конкуренцията в областта, в която работи "Онтотекст"?
- Има интерес към нашата област, но не мисля, че някой е постигнал подобни резултати. Анализът върху текст се нарича семантично нотиране. Ако влезете в "Гугъл" и направите търсене по семантично нотиране, първият резултат, който ще излезе, е името на нашата компания. Компании в Корея, Германия и САЩ правят сходни неща. С някои от тях си партнираме, с други сме откровени конкуренти, някои са много по-добри от гледна точка на маркетинга.
Български фирми също търсят партньорства с нас. Нашият пазар макар и малък става все по-интересен. Интерес към нашите технологии проявяват различни компании - от новинарски агенции до интернет портали, които искат да правят нов вид търсене, което да конкурира "Гугъл" в българското уебпространство.