Ура за Серги, Data Science Society и #Datathon2018

OLYMPUS DIGITAL CAMERA

OLYMPUS DIGITAL CAMERA

Data Science Society – опиши го в едно изречение, за да се запознаем с вас?
Data Science Society е доброволческа общност, която за последните три години успява да популяризира успешно сферата на Data Science чрез множество инициативи като тематични срещи за споделяне на знания в областта, workshop-и, работа по дългосрочни иновативни проекти в сферата и участия в международни конференции. Data Science е инициатор на Data хакатоните в България, сред които е и Hack the Fake News.

И две думи за теб самия, моля :)
Аз се занимавам с данни и тяхната обработка повече от 10 години, като съм преминавал през различни позиции. Ръководих няколко екипа и завърших MBA в Австрия преди 4 години. След това започнах да работя по реализирането на различни мои проекти. Единият от тях е ShopUp – платформа за анализ на поведението на потребителите в големи молове и закрити търговски обекти, използвайки различни технологии. Другият по-дългосрочен проект е Data Science Society, за който ще разкажа повече.

Задава се Дататон-а през февруари – какво ще се случва, кой е поканен?
#Datathon2018 е практическо образователно предизвикателство, свързано с обработка и анализ на данни. Това ще е третото издание на Data хакатона, като този път казусите ще бъдат предоставени от Telenor, Receipt Bank, Ontotext, Kaufland, VMWare, ZenCodeo and А Data Pro. Теоретици и практици ще имат възможността да се възползват от облачните услуги на Amazon, IBM, Microsoft и за пръв път в света комуникацията и работата по време на Data хакатона ще се случва не само физически, но и виртуално. До сега имаме заявили участие представители от Германия, САЩ, Канада, Дубай и др.

Как минаха предните подобни събития? Най-любопитното за теб самия от тях?
Първият Datathon се проведе преди една година и постигна голям успех. Всички се забавлявахме много имаше над 15 казуса и около 80 участника. Следващиятот Data Science хакатоните беше в насочен към решаване на един конкретен казус, а именно Hack The FackNews. Предизвикателството беше да се изработи модел за разпознаване на фалшиви новини и също се получи много добре. Чисто за мен вторият Datathon беше много обогатяващ. Успях да работя с неструкторирани данни, текст и научих доста. Вече смятам, че спокойно мога да правя доста по-сложни неща с текст и определено мога да решавам по-заплетени задачи в този домейн.

Как се променят данните и как данните променят обществото ни?
:) Много хубав въпрос. Данните като тип и форма се променят много и поне аз виждам две направления. Едната посока е отварянето на обществените данни с проекти като Open Data Goverment, а другата е събиране на по-голям обем от данни, които до описват по-прецизно физическото ни поведение и навици – offline поведението ни. Пример за нещо такова е използването на различни IoT технологии и сензори. Проектът ми ShopUp е насочен точно натам. Подобно на Google Analytics, но за физически обекти, ние даваме възможност на моловете да познават по-добре поведението на своите потребители.

Как биха ни променили? Няколко насоки – от една страна ще сме по-добре информирани, а от друга – все повече ще губим нашата независимост. Както се казва, има компании, които вече ни познават много по-добре от нашите родители.

Кое те мотивира да се занимаваш с данни?
Аз съм човек, насочен към практиката и това, което ме пали най-много, е че мога да решавам всякакви “налудничави” проблеми, като понякога се налага да използвам нестандартни подходи за разрешаването на невъзможни казуси. Другото е че постоянно уча и когато направя нещо, то това има някакъв смисъл, форма и дори изглежда като продукт.

Какви надежди възлагаш и какво пожелаваш за събитието през февруари?
Надеждата ми е да се получи готино и забавно събитие. Очакваме хората да се заразят или по-скоро те нас да заразят с ентусиазъм и желание да учат по един по-различен, но много по-ефективен начин, а именно сблъсквайте се с реални проблеми, подкрепени от експерти и известни международни ментори.
Искаме да си пожелаем всеки един участник да вземе нещо със себе си от това събитие, независимо дали това ще са много нови знания, контакти, интересни преживявания, или просто възможността да се докосне до духа на нашите събития. Разбира се, това зависи от тях. Вярваме, че по този начин спомагаме за развитието на домейна Data Science и го правим много по-достъпен за една по-широка аудитория.

Успех за Серги и екипа на #Datathon2018

 

Колко полезни са #OpenData за теб, за мен, за всички. Боян Юруков

0766086001439535334_489955_600x458

Нали познавате Боян Юруков (http://yurukov.net/blog/)? Вероятно като блогър, граждански активист, любител на фактите. Много, много неща може да се кажат за Боян (ама наистина е от тези доста действащи и вдъхновяващи личности)! Тук, в продължение на темата за отворените данни, защото я намирам за изключително важна в етапа на развитие на демокрацията в България, продължавам серията интервюта и след Теодора Гандова и Божидар Божанов е ред на Боян.

От къде възникна големия ти интерес към отворените данни?
Трудно ми е да посоча в каква връзка точно съм осъзнал ползата от тях. Навярно покрай регистъра за безследно изчезнали Lipsva, когато осъзнах, че няма място, където да се получи надеждна и навременна информация за случаите на изчезнали. По същото време се рових доста и в статистиката на НСИ и различни отчети на институциите. Видях колко нюанси имат данните и колко е важно да се знае методологията на събирането им и условностите свързани с нея. Най-важното обаче е да са въобще достъпни, тогава, преди 7 години, това въобще беше така. Докато при случаите на изчезнали и издирвани напредък изцяло липсва, виждаме все повече отворени данни в много други институции. Особено в последните две години.

Най-търсените при теб (в блога ти) статии и визуализации с отворени данни по коя тема са?
По брой общо посещения – навярно статиите за родените българчета в чужбина, за секциите в чужбина и последно – за жертвите от ЖП катастрофите. Сериозен интерес имаше към анализа на данните от Фонда за лечение на деца. Щеше ми се да има доста повече да има внимание и към графиките за замърсяването на въздуха и демографията. Има обаче теми, за които пиша, където и 500 посещения са много, тъй като сферата на хората, които се интересуват от това е доста малка. Пример за това са географските данни на страната, визуализацията на регистрираните кучета в Пловдив и други.

Какво още може да се направи, за да се отворят повече данни на повече институции у нас?
Няколко неща са. На първо място трябва да се започне със солиден пакет от данни, които да се отворят и смеят да твърдя, че това вече е направено. Второ, трябва да има ясни изисквания и стандарти за софтуерните системи и процеси. По тази точка е поставено добро начало. Не на последно място обаче, трябва да се покаже както на обществото, така и на служителите, че отворените данни са полезни в ежедневието и работата им. Това е работа на неправителствените организации и журналистите, но държавата може да има значителна роля чрез хакатони, състезания и грандове. Поне това показва опита на държави като Великобритания, Германия и САЩ. Видимостта на нуждата и ползите от тази прозрачност и свързаност ще накарат самите служители да гледат на отворените данни не като на поредното хрумване и ПР акция на политическото ръководство, което временно се е намърдало на трона, а на неизменна стъпка от работата им която всъщност улеснява всичко останало. Някои вече виждат това, тъй като работата им куца от липсата на достъпни данни между частите на самата администрация. Други ще се опитат да блокират отварянето на данни, защото ги смятат са своя собственост или просто защото ще станат излишни като се автоматизират справките, които те досега са правили на ръка. Разпознаването на едните от другите и давайки добри инструменти в ръцете на първите ще е ключът към въвеждането на отворените данни в администрацията. Това не само ще ускори работата им и ще спести пари от бюджета, но и ще направи отварянето на данни в обществения сектор устойчив процес. Данните, които получаваме от администрацията трябва да са страничен ефект от подобрената работа, а не просто допълнителна услуга.

Липса на желание, липса на грамотност или укриване на факти, според теб, е основния мотив да не се случва лесно този процес?
От всичко по малко. Има наистина хора в администрацията, които умишлено искат да блокират прозрачността, но в по-голямата си част говорим за липса на ресурс или желание да се свърши поредното задължение, с което са натоварени служителите. В не по-малка степен процесът боксува заради смесените сигнали от ръководството и непостоянните усилия в посока отворени данни. Освен, ако отворените данни и информационната свързаност не се превърнат в норма, качеството и достъпността на публичната информация ще си останат просто прищявка на конкретния чиновник или политика на ръководен пост. Такива са, например, общо взето всички регистри в Министерството на здравеопазването.

Какви ползи може да има бизнеса от отварянето на данните и можеш ли да илюстрираш с реални примери от чужбина?
Отворените данни идват с големи обещания, което прави неизбежно разочарованието. Несъмнено има доста преки ползи от тях, като нишови приложения и информационни услуги. В по-голямата си част обаче те служат за основа на много други дейности. Пример за това са анализите не PWC и The Guardian базирани на отворени данни. Все повече компании за сравнение на имоти, коли, образование, застраховки и услуги използват публични отворени данни, за да подобрят точността си. Дори компании като Monsanto и Dupont разчитат на отворени данни, за да анализират по-добре реколтите. Компании в различни сектори използват публичната информация в управлението на риска. Много от приложенията, които използваме на телефоните си използват в една или друга степен отворени данни за времето, трафика, географски данни, замърсяването, статистика и прочие. Отворените данни все повече се превръщат във информационна инфраструктура, която подпомага частния сектор по аналогичен начин както магистралите и оптиката. Макар шепа компании да печелят пряко от отворените данни на администрацията, те ще помогнат на много други да подобрят услугите си.

Какво пожелаваш на България за 2017-та?
Повече решения базирани данни, по-малко сензации от екрана без връзка с реалността. Повече журналисти и чиновници с базово ниво на грамотност в обработката на данните, по-малко хартия и печати. Най-вече, да ускорим напредъка, който видяхме през 2016-та, а не да се връщаме назад.

Ако не сте чели при Боян последните му неща – доооста любопитни (както всеки негов пост):
Няколко интересни числа за българите в Германия

Колко опасен е ЖП транспортът в България

Равенството между половете по заетост и заплати

Колко полезни са #OpenData за теб, за мен, за всички. Божидар Божанов

0226140336-bozhidarbozhanov

Божидар Божанов – вероятно го познавате като блогър (https://blog.bozho.net/) и като един от най-големите защитници на отворените данни у нас, както и експерт по отворени данни, електронно управление и лични данни, електронна идентификация.

С това интервю с Божо продължавам изключително важната за цялото ни общество тема за отворените данни и институциите. Защото именно прозрачността може да върне доверието в тях.

Какво са отворените данни?
Държавната администрация събира всевъзможни данни във връзка с дейностите, които извършва – събира данните за проведените обществени поръчки, за качеството на въздуха, за регистрираните автогари, за външното оценяване в средното образование и т.н. Тези данни логично принадлежат на обществото, което ги е платило с данъците си, затова държавата трябва да ги “отваря”. Но за да могат да бъдат използвани от компютърни програми, които могат да анализират големи масиви от данни, те трябва да са във формат, който компютърът може да прочете лесно. Една таблица в сканиран PDF, например, представлява трудност за компютъра. CSV (ред/колона, като данните на всеки ред са разделени със запетаи) е правилнен формат за отварянето.

Защо всеки гражданин има полза от това да знае какво са и да иска да има
повече отворени данни от институциите у нас?
Защото това открива възможности. Възможности за откриване на корупционни схеми, възможности за оптимизиране на работата и разходите на държавата, възможности дори за бизнеса. Няколко примера: във Великобритания “здравната каса” плаща лекарствата на пациентите. След като отваря данните за това, едно НПО прави анализ и става ясно, че ако се покриват само генеричните лекарства, ще бъдат спестеми милиони. Друг пример: до момента всички компании, правещи софтуер, който издава фактури, трябваше да прекупуват данни за регистрираните фирми, което им струва пари. С отварянето на данните на Търговския регистър, този разход за бизнеса отпада. А с отворените за обществени поръчки можем да видим кои фирми (и “чии” фирми) печелят най-много поръчки в дадени сфери или на дадени възложители, и да фокусираме вниманието върху това.

Кои данни не бива да се отварят, според теб?
Данни, свързани с националната сигурност, както и данни, които съдържат чувствителни данни – например история на заболяванията на гражданите, или пък данъчно-осигурителната им история.

Кои са основните препъни камъни в този процес, от твоя опит?
Основните проблеми са няколко – липсата на автоматизирани информационни системи, в които се събират данните, или когато има има – тяхната остарялост и невъзможност да извадят данни. Лошото качество на събраните данни – администрацията събира само данни, които нормативно трябва да събира, което не винаги е достатъчно. Например когато в списъка на училищата няма идентификационен номер (Булстат) на училището, при смяна на името губим връзката между резултатите на това училище през годините. Третият проблем е липсата на разбиране какво са отворените данни и ниският капацитет за работа с тях – както в администрацията, така или извън нея. За голяма част от администрацията “качихме PDF на сайта си” са отворени данни (макар те да не са машинно-четими), а много рядко медиите и НПО-сектора имат капацитета да използват отворените данни.

Може ли бизнеса да има полза от отворените данни?
Горният пример с Търговският регистър е един начин, по който бизнесът вече използва отворените данни. Но има много други – ако например данните за сделките за имоти бяха публични (без да се разкрива самоличността на страните), можеше брокерите да правят анализи и прогнози на движението на пазара. Данните за регистрираните МПС-та по марка и модел могат пък да помогнат на автосервизите с планираните доставки на авточасти. И още много други.

Ти самия кой тип информация би искал да видиш вече отворен и достъпен?
Всяка. С отворените данни човек никога не знае откъде ще изскочи нещо полезно. Привидно незначителни масиви от данни могат да бъдат ключови за даден анализ, прогноза, софтуер или цял бизнес. По-скоро бих искал качеството на данните да се повиши – както при тяхното събиране, така и при предоставянето им. Затова сме заложили изисквания към всички информационни системи, които администрацията ще си поръчва оттук нататък, за да имаме “отворени данни по подразбиране”.

Какво пожелаваш на България за 2017-та?
Повече решения, взети на база на данни, и по-малко такива, взети само на база на “вътрешно усещане” (или пък на “външни мотиватори”). Както на ниво държавно управление, така и в други сфери на обществения живот. Защото ако вземаме грешни решения, въпреки, че имаме данните, на база на които да вземем правилните решения, то пропускаме огромни ползи – ползи, които други държави и други бизнеси може и да не пропуснат.

Ако сте пропуснали интервюто по същата тема с Теодора Гандова – тук е.

Колко полезни са #OpenData за теб, за мен, за всички. Теодора Гандова

15645164_10211138055996650_478891969_n

Теодора Гандова е един от малкото ярко изявени поддръжници на отворените данни у нас. И един от хората, допринесъл за наистина големия развой в положителна посока за отварянето на данни и у нас. Работи в НПО Линкс, където заедно с колегите си популяризират ползите и нуждите на обществото, гражданите, бизнеса от отварянето на данни.

Наскоро Теди гостува при студентите ми в НБУ и реших, че темата не само е важна, но и любопитна за всички нас и е нужно да стартирам серия интервюта с хората, свършили доста работа, за да минем от над 50-то до 16-то място в момента в света по отворени данни на институциите. Да, България е вече 16-та по отворени данни!

Ето какво си поговорихме с Теди:

Как само в едно изречения и простичко обясняваш както е Open data на хората?
В процеса на своята работа, публичната администрация създава и събира данни, които впоследствие публикува във формат и лиценз, които позволяват свободното им, безплатно и повторно разпространение и употреба от всички.

Какво се случи в последните 2 години, за да минем до 16-то място по отворени данни?
През последните две години се създаде общност от активисти за отворени данни, която включва както екипа от Министерски съвет, който има ключова роля „за доставката“ на данни, така и представители на граждански организации, бизнес, медии и научни среди.
В рядко за България взаимодействие всички ние успяхме с конкретни действия и последователност да популяризираме инициативата за отваряне на данни. Към момента има публикувани 1485 бази данни от централни и местни институции, появиха се приложения, визуализации и онлайн инструменти, разработени от граждани, НПО и медии.

Този прогрес оценява ли се в обществото ни?
Темата е сравнително нова за обществото ни и все още е тесен „кръгът от посветени“, но хората използват различни услуги, базирани на отворени данни, без да знаят подробности за лиценза, формата под който са публикувани.

Вижда ли вече бизнеса реални ползи от отворените данни?
Бизнесът има интерес към отворените данни, но все още в сферата на рекламата и комуникациите, все още няма примери за стартирал бизнес изцяло базиран на отворените данни, публикувани от държавата.

Дай моля  интересни примери за практическото приложение на отворените данни?
За това как отворените данни помагат в ежедневния живот на хората, бих искала да дам пример с визуализацията http://www.opensofia.info/4/page.html, която НПО Линкс разработи за това как софийските училища се справят. Тя представя успеваемостта на всички училища в столицата на базата на резултатите от националното външно оценяване след 7 клас, което помага от една страна на родителите при избор на училище за децата им и от друга на институциите да подобряват предоставянето на образователните услуги.

Какво пожелаваш на обществото ни за 2017-та?
Пожелавам инициативата за отворени данни в България да запази мястото си на гребена на вълната в Европа и все повече групи, бизнеси и организации да ги използват, за да видят реалните ползи от тях.

Повече информация на http://www.opendata.ngolinks.eu/