System do automatycznej analizy wypowiedzi

System do automatycznej analizy wypowiedzi klientów lub pracowników – wykorzystanie sztucznej inteligencji do analizy języka naturalnego.

Wojciech Szenic, Paweł Darulewski, Serhij Fuks

Rozwój technologii i myśli naukowej doprowadziły do ery sztucznej inteligencji (AI), uczenia maszynowego oraz big data. W rezultacie tego firmy wkraczają w czasy dające teoretycznie nieograniczone możliwości Wiąże się to jednak z koniecznością redefinicji oczekiwań, wymagań oraz dotychczasowego modelu pracy jednostek wewnętrznych w celu realizacji pełnego potencjału, który daje ta nowa era. Efektywne zastosowanie sztucznej inteligencji i uczenia maszynowego wymaga wdrożenia nieszablonowych rozwiązań oraz pozyskania nowych kompetencji. W głównej mierze dotyczy to jednostek, które znajdują się na pierwszej linii komunikacji z klientami lub pracownikami – działy obsługi klienta oraz działy zarządzające zasobami ludzkimi (HR). Od efektywnego funkcjonowania tych jednostek zależy sukces każdej organizacji, w której klienci oraz pracownicy znajdują się w centrum strategii rozwoju i przyszłego sukcesu każdej firmy. Na nich spoczywa ogromna odpowiedzialność za stworzenie stabilnego fundamentu firmy opartej na wiedzy i stanowiącej wzór do naśladowania w obszarze budowy organizacji data driven.

Nowy paradygmat działania – predykcja, jako źródło budowy przewagi konkurencyjnej
W erze big data postępy i zmiany rynkowe są tak szybkie, że trudno mówić o stałym otoczeniu rynkowym, a stałej przewagi konkurencyjnej praktycznie nie da się osiągnąć. Dlatego więcej uwagi należy poświęcić kształtowaniu zdolności reagowania na dynamiczne zmiany w otoczeniu. Wymaga to redefinicji organizacji pracy, elastyczności, zwinności, błyskawicznej reakcji na zmiany, opierania się na trafnym przewidywaniu różnych scenariuszy i przyszłych potrzeb oraz przeprowadzaniu ciągłych analiz typu „co, jeśli?”.

Dotychczasowy rynek usług IT mimo imponującego wzrostu w ostatnich dziesięcioleciach promuje praktyki, które zwykle skupiają się na analizie retrospektywnej, odpowiadając bardziej na pytanie „co się wydarzyło?”. Brakuje zazwyczaj zaprojektowania i wdrożenia modułów, które nie będą traktować docelowych odbiorców jako biernych użytkowników założonych w systemie parametrów i analiz, a będą pozycjonować odbiorców systemów IT, jako czynnych uczestników, biorących udział w kształtowaniu i wyborze źródłowych algorytmów.

Nie wystarczy jednorazowe ćwiczenie z zaprogramowaniem i doborem nawet najlepiej dopasowanych metod lub modeli analitycznych oraz parametrów wsadowych. Efektywny system, który ma służyć organizacji i budować przewagę konkurencyjną w stale zmieniającym się otoczeniu powinien żyć, być poddawany testom i eksperymentom oraz szukać odpowiedzi na pytania: co się wydarzy w przyszłości, jeśli zmienimy jakiekolwiek parametry? Jaką decyzję w związku z tym należy podjąć i czy jest to ekonomicznie uzasadnione?

Przełożenie potrzeby automatyzacji analizy opinii klientów lub pracowników na nowy paradygmat działania.
Jednym z najbardziej istotnych zadań, które wykonują jednostki obsługi klienta lub HR jest analiza opinii klientów lub pracowników oraz projektowanie i zdefiniowanie rekomendacji wprowadzenia zmian, wynikających z kategoryzacji i analizy dostarczonych opinii i informacji zwrotnych. Nowy paradygmat działania narzuca największe ograniczenia na dotychczasowy model pracy. Analiza i rekomendacje oraz reakcja organizacji na informację zwrotną powinny być wykonywane w sposób automatyczny i natychmiastowy a planowanie i egzekwowane działań powinno zawierać element predykcji oraz zrozumienia przyszłych potrzeb, uwag klientów czy pracowników.

Ostatnie narzuca konieczność poszukiwania rozwiązania, które będzie:
analizować automatycznie informację zwrotną otrzymaną we wszystkich możliwych kanałach elektronicznych: aplikacje komórkowe (Google Play / Apple Store), bezpośrednie opinie otrzymane droga e-mail lub innymi kanałami elektronicznymi.
a. kategoryzować sentyment wypowiedzi
b. segmentować wypowiedzi do natychmiastowej lub późniejszej reakcji oraz zaplanowania zmian i rekomendacji wewnątrz organizacji
c. minimalizować poziom nie skategoryzowanych odpowiedzi ze względu na błędy ortograficzne i stylistyczne lub specyfikę językową grupy docelowej z którą mamy do czynienia
zawierało możliwość predykcji wypowiedzi, które wniosą największą wartość informacyjną, prognozując tym samym pozytywne lub negatywne skutki dla organizacji
miało prostą architekturę i modułowość, niezbędną do łatwej i szybkiej integracji z wewnętrznymi systemami IT, osiągając płynność w działaniu całej organizacji
tworzyło i prezentowało automatycznie zdefiniowane statystyki zarządcze w postaci przyjaznych dashboardów dla różnych grup użytkowników wewnętrznych.
a. operacyjni użytkownicy
b. menedżerowie średniego i wyższego szczebla

Docelowe rozwiązanie: moduły i funkcjonalności, architektura oraz działanie systemu.
Odpowiadając na funkcjonujący obecnie standard działania , docelowe rozwiązanie składa się z następujących wydzielonych modułów:

Moduły analityczne
Moduł „A” – automatyczna analiza sentymentu
Moduł „B” – automatyczna kategoryzacja i klasyfikacja wypowiedzi
Moduł „C” – prognozowanie tych wypowiedzi, które wniosą największą wartość informacyjną
Moduły biznesowe
Moduł „D” – wzbogacenie modułów analitycznych poprzez interpretację biznesową i ludzką
Moduł „E” – alertowanie użytkowników biznesowych / priorytetyzacja działań
Moduł „F” – automatyczne raportowanie w technologii Business Intelligence
Moduły techniczne
Moduł „G” – pobranie, parsowanie i zapisywanie wypowiedzi w bazie danych
Moduł „H” – administrowanie scenariuszami odpowiedzi oraz pozostałymi kluczowymi parametrami systemu
Moduł „I” – usługi integracyjne z innymi systemami IT
Moduły analityczne
Moduł „A” pozwala na automatyczną analizę sentymentu wypowiedzi, stosując algorytm w oparciu o sieci neuronowe wyuczone na języku polskim – BERT (Bidirectional Encoder Representations from Transformers). BERT oraz jego odmiany stanowią obecnie najlepsze rozwiązania w dziedzinie przetwarzania języka naturalnego w wielu kontekstach, zwłaszcza w zakresie analizy sentymentu.

BERT umożliwia zastosowanie tzw. Transfer Learning – użycie wstępnie wyuczonej sieci neuronowej na innym problemie w celu redukcji czasu i obliczeń potrzebnych do stworzenia algorytmu o pożądanej jakości. Sieć neuronowa została wyuczona analizując znaczenie słów na, między innymi, polskiej Wikipedii czy zbiorze stron polskiego Internetu. Sam algorytm ma szerokie zastosowanie, potrafiąc odpowiadać również na pytania czy uzupełniać niekompletne zdania – na przykład wypowiedź “Adam Mickiewicz wielkim {X} był” zostanie uzupełniona słowem “poetą”. Algorytm zawdzięcza swoją skuteczność dzięki odkryciu interakcji między słowami oraz wyłonieniu znaczenia sekwencji słów zamiast pojedynczego słowa. Jest to szczególnie istotne w języku polskim, gdzie jedno słowo może zmienić całe nacechowanie zdania – na przykład słowo “nie” w zdaniu “nie podoba mi się”.

Moduł „B” zawiera algorytm, który poza analizą sentymentu dodatkowo kategoryzuje i klasyfikuje wypowiedzi według odpowiedniej tematyki, tworząc i zapisując dedykowane tagi (segmenty), odzwierciedlając tematykę która została poruszona w wypowiedzi. Algorytm kategoryzacji i klasyfikacji również opiera się o sieci neuronowe, uzupełniając sieć BERT o dodatkowe przetrenowanie w celu identyfikacji tematów, zamiast jedynie identyfikacji sentymentu wypowiedzi. Podobnie jak w przypadku analizy sentymentu, w tym module również zastosowany został Transfer Learning w celu osiągnięcia maksymalnych rezultatów z możliwie najmniejszym obciążeniem czasu i zasobów technicznych.

Ważnym aspektem wsadowo-analitycznym do modułów „A” i „B” jest przeprowadzenie i analizowanie błędów w wypowiedziach oraz poprawianie ich na słowa, które faktycznie istnieją w języku polskim. Analiza błędów w modułach „A” i „B” opiera się na rozwiązaniu hunspell, które z powodzeniem stosuje się produkcyjnie w tak znanych na świecie systemach jak Google Chrome czy systemach macOS. Biblioteka hunspell stanowi de facto standard w zakresie sprawdzania pisowni ze względu na łatwość adaptacji do różnych języków oraz wydajność rozwiązania. Hunspell korzysta z dystansu Levensteina, jako algorytmu podstawowego, jednak rozwija go o kolejne algorytmy współpracujące w celu uzyskaniu lepszych benchmarków w zakresie dokładności i wydajności działania.

Istotnym aspektem wbudowanym w moduły „A”, „B” oraz „C” jest możliwość dostosowania słownictwa do odpowiedniej domeny, czyli grupy docelowej, które dotyczą wypowiedzi. Na przykład, mogą być istotne słowa kluczowe lub zachowania, które powinny być uwzględnione, ponieważ dotyczą konkretnej sytuacji lub stanowią fundament na którym pracują odbiorcy. Istnieje również możliwość uwzględnienia specyficznych cech stanowiących integralną część w komunikacji elektronicznej: wykorzystanie emotikonów lub specjalnych zbitek (na przykład, zakończenia zdania „!!!”, itd.) oraz usunięcie „szumu informacyjnego”, w zakresie pomijania słów lub wyrazów, jako takich, które nie wnoszą żadnej wartości informacyjnej.

Moduł „C” zawiera algorytm, który ma na celu zaprognozowanie tych wypowiedzi, które wniosą największą wartość informacyjną dla współpracowników / pozostałych uczestników, tym samym będą służyć jako wskazówki zarówno dla odbiorców, jak i samej organizacji w celu priorytetyzacji własnych działań. W przypadku posiadania danych historycznych dotyczących oceny użyteczności wypowiedzi dla innych odbiorców, algorytm może być zbudowany zarówno według tradycyjnych metod statystycznych (na przykład, regresja logistyczna), jak i bardziej nowoczesnych metod (na przykład, lasy losowe), w tym metod użytych w modułach „A” i „B”.

Moduły biznesowe
Moduł „D” zapewnia, że niezależnie od skuteczności algorytmów stosowanych w analizie sentymentu oraz kategoryzacji i klasyfikacji wypowiedzi, zawsze istnieje możliwość, aby użytkownik w niektórych przypadkach mógł się nie zgodzić z podjętą przez algorytm decyzją dotyczącą wyników, tym samym stanowiąc również wsad do uczenia algorytmu poprzez doświadczenie i rozumienie szerzej perspektywy przez użytkownika.

W tym celu w systemie moduł „D” służy za interfejs, który pozwala na skorygowanie i wniesienie poprawek do algorytmów. Interfejs w tym module jest zbudowany w sposób, w którym użytkownik biznesowy w formie tabeli lub formularza może zaobserwować wyniki algorytmów oraz przekazać do systemu informację z którą odpowiedzią się nie zgadza wraz z uzasadnieniem. To rozwiązanie pozwala zarówno na zwiększenie zaangażowania użytkowników biznesowych, jak i znacznie ulepsza proces tworzenia kolejnych wersji algorytmów, zwiększając efektywność działania całego systemu. W sposób pośredni, moduł „D” jest również sposobem oceny adaptacji algorytmów do potrzeb biznesowych. Moduł pozwala na bieżące monitorowanie zgłaszanych uwag przez użytkowników biznesowych w celu monitoringu typów błędów w algorytmach oraz powodów ich wystąpienia.

Moduł „E” wspiera użytkowników biznesowych w priorytetyzacji zadań i reakcji na wypowiedzi, zwłaszcza tam, gdzie reakcja biznesowa nie pozwala na zbędną zwłokę z uwagi na konsekwencje biznesowe lub negatywne skutki wizerunkowe. Ostatnie może wynikać z prognozy wynikającej z modułu „C” lub istnienia innych przyczyn – na przykład, wypowiedzi mogą posiadać oprócz zwyczajnego negatywnego sentymentu (przykład: “aplikacja działa wolno”), informacje na które trzeba reagować bez żadnej zwłoki (przykład: “aplikacja się nie włącza a muszę zrobić przelew” lub “aplikacja bez powodu zablokowała moje konto!!!”). Moduł „E” zawiera zestaw dashboardów w technologii Business Intelligence, który segmentuje wypowiedzi, typując też te, które wymagają szybkiej reakcji. Priorytetyzacja bazuje na liczbowych reprezentacjach użytych słów i sekwencji. Szczególnie istotnymi zmiennymi wpływającymi na priorytetyzację jest wystąpienie kluczowych słów i zbitek (przykład: “natychmiast” lub “w ogóle” [w domniemaniu “w ogóle nie mogę się zalogować”]).

Moduł „F” przedstawia raporty i dashboardy zarządcze, które w zależności od docelowej grupy użytkowników biznesowych (operacyjni lub kadra zarządzająca) zawierają analityczne wyniki automatycznej analizy wypowiedzi w postaci lejka, przedstawiając statystyki w ujęciu dziennym / miesięcznym / rocznym / za wybrany okres czasu oraz pokazując trendy i zmiany w czasie: rozkład statystyczny sentymentu, kategoryzacja wypowiedzi, podsumowanie statystyczne poruszanych tematów i zagadnień. Oprócz tego w tym module, użytkownik biznesowy może wyświetlić konkretne wypowiedzi, które mieszczą się w danej kategorii lub grupie sentymentu (na przykład: negatywne lub te które mają odpowiednią ilość gwiazdek / ocenę w skali, itd.). Moduł „F” zawiera również przejście do poprzedniego modułu związanego z alertowaniem i priorytetyzacją działań. Dashboard i statystyki w module „F” aktualizowane są regularnie na podstawie ostatnio uzyskanych informacji – na przykład, w trybie dziennym co 5 minut. Wizualizacje i statystyki pozwalają na przeprowadzenie analiz porównawczych – na przykład, „jaki był sentyment przed wprowadzeniem zmiany” vs „jaki był po wprowadzeniu zmiany”, itd.

Moduły techniczne
Moduł „G” jest uniwersalnym modułem, celem którego jest pobranie oraz zapisanie w bazie danych wypowiedzi, które w dalszych krokach poddane będą automatycznej analizie przez moduły analityczne oraz biznesowe. Uniwersalność modułu polega na tym, że jest on przystosowany do automatycznego pobierania i zapisywania wypowiedzi z publicznie dostępnych źródeł, takich jak strony internetowe lub Google Play / Apple Store poprzez dedykowane narzędzie web-scrapingu, zapisując w bazie danych wszystkie niezbędne informacje dotyczące wypowiedzi. Alternatywą jest zdefiniowanie dedykowanego źródła danych, które będzie służyć do automatycznego wczytania oraz zasilenia wypowiedziami bazy danych.

Moduł „H” wspiera użytkowników biznesowych w tworzeniu automatycznych scenariuszy odpowiedzi dla zdefiniowanych wypowiedzi: użytkownik biznesowy zarządza w tym miejscu następującymi parametrami:
rodzaj sentymentu
segment wypowiedzi / tematyka
określone zagadnienia biznesowe zawarte w wypowiedzi
definiowanie scenariuszy automatycznych odpowiedzi nie wymagających działań użytkowników biznesowych

Jest to ważny moduł systemu, ponieważ pozwala na zastosowanie automatycznych scenariuszy odpowiedzi i reakcji organizacji, zwłaszcza wtedy, kiedy jest na to biznesowe uzasadnienie. Na przykład, w sytuacji kiedy wiemy, że wykorzystywana aplikacja lub rozwiązanie „działa wolno” i jednostki wewnętrzne pracują nad usprawnieniem usterki, może zostać wysłana automatyczna odpowiedź, że „rozumiemy i doceniamy informację zwrotną oraz pracujemy nad usunięciem usterki”. W tym module użytkownik biznesowy, definiując gotowe scenariusze odpowiedzi minimalizuje czas niezbędny na dobór odpowiedniej grupy docelowej oraz zwiększa istotnie poziom personalizacji oraz jakości obsługi.

Oprócz predefiniowania automatycznych scenariuszy odpowiedzi, w module „H” użytkownicy biznesowi mogą definiować wszystkie kluczowe parametry całego systemu, na przykład, parametry związane z alertowaniem użytkowników biznesowych:
Parametry niezbędne do zarządzania cyklem życia algorytmów
Reguły związane z przesłaniem automatycznej informacji do określonych grup użytkowników biznesowych

Warto zwrócić jeszcze uwagę na istotność Modułu „I” składającego się z usług, które w łatwy sposób mogą przekazywać wszystkie niezbędne informacje i dane z systemu do innych wewnętrznych systemów IT. Moduł ten służy również do uproszczenia procesu integracji systemu z pozostałymi systemami IT na których mogą pracować użytkownicy biznesowi.

Architektura oraz sposób działania systemu
Główny proces
Moduł „G” pobiera oraz zapisuje wypowiedzi według określonej struktury w bazie danych. Moduły „A”, „B” oraz „C” są wywoływane w ściśle określonym oknie czasowym (na przykład, co dwie minuty) tylko dla tych wypowiedzi, które nie posiadają oceny sentymentu oraz kategoryzacji / klasyfikacji. W rezultacie, każda nowa wypowiedź zostaje poddana automatycznej analizie i zastosowaniu algorytmów. Na bazie wykonania algorytmów wywołanych przez moduły „A”, „B” oraz „C”, użytkownik biznesowy dostaje automatyczną informację, wywołaną przez moduły „E” oraz „F”, który priorytetyzuje działania oraz wskazuje w jakim miejscu reakcja użytkownika biznesowego jest krytyczna i niezbędna. Jeśli wypowiedzi zostały sklasyfikowane przez moduł „H” do automatycznego scenariusza odpowiedzi, to użytkownik biznesowy jest o tym poinformowany zarówno w module raportowym „F”, jak i w innych systemach wewnętrznych poprzez wywołanie odpowiednich usług w module „I”. Wszystkie niezbędne informacje i wyniki są zapisywane w bazie danych i prezentowane w postaci raportów które są aktualizowane w określonym przez użytkownika biznesowego oknie czasowym w module „F”,

Procesy pomocnicze
Uczenie algorytmów poprzez wsad użytkowników biznesowych odbywa się poprzez moduł „D” wskazując, które wypowiedzi zostały błędnie skategoryzowane przez algorytmy podając również powód niezgodności z predefiniowanej listy słownikowej, zmieniając odpowiednio wyniki analizy sentymentu oraz kategoryzacji / klasyfikacji odpowiedzi. System przewiduje również możliwości wprowadzenia modelu Maker / Checker, w którym niezależny użytkownik biznesowy aprobuje zmiany służące douczenia algorytmów analitycznych. Użytkownik biznesowy o odpowiednich uprawnieniach podejmuje decyzję o tym, kiedy powinien nastąpić moment przeliczenia algorytmów oraz zaaprobować wersję algorytmów które będą po przeliczeniu stanowić podstawę modułów „A”, „B” oraz „C”. Istnieje możliwość wersjonowania algorytmów oraz zdefiniowania, która wersja algorytmu powinna być wykorzystywana.

Potencjalne wyzwania analityczne
Zazwyczaj przy wdrożeniu algorytmów / modeli analitycznych trzeba się liczyć z następującymi wyzwaniami, które wymagają szczegółowego zaplanowania jeszcze przed ich wystąpieniem:
niewystarczająca jakość modelu
odchylenie modelu dla nowej domeny
zaburzenia w danych spowodowane tymczasowymi problemami
dryf modelu spowodowany zmianą natury wypowiedzi

Podczas wdrożenia systemu, zwłaszcza w początkowej fazie, trzeba się liczyć z tym, że jakość modelu będzie niewystarczająca z punktu widzenia statystycznego lub nastąpi odchylenie modelu związanego z tym, że algorytm został nauczony na wypowiedziach innej grupy odbiorców. Oprócz tego potencjalne problemy z danymi, na których algorytm się uczy lub ze zmianami związanymi z odbiorcami (preferencje, gusty, percepcje, itd.) wskazuje na istotność zarządzania cyklem życia algorytmów wykorzystanych do oceny sentymentu oraz kategoryzacji i klasyfikacji wypowiedzi.

Z tego powodu, modułowość systemu i możliwość przeuczenia modelu oraz wdrożenie nowych wersji algorytmów na bazie wsadu użytkowników biznesowych powinna pozwolić z czasem osiągnąć oczekiwaną jakość, adresując wszystkie fazy cyklu życia algorytmów: przeliczenie modelu, aktualizacja modelu, wyłączenie starej wersji i włączenie nowej wersji modelu oraz stały monitoring w postaci dedykowanych raportów.

Podejście AMA Institute do wdrożenia systemu
AMA Institute Method – AMA AIM© polega na spersonalizowanym dopasowaniu rozwiązań analityczno-informatycznych do indywidualnych potrzeb każdej organizacji. Filozofia AMA AIM© opiera się na przeciwnym do „one size fits all” podejściu, gdzie każda potrzeba biznesowa jest zdefiniowana, planując konfigurację i parametryzację docelowego rozwiązania w unikalny i niepowtarzalny sposób.

Podczas wdrożenia systemu wykorzystana będzie metodyka CRISP-DM. Metodyka jest dostosowana do wdrożenia projektów przy wykorzystaniu uczenia maszynowego i sztucznej inteligencji, stanowiąc swego rodzaju standard rynkowy w prowadzeniu projektów opartych o dane. CRISP-DM pozwala na zmniejszenie ryzyka projektowego poprzez dokładne pogodzenie celu biznesowego z funkcjonalnościami tworzonego rozwiązanie, precyzyjne umiejscowienie w organizacji oraz optymalizowanie zasobów projektowych. Metodyka CRISP-DM zakłada przeprowadzenie następujących etapów:

1. Business understanding
a. zrozumienie potrzeby biznesowej związanej z analizą feedbacku odbiorców
b. ustalenie kryteriów sukcesu
c. ustalenie wszystkich interesariuszy, zasobu danych, ram czasowych oraz potencjalnych wyzwań
Produktem prac tego etapu jest zdefiniowanie szkicu ostatecznego rozwiązania, opisującego jak docelowy system powinien działać, adresując najmniejsze potrzeby użytkowników biznesowych. Zazwyczaj etap ten jest przeprowadzony w formie sesji warsztatowych przeprowadzanych z przyszłymi interesariuszami i użytkownikami biznesowymi. Warsztaty służą również celom związanym z ujednoliceniem zrozumienia problemów i funkcjonalności (na przykład, zdefiniowanie zawartości dashboardów w module „F” oraz ustalenia poziomu dostępów dla odpowiednich grup użytkowników), uzgodnieniem miar sukcesu, zdefiniowaniem wyzwań oraz ustaleniem szczegółów informatycznych i wdrożeniowych dotyczących całego systemu (wsad do modułu „I”).

2. Data understanding
Produktem prac tego etapu jest przeanalizowanie i wylistowanie dostępnych zasobów danych, przejście przez ewentualne błędy, statystyki opisowe oraz uzgodnienie formatu wsadowego do modułu „G”.

3. Modelling
Produktem prac tego etapu jest stworzenie algorytmów odpowiadających na potrzebę biznesową oraz umiejscowienie ich w kontekście posiadanych danych. Stanowi to wsad do modułów „A”, „B” i „C”.

4. Evaluation
Produktem prac tego etapu jest przeprowadzenie oceny jakości algorytmów w kontekście celów biznesowych w oparciu o założenia pochodzące z etapu „Business understanding”.

5. Deployment
Produktem prac tego etapu jest wdrożenie rozwiązania i jego automatyzacja w strukturze informatycznej klienta lub w modelu SaaS. Szczegółowy opis związany z wdrożeniem również pochodzi z założeń poczynionych na etapie „Business understanding”.

6. Monitoring
Ten etap stanowi fundament do zaadresowania wyzwań analitycznych, pozwalający na bieżące zarządzanie cyklem życia modeli / algorytmów poprzez stałe monitorowanie i ocenę jakości ich działania.

Powyższe podejście w praktyce wiąże się z następującymi kamieniami milowymi w projekcie wdrożeniowym:
Przeprowadzenie warsztatów i stworzenie dokumentu „Business understanding”
Analiza posiadanych danych oraz zdefiniowanie potencjalnych problemów na przyszłość
Stworzenie warstw wejściowych do algorytmu dla analizy sentymentu – elementów dostosowujących słownictwo i poprawiających błędy w ostatecznym rozwiązaniu.
Iteracyjne tworzenie i ocena algorytmów do analizy sentymentu wypowiedzi: do momentu osiągnięcia pożądanych metryk  stworzenie prototypu.
jeżeli faktycznie zostanie zastosowany algorytm w oparciu o sieci neuronowe BERT: adaptacja słownictwa do modelu, adaptacja architektury modelu, zamrożenie niektórych warstw modelu, adaptacja klasyfikatora modelu, dobranie hiperparamentrów uczenia, wyuczenie modelu sentymentu
Stworzenie modelu kategoryzacji i klasyfikacji tematów obecnych w wypowiedziach poprzez opracowanie zamkniętej listy tematów oraz przeuczenie innej sieci neuronowej do tego zadania
Stworzenie modelu oceny użyteczności wypowiedzi dla współpracowników
Konfiguracja i parametryzacja modułów „A” – „I” według dokumentu „Business understanding”
Przeprowadzenie testów oraz wdrożenie produkcyjne

Zalety rozwiązania i współpracy z AMA Institute
Elastyczność systemu
Przedstawiony system do automatycznej analizy wypowiedzi został zaprojektowany według wymagań nowego paradygmatu działania i może mieć szerokie zastosowanie wewnątrz organizacji, adresując problemy i wyzwania biznesowe:
Wykorzystanie w zakresie analizy opinii pracowników / ankiet pracowniczych z elementami zaprojektowania automatycznych narzędzi do spersonalizowanej komunikacji z pracownikami
Wykorzystanie w zakresie innych istniejących procesów obsługi klienta zarówno w kanałach online, jak i offline
Zwiększenie zakresu źródeł lub domen do analizy wypowiedzi: nowe aplikacje komórkowe, ankiety Net-Promoter-Score (NPS) oraz wiele innych

Modułowość systemu pozwala na dołączenie dowolnej liczby nowych źródeł danych oraz możliwość szybkiej integracji z istniejącymi systemami wewnętrznymi IT. Zaprojektowanie cyklu życia algorytmów do analizy sentymentu oraz kategoryzacji i klasyfikacji odpowiedzi wraz z automatycznym monitoringiem poprzez dedykowany moduł raportowy, daje niegraniczone możliwości zarówno w zakresie efektywnego wykorzystania sztucznej inteligencji, jak i w tworzeniu różnorodnych dashboardów oraz raportów zarządczych w celu bezproblemowego przepływu informacji w całej organizacji.

Doświadczony zespół Data Science w zakresie NLP
Zespół Data Science AMA Institute, posiada doświadczenie w zakresie tworzenia sieci neuronowych, których zdolności są obecnie nieporównywalnie lepsze niż u innych typów algorytmów w wielu dziedzinach, wliczając w to analizę języka naturalnego, Natural Language Processing (NLP). Członkowie zespołu aktualizują swoją wiedzę w tym zakresie, zwłaszcza w zastosowaniu takich rozwiązania jak BERT czy Transformer. Projekty takie jak GPT-2 oraz GPT-3 wskazują na chęć inwestycji w dziedzinę przez największe komercyjne ośrodki naukowe, co pozwala mniejszym podmiotom na korzystanie z wytwarzanych modeli oraz badań. Ponadto, zespół Data Science AMA Institute posiada doświadczenie w bardziej klasycznych metodach przetwarzania i analizy tekstu takich jak tokenizacja, normalizacja, lematyzacja, stemming, gramatyki formalne oraz TF-IDF lub odległość Levenshteina.

W AMA Institute prowadzone były projekty związane z pobieraniem tekstów o danej tematyce z różnych źródeł poprzez dedykowane API lub web-scraping stron internetowych (Mediawiki API, zawartości książek, skrypty filmów, forów internetowych, itd). Następnie teksty poddawane były procesowaniu pod kątem lematyzacji, stemmingu, tokenizacji oraz weryfikacji błędów w tekście. Przeprocesowane teksty zostały poddane analizie pod kątem bogactwa językowego, statystyk TF-IDF (metoda do obliczania wagi słów w oparciu o ich wystąpienia w tekście) z użyciem różnych wag częstotliwości i sentymentu, również w wymiarze czasowym. Następnie dane zostały wpisane w graf, który pozwolił zweryfikować relacje między węzłami na podstawie referencji, podobieństwa wartości sentymentu oraz jak relacje między węzłami zmieniają się w czasie.

Prowadząc projekty analityczno-informatyczne, szczególną uwagę zwracamy na integrację przygotowanego rozwiązania z istniejącymi już zasobami czy architekturą systemową klienta. W związku z tym docelowe rozwiązania wykorzystują najbardziej elastyczne języki programowania, systemów baz danych oraz metodologii, aby zminimalizować koszty związane z integracją i utrzymaniem systemu. W ramach przeprowadzonych już projektów, wdrażane systemy analityczno-informatyczne zawierały funkcjonalności pobierania i przetwarzania danych pochodzące z bardzo różnych źródeł – pliki tekstowe, strony internetowe, różne systemy baz danych, dedykowane API, itd., zachowując szczególną ostrożność również w zakresie bezpieczeństwa. Co więcej, specjaliści AMA Institute posiadają doświadczenie nie tylko w dziedzinie Data Science, ale również w tworzeniu oprogramowania, które obok modułów analitycznych, może współpracować z serwisami internetowymi, aplikacjami mobilnymi, korespondencją e-mailową – tworząc programy, które przynoszą korzyści biznesowe w obszarach takich jak HR, procesy produkcyjne, marketing czy e-commerce.

Studium przypadku
Celem jednego z projektów było stworzenie modelu analitycznego, który szacował prawdopodobieństwo tego czy książka wybrana do publikacji wydawniczej zostanie best-sellerem czy nie. Głównym elementem projektu była reprezentacja tekstu jako zanurzenia wektorowego, które odzwierciedla znaczenie słów w 100 wymiarowej przestrzeni liczbowej. Wektory te, wraz z danymi opisowymi samego tekstu (autor, rok wydania, gatunek literackie) stanowiły wsad do modelu dokonującego predykcji czy dany utwór literacki ma szansę zostać best-sellerem. Ostateczne rozwiązanie było w stanie określić prawdopodobieństwo sukcesu danego tekstu oraz zwrócić wyjaśnienia dotyczące klasyfikacji. W zrealizowanym projekcie szczególnie cenny był element wyjaśnienia, pozwalający na bliską współpracę na płaszczyźnie człowiek – algorytm oraz zrozumienie działań sztucznej inteligencji.

Podsumowanie
Tylko organizacje, które w pełni postawią na pozyskanie nowych kompetencji ery big data, mają szansę na zdobycie pozycji niekwestionowanych liderów. Działy obsługi klienta oraz HR powinny odgrywać rolę przywódczą, wdrażając systemy spełniające wymagania nowego paradygmatu działania. Wdrożenie systemu do automatycznej analizy wypowiedzi daje możliwość posiadania efektywnego rozwiązania w oparciu o metody sztucznej inteligencji, wnoszącego istotną wartość w budowie organizacji data driven.

System do automatycznej analizy wypowiedzi

Serhij Fuks

Następny PostZintegrowany i nowoczesny system sprzedaży kredytów