Projects » Complex Systems Computation Group CoSCo |
The Finnish Centre of Excellence in Computational Inference Research (COIN) develops methods for transforming the data produced by the current data revolution into useful information. The key methodology for achieving this goal is statistical and computational inference based on the data. The emphasis is on large data collections and computationally demanding modelling and inference algorithms. Our mission is to push the boundary towards both more complex problems, requiring more sructured data models, and towards extremely rapid inference. COIN brings in expertise on several different approaches to inference, with a unique opportunity to address the core computational challenges with combinations of machine learning, computational statistics, statistical physics, and constraint-based search and optimization.
We will work on two flagship applications. In the Intelligent Information Access flagship, the challenge is to make use of massive interrelated information sources, whether in everyday life or in science, and select what information to present to the user. The inference needs to be done on-line, learning relevance from the user's responses. In the Computational Biology and Medicine flagship, we develop methods for maximally utilizing the novel measurement databases and structured stochastic models in making data-driven biology cumulative. In addition to these two flagship applications, we work on a few additional test-bench applications in collaboration with selected top-level application partners, from science and industry.
Another problem is caused by the fact that the data is often not only big, but it is also parceled, consisting of potentially several data sources that may contain heterogeneous data types. The nature of this type of data makes it very difficult to retrieve relevant pieces of data or information in a given context, in particular when the links between the different data elements in different data sources are not explicit but implicit, and have to be inferred with the help of the constructed models.
Furthermore, the data may not only be big (and potentially parceled), but it is often also extremely high-dimensional, which makes it difficult to understand the underlying phenomena. What is needed is a rich toolbox of models, methods and algorithms for representing the information extracted from the raw data in such a manner that the results help the user to understand the domain better, and support decision-making processes by helping in drawing conclusions about future events and in estimating their probabilities.
The mission of the D2I program is to support the global trend, and contribute to such emerging ecosystems that boost Finnish international competitiveness through intelligent (context-sensitive, personalized, proactive) data processing technologies linked to new data-driven services that add measurable value, leading to increased knowledge, comfort, productivity or effectiveness. The target is reached by developing intelligent methods and tools for managing, refining and utilizing diverse data sources, and by creating new, innovative data-intensive business models and services based on these methods.
The research groups involved in the project cover a large spectrum of scientific and technical expertise and the project partners include different types of stakeholders: a retail chain, mobile technology providers, a teleoperator and representatives of diverse user groups. Project partners offer for the project also their own technology and expertise in addition to the financial support they provide for the project. Our main pilot area is K-Citymarket Ruoholahti.
The main application areas of statistical inference are model selection, hypothesis testing, and prediction. In model selection the goal typically is to increase our understanding of a problem area, by utilization of data analysis, data mining, and information extraction tools, and in hypothesis testing we estimate the validity of a certain hypothesis about the problem. In prediction, the task, of course, is to estimate the probability of some unknown quantity, which typically is temporally located in the future. To perform these statistical inference/machine learning tasks we need a theoretically solid framework, which is logically correct satisfying certain reasonable optimality criteria, while at the same time providing computationally feasible methods for practical applications. Information theory offers an excellent foundation for such a framework.
Our earlier pioneering work on information-theoretic statistical inference, in which the Minimum Description Length (MDL) principle plays a central role, has recently spurred an influx of new ideas, problems, and extensions. We believe that the new ideas lead to theoretically and practically significant advances in MDL-based modeling. The goal of the project is to study these issues further, focusing on four research areas: sequentially normalized universal models, optimally distinguishable models, extensions of the structure function, and non-stationary modeling. In addition to theoretical advances in these areas, we will develop new algorithms suitable for practical model selection, testing, and prediction tasks, and empirically demonstrate their validity using both artificial and real-world data sets from various domains.
Tilastollisen päättelyn tärkeimmät sovellusalueet ovat mallinvalinta, hypoteesin testaus, ja ennustaminen. Mallinvalinnassa päämääränä on lisätä ymmärrystämme ongelmakentästä analysoimalla tai "louhimalla" dataa, tai käyttäen muita keinoja relevantin informaation suodattamiseksi. Hypoteesin testauksessa taas arvioidaan tietyn hypoteesin paikkansapitävyyttä. Ennustamisessa on tietenkin kyse annetun tuntemattoman suureen, joka yleensä liittyy ajallisesti tulevaisuudessa sijaitsevaan tapahtumaan, todennäköisyyden arvioimisesta. Näiden tilastollisen päättelyn/koneoppimisen ongelmien ratkaisemiseksi tarvitaan teoreettisesti luotettava kehikko, joka on loogisesti konsistentti ja täyttää tietyt rationaaliset optimaalisuusehdot, tarjoten samalla laskennallisesti tehokkaita menetelmiä käytännön sovelluksiin. Informaatioteoria tarjoaa oivan perustan tällaiselle teoreettiselle kehikolle.
Aikaisempi uraauurtava työmme informaatioteoreettisen tilastollisen päättelyn parissa, missä MDL-periaaate näyttelee keskeistä roolia, on viime aikoina synnyttänyt varsinaisen uusien ideoiden, ongelmien ja laajennusten hyökyaallon. Uskomme näiden uusien ideoiden johtavan merkittäviin teoreettisiin ja käytännöllisiin edistysaskeleisiin MDL-periaatteeseen perustuvassa mallinnuksessa. Projektin tarkoitus on tutkia tarkemmin näitä uusia ideoita, keskittyen seuraaville neljälle tutkimusalueelle: sekventiaalisesti normalisoidut universaalit mallit, mallien optimaalinen erottelu, struktuurifukntion laajennukset, ja ei-stationaarinen mallinnus. Kehitämme näillä alueilla sekä uusia teoreettisia tuloksia että käytännöllisiä algoritmeja, joita voidaan käyttää mallinvalinnassa, hypoteesin testauksessa ja ennustamisessa. Kehitettyjen algoritmien soveltuvuus näihin tehtäviin osoitetaan empiirisillä kokeilla joissa käytetään sekä keinotekoisia että luonnollisia datajoukkoja monilta eri ongelma-alueilta.
Given a collection of imperfect copies of a textual document, the aim of stemmatology is to reconstruct the history of the text, indicating for each variant the source text from which it was copied. The project develops theory and methods for computer-assisted stemmatology, and evaluates the accuracy of such methods in simulated and real data-sets.
Stemmatology lies at the intersection of several scientific disciplines. On one hand, it is associated with humanities which are largely based on using texts as sources, and on the other hand, to mathematics, statistics, and computer science, and finally, to evolutionary biology and cladistics, the study evolution and speciation. The aim of traditional stemmatology — or textual criticism — has been to infer the original content of a textual source based on a number of different versions. Modern computer-assisted stemmatology has proven to be an extremely powerful tool not only for the study of the alteration of texts but in giving insight to the way the texts have been distributed geographically as well. In doing so, stemmatology is answering several central questions in historical, philological, and theological research.
Our objective is to develop reliable methods and tools for the study of the origins, variation, and distribution of texts. An easy-to-use method available on the internet, based on a sound methodology, would significantly benefit a large group of scholars in a variety humanistic disciplines. In computer science applications include, e.g., the study of computer viruses and chain letters. Advances in methods for textual scholarship also contribute to cladistics and evolutionary biology.
Stemmatologia on tieteiden kentässä usean eri tieteenalan risteyskohdassa. Se liittyy yhtäältä lähteinään tekstejä käyttäviin humanistisiin tieteisiin, toisaalta matematiikkaan, tilastotieteeseen ja tietojenkäsittelytieteeseen sekä kolmanneksi evoluutiobiologian alan eläinten lajiutumisjärjestystä tutkivaan kladistiikkaan. Perinteisesti stemmatologian — tai vanhemmin termein tekstikritiikin — päämääränä on pidetty jonkin kirjallisen lähteen alkuperäisen tekstisisällön selvittämistä laajasta joukosta erilaisia versioita. Modernin tietokoneavusteisen stemmatologian on kuitenkin havaittu olevan erittäin tehokas apuväline myös tekstien kehitys- ja leviämishistorian tutkimuksessa ja pystyvän siten vastaamaan useisiin aivan keskeisiin kysymyksiin historiantutkimuksen, filologian ja teologian alalla.
Päämäärämme on kehittää aiempaa luotettavampia metodeja ja kehittää niiden pohjalta käytännön apuvälineitä tekstien sisällön, synnyn, kehityshistorian ja leviämisen tutkimukseen. Luotettava stemmatologinen metodi ja työryhmämme kehittämä helppokäyttöinen internetissä saatavilla oleva apuväline auttaisi merkittävällä tavalla laajaa eri humanististen tieteiden tutkijoiden joukkoa. Tietojenkäsittelytieteen alalla metodin käytännöllisiä sovellusaloja ovat mm. tietokonevirusten ja ketjukirjeiden tutkimus. Tekstitutkimuksen tarpeisiin laaditun metodin kehittäminen kontribuoi myös suoraan perimän muutoksiin perehtyvän kladistiikan metodiikkaan.
The objective is to build a Europe-wide Distributed Institute which will pioneer principled methods of pattern analysis, statistical modelling and computational learning as core enabling technologies for multimodal interfaces that are capable of natural and seamless interaction with and among individual human users.
At each stage in the process, machine learning has a crucial role to play. It is proving an increasingly important tool in Machine Vision, Speech, Haptics, Brain Computer Interfaces, Information Extraction and Natural Language Processing; it provides a uniform methodology for multimodal integration; it is an invaluable tool in information extraction; while on-line learning provides the techniques needed for adaptively modelling the requirements of individual users. Though machine learning has such potential to improve the quality of multimodal interfaces, significant advances are needed, in both the fundamental techniques and their tailoring to the various aspects of the applications, before this vision can become a reality.
The institute will foster interaction between groups working on fundamental analysis including statisticians and learning theorists; algorithms groups including members of the non-linear programming community; and groups in machine vision, speech, haptics, brain-computer interfaces, natural language processing, information-retrieval, textual information processing and user modelling for computer human interaction, groups that will act as bridges to the application domains and end-users.
Pascal on EU:n rahoittama tutkimusverkosto (Network of Excellence), johon kuuluu 57 eurooppalaista tutkimuslaitosta. Helsingin yliopiston tietojenkäsittelytieteen laitos on yksi verkoston kolmestatoista ydinsolmusta (core sites) ja Helsingin yliopiston edustajalla Petri Myllymäellä on paikka verkoston johtoryhmässä. Verkoston toimintaan osallistuu aktiivisesti myös lukuisia CoSCo-ryhmän ulkopuolisia tietojenkäsittelytieteen laitoksen tutkijoita ja jatko-opiskelijoita.
Verkoston perusajatuksena on koota yhteen tilastollisen mallinnuksen ja koneoppimisen huippuosaajat Euroopassa. Verkoston kotisivulla (www.pascal-network.org) päämäärä muotoillaan seuraavasti: Tavoitteena on synnyttää Euroopan laajuinen hajautettu tutkimuslaitos, joka kehittää periaatteellisia hahmoanalyysin, tilastollisen mallintamisen ja laskennallisen oppimisen menetelmiä, jotka mahdollistavat multimodaalisten, luonnolliseen ja saumattomaan vuorovaikutukseen kykenevien käyttöliittymien kehittämisen.
Koneoppimisella on ratkaiseva rooli prosessin kaikissa vaiheissa. Se on osoittautunut tärkeäksi työkaluksi konenäössä, puheentunnistuksessa, haptiikassa, aivokäyttöliittymissä, tiedon eristämisessä ja luonnollisen kielen käsittelyssä. Se tarjoaa yhdenmukaisen metodologian multimodaaliselle integraatiolle. Se on korvaamaton työkalu tiedon eristämisessä, ja online-oppiminen tarjoaa tekniikan jota tarvitaan yksittäisten käyttäjien vaatimusten adaptiivisessa mallintamisessa. Huolimatta koneoppimisen potentiaalista multimodaalisten käyttöliittymien laadun kehittämisessä, visioiden toteuttamiseksi tarvitaan vielä merkittäviä edistysaskeleita sekä perustekniikoissa että niiden sovittamisessa sovellusten lukuisiin vaatimuksiin.
Tutkimuslaitos tulee edistämään vuorovaikutusta sellaisten perusanalyysin parissa työskentelevien ryhmien välillä kuten tilastotieteilijät ja oppimisteoreetikot, algoritmitutkijat erityisesti epälineaarisen ohjelmoinnin alueelta, tutkimusryhmät konenäön, puheentunnistuksen, haptiikan, aivokäyttöliittymien, luonnollisen kielen käsittelyn, tiedonhaun, tekstitiedonkäsittelyn ja käyttäjämallinnuksen alueilta sekä ryhmät jotka toimivat välittäjinä sovellusalueisiin ja loppukäyttäjiin.
University of Helsinki | Department of Computer Science | Helsinki Institute for Information Technology |
cosco@hiit.fi |