Friday, May 30, 2014

Rfx và Wordpress: Smarter Content Editor with Reactive Data Mining

Wordpress là một trong công cụ mã nguồn mở (open source) phổ biến nhất thế giới cho việc làm content (media publishers).
content + Wordpress + customized theme + plugins = super cool media publisher

Rfx là một framework miễn phí cho việc xây dựng backend analytics và có những phản ứng thông minh để làm personalize nhu cầu thông tin của từng đối tuợng theo mô hình:
content + logs + data mining => smarter recommendation engine

Connecting the dots ?
Một editor cần đuợc cá nhân hóa với từng context (đang ở quán nhậu), rating món ăn, review. 
Nếu 1 user khác cùng gu (sở thích), hệ thống sẽ tự push content đến (Wordpress có web API cho việc làm mobile app khá dễ).

List vài ý tuởng ra, mục đích là wordpress nó thông minh hơn, tích hợp sâu Rfx với Wordpress để làm Rfx trở thành 1 công cụ data mining phổ biến như Wordpress.






Thursday, May 29, 2014

Internet Trends 2014 and Big Data





Big Data Trends
1) Uploadable / Findable / Sharable / Real-Time Data Rising Rapidly
2) Sensor Use Rising Rapidly
3) Processing Costs Falling Rapidly...While The Cloud Rises
4) Beautiful New User Interfaces – Aided by Data-Generating Consumers – Helping Make Data Usable / Useful...
5) Data Mining / Analytics Tools Improving & Helping Find Patterns
6) Early Emergence of Data / Pattern-Driven Problem Solving

More Data + More Transparency = More Patterns & More Complexity
Transparency: Instant sharing / communication of many things has potential to make world better / safer place but potential impact to personal privacy will remain on-going challenge...
Patterns: Mining rising volume of data has potential to yield patterns that help solve basic / previously unsolvable problems but create new challenges related to individual rights...

Biggest Re-Imagination of All = People Enabled With Mobile Devices + Sensors Uploading Troves of Findable & Sharable Data

Source: 
  1. PDF: http://s3.amazonaws.com/kpcbweb/files/85/Internet_Trends_2014_vFINAL_-_05_28_14-_PDF.pdf?1401286773
  2. http://techcrunch.com/gallery/mary-meeker-internet-trends/
  3. http://qz.com/214307/mary-meeker-2014-internet-trends-report-all-the-slides/

Monday, May 26, 2014

Data Science Workflow

Data Science Workflow
Just found interesting image about Data Science. It's useful for my work !

Wednesday, May 21, 2014

Data: từ Digital Media đến Feedback Control, Marketing, Usability và Advertising


Một thực tế khi mà thế giới ngày càng số hóa, luợng data tạo ra ngày càng nhiều thì những nhu cầu mới sẽ phát sinh. Đó là những câu hỏi mới, vấn đề mới và những công cụ mới để giải quyết nó.
Big Data là một 1 chủ đề rộng, do phạm vi bài biết này chỉ tập trung vào các topic chính xoay quanh ngành truyền thông trong kỷ nguyên số (digital media).

Có 3 khái niệm chính mà các agency quảng cáo, các nhà marketing, content maker và việc operation các medias trên Internet cần chú ý:
  1. Scale khi business phát triển => Feedback Control
  2. Content value, khả năng reach user của channel => Marketing 
  3. Nâng cao tỉ lệ conversion quảng cáo, cách thức user đọc và sử dụng media => Usability
Tóm lại, 3 yếu tố trên sẽ ảnh huởng khả năng sinh lợi nhuận từ media, thông qua các hình thức quảng cáo (CPC, CPA, CPM, branding, native advertising ) ,... => Advertising

Các dẫn chứng cụ thể:

Why Feedback? Maintaining a desired behavior
http://programming.oreilly.com/2013/10/why-feedback.html
Server Scaling, Order Processing, Queue Control, Workflow Management, Supply-Chain Management
http://smartdatacollective.com/tracey-wallace/200266/does-data-mining-require-phd-probably-not-new-york-times-hired-one
Data intelligence is the future of journalism — even a 162-year-old publication knows that — which is why when the New York Times hired a data scientist, no one flinched. Startups like PolicyMic and UpWorthy have been using data analytics and — yes — data scientists to beef up their headlines, only putting out there what the numbers show their audiences are most likely to click on.
http://www.mc2ads.com/2014/03/how-usability-testing-with-reactive-big.html
How Usability Testing with Reactive Big Data, case studies: NewYorkTimes, BBC and VnExpress
http://www.mc2ads.com/2014/03/advertising-news-and-customer-insights.html
Customer insights, một trong những yếu tố vô cùng quan trọng trong việc ảnh hưởng trực tiếp đến việc ra các quyết định marketing, quảng cáo. Thế nhưng một thực tế hiện nay đang diễn ra là đa phần giớimarketers Việt Nam chưa nhận thức và áp dụng yếu tố này đủ mức để nó xứng với vai trò trong ngành. 
http://www.mc2ads.com/2014/02/harnessing-power-of-big-data-for-media.html
  • Successes and failures using Big Data in magazine company marketing
  • Gathering, analysing and leveraging consumer insights 
  • Understanding media content usage patterns in real time
  • Best practices in social media analysis
  • Best practices in leveraging Big Data and mobile content
  • Big Data tactics and strategies now and for the future
  • Award-winning data journalism projects, and how they executed these projects
  • Monetisation using Big Data strategies
  • Delivering targeted content leveraging Big Data
  • Tools used to understand complex data sets, including data visualisation techniques

Tuesday, May 20, 2014

How to Boost Your Sales with Big Data


  • Leads: A key factor in finding success in sales is generating a large amount of leads. Focus Areas: Companies can also use real-time monitoring to evaluate the selected areas and make quick changes if necessary
  • Feedback: companies can gather feedback from numerous sources — social media, website, phone calls, web-chats, and the reps themselves.
  • Gamification: It drives customer and motivates them — they want to have their name at the top of the list.
  • Monitoring: bring in large amounts of important information that allows them to analyze their workforce and make necessary adjustments to increase productivity or to adequately reward past results.
  • Customer Experience: consumers expect companies to provide a positive, engaging experience. It’s these kinds of experiences that make a consumer want to buy your product

Monday, May 5, 2014

từ NoSQL đến thiết kế hệ thống E-Learning sử dụng Analytics

    How is the DB going to handle a huge amount of data (as LRS is experience API , records learners' exeperience)
MongoDb có thể thích hợp, vì tần số WRITE/READ của nó khá tốt, phù hợp với bài tóan log tracking history của learner
http://www.tokutek.com/2012/08/10x-insertion-performance-increase-for-mongodb-with-fractal-tree-indexes/

    Which DBMS is suitable for triple store (triplet: I did this, he did that, etc.)
MongoDB là loại document NoSQL, để optimize lúc query cho report cần thiết kế thêm các index cho hợp lý là ổn.
Tham khảo:
http://docs.mongodb.org/ecosystem/use-cases/storing-log-data/

    Which structure is scalable and suitable (eg: cluster)
Sharding và Cluster là đủ, MongoDb có support việc này.

    Listing some common name of some service out there (pricing included)
Links Tham khảo:
http://www.mongodb.com/partners/cloud/amazon
https://mongolab.com/plans/pricing/

    Beneficial of using an external service against our own server (if any)
Đỡ đầu tư máy móc cho buớc đầu, prototype nhanh, code nhanh ra demo. Nếu data nhiều, ngày càng quan trọng (business phát triển) và có tiền thì tự đầu tư riêng (ban đầu nên xài cloud cho nhanh và tiện)

    How much of data for a node (cluster) that can handle
Khá tốt nếu so với HBase và Cassandra
http://jaxenter.com/evaluating-nosql-performance-which-database-is-right-for-your-data.1-49428.html

    When we need to add in more nodes (cluster)
xem trên StackOverFlow nhé, http://stackoverflow.com/questions/6575643/mongodb-sharding-how-does-it-rebalance-when-adding-new-nodes
Các link khác:
Để lưa chọn NoSQL phù hợp cho từng loại ứng dụng, truớc hết chúng ta cần trả lời các câu hỏi về model trong mô hình ứng dụng chuẩn cơ bản MVC (Model-View-Controller)
mức model, để lưu và quản lý data, cơ bản có thể chia làm 2 sub-layer: conceptual data model và physical data model.
VD trong 1 hệ thống e-learning
conceptual data model: là student, teacher, resource, ebook, slide, exercise, ...
physical data model: là cấu trúc dữ liệu, loại structure nào sẽ phù hợp cho loại đối tuợng (list, hashmap, vector, set, queue, tree, graph, ...)

TODO: sẽ update thêm khi có thời gian

Ý tuởng về hệ thống điều tiết và cảnh báo sớm nguy hiểm cho nguời và các phuơng tiện giao thông

Bài này bàn về việc nâng cao khả năng giao thông thông minh và an tòan hơn: cơ sở hạ tầng cần có, hạn chế hiện tại và các giải pháp cho tuơng lai

Nguồn cảm hứng chính:
http://www.slideshare.net/tantrieuf31/bai-bao-webcambienqlvantai


Image từ http://geospatialworld.net/Magazine/MArticleView.aspx?aid=30598
Cơ sở dữ liệu về các vụ tai nạn giao thông, cuớp giật và thông tin về giao thông
=> phát triển 1 loại crawler đặc biệt, quét các thông tin từ báo online (VnExpress, Tuoitre, ...) và các nguồn thông tin public trên Internet. (focused-topic crawler). Sau khi crawling về, thông tin raw  sẽ đuợc lưu ở Hadoop (có thể vài GB) và đuợc indexing với Lucene
Tools:
http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html
http://lucene.apache.org/core/
https://code.google.com/p/crawler4j/
http://phantomjs.org

Crowdsourcing các nguồn dữ liệu về trung tâm xử lý
http://mt.gov.vn/Default.aspx?tabid=26&catid=204&articleid=18789
Mô hình của chính phủ xây dựng "Trung tâm Thông tin dữ liệu đường bộ" có nhiều hạn chế, điểm chính không real-time, không lưu lại thông tin tuơng tác giữa nguời dân tham gia (crowdsourcing)
http://www.psfk.com/2014/03/crowdsourcing-traffic-data-app-could-create-a-better-bus-system.html
CrowdNav:Information Dissemination system for traffic enhancement
https://qspace.library.queensu.ca/bitstream/1974/7168/1/Alyaseen_Dina_A_201204_MSC.pdf
=> làm 1 app cho mọi nguời post và share các thông tin giao thông (what, where, when)

Cơ sở dữ liệu về các dynamic agent (http://en.wikipedia.org/wiki/Intelligent_agent ), agent là các đối tuợng vừa mang thông tin về database về giao thông vừa mang các thông tin hành động cần thiết đối với các loại tính huống khác nhau (VD: agent thông tin nguời giao thông dùng xe máy, context là đuờng nội thành, thời gian từ 7h-9h sáng ). Việc hiện thực các agent 1 cách khả thi nhất là dùng mô hình actor của Akka framework, http://akka.io
Việc này nhằm tăng khả năng tự vận hành độc lập của hệ thống, các agent có thể xem như 1 con nguời, vận động trong môi truờng máy tính (matrix và network).
Một khi có thông tin agent cảm thấy nguy hiểm (kẹt xe, đuờng ngập, sạt lở đất đá,...) nó sẽ báo trực tiếp cho nguời tham gia giao thông thông qua app cài sẵn trên smartphone
Tham khảo:
http://www.lsi.upc.edu/~bejar/aia/aia-web/ingham99what.pdf
http://www.slideshare.net/tantrieuf31/big-datainfrastructure-todotasks

Hệ thống back-end và middle-ware cho web-services: mức này, đảm nhận các nhận thông tin logs từ các sensor trên đuờng (các camera giao thông, cảm biến )
Tham khảo: